91学术服务平台

您好,欢迎来到91学术官网!业务合作:91xueshu@sina.com,站长邮箱:91xszz@sina.com

发布论文

论文咨询

声音信号应用不同语音特征进行分类的有效性分析

  2020-12-02    1138  上传者:管理员

摘要:声音信号分类是准确进行语音预测、解码和识别的基础工作。深度神经网络是目前音频分类的主流方法。选用19种不同语音特征,以3种噪声作为分类对象,采用深度长短时记忆神经网络作为分类算法,比较了不同语音特征及特征融合对噪声信号分类准确度的影响,总结了不同特征对信号分类的有效程度,并对实验结果进行了说话人识别验证。该研究对公安领域说话人身份识别具有一定的参考价值。

  • 关键词:
  • LSTM
  • 信号分类
  • 深度神经网络
  • 语音信号
  • 语音特征
  • 加入收藏

1、引言


语音信号作为特定信息的载体,已经成为人们社会生活中获取和传播信息的重要手段。人工智能的迅速发展给人们的生活带来了便利,但新型的犯罪手段也随之而来。近些年,电信诈骗等危害公共安全和财产安全的事件频频报出,语音证据的使用更加频繁,公安对于语音证据的研究也愈加重视。在语音信号处理的过程中,语音分类是一项基础性工作,同时也是研究的难点。

目前语音信号分类有两大主要研究方向:一种是基于模型训练的分类方法,该方法简化语音处理过程,但需要大量训练数据支持,训练过程复杂且耗费时间长。另一种是基于特征提取的分类方法,该方法对特征的选择要求高,需要对大量语音特征进行分析[1]。两种分类方法各有千秋,在相关实验中对不同语音信号分类起到了良好的效果。SajjadAbdoli等人提出了一种基于一维卷积神经网络的端到端的环境声音分类方法,对UrbanSound8K数据集分类的平均准确率能达到89%,该方法参数少、不受语音长度限制,解决训练量大的问题[2]。文献[3]采用基于多个特征参数应用Fisher分类器的方法,对训练外的清浊音进行分类,其准确率可达到96.7%。此外,文献[1]在特征提取的基础上,探究同人群、不同发音的语音信号分布规律,提出了一种基于李亚普大指数的语音信号混沌特性的分类方法,弥补了传统线性分析方法的不足。构建语音信号分类的模型有很多。文献[4]通过SFLA算法优化BP神经网络的权值与阈值,从而使语音信号分类的正确率平均提高了1.31%,解决BP神经网络学习收敛速度慢、容易陷入局部最优的问题。但随着深度学习的迅速发展,语音识别技术逐渐开始与深度学习紧密结合。Richardson等人通过深度神经网络构建一个基于瓶颈特征的i-vector系统提取语音特征[5];文献[6]将特征提取与模式识别相结合,将语音信号转为语音图谱,语音图谱通过卷积神经网络完成分类。此外模型相互结合或融合逐渐成为一种趋势,文献[7]搭建了前后端网络模型,先通过卷积神经网络提取语谱图中的语音特征,再将语音特征输入深度循环神经网络中进行分类完成声纹识别。

语音是一段前后关联性强的连续信号,循环神经网络与卷积神经网络相比,具有更强的长时建模能力,在处理时间序列信号上占优势,因此常用于语音信号的处理。本文采用一种携带记忆单元的循环神经网络——长短时记忆神经网络(LongShort-TermMemory,LSTM),它比常规循环神经网络更适合处理长时依赖问题,能够避免梯度消失问题的发生,从而提高噪声分类的准确性。本文通过LSTM架构比较不同的语音特征和多种语音特征融合对噪声信号分类准确度的影响,在一定程度上,为说话人识别在选择特征方面起到了一定的借鉴作用。


2、LSTM网络模型


长短时记忆神经网络是由HOCHREITER、SCHMIDHUBER提出,并由GRAVES改良和推广的一种循环神经网络的变体[8]。它在标准循环神经网络的基础上添加了一个携带轨道,优化RNN的远距离学习能力,更适合处理长时依赖问题,避免了梯度消失和梯度爆炸的发生,在语音合成[9]、语音识别[10]、预测问题[11]、机器翻译[12]等领域广泛运用。本文采用了LSTM神经网络作为噪声信号特征的分类器。

LSTM神经网络包含输入层、输出层和若干递归隐层,递归隐层是由记忆单元组成,每个记忆单元含有一个或多个自连接记忆细胞来进行线性的反馈传递,从而加强神经元内部之间的联系[13]。图1表示LSTM记忆单元的结构图。

图1LSTM记忆单元

LSTM神经网络引入门的机制控制信息的累积速度,提供对记忆单元的写、读、重置操作[14]。每个记忆单元含有3个门:输入门、遗忘门与输出门,输入门()决定需要更新的信息,遗忘门()决定神经元需要丢弃的信息,输出门()决定需要输出的信息。它们与sigmoid神经层进行逐点相乘完成信息的筛选,然后通过携带轨道对下一个记忆单元的状态产生影响。假设在t时刻,已知输入的序列,递归隐层按照时刻t=1~T依次计算3个门和记忆单元的激活值,此时3个门元素的取值范围是[0,1],那么在t时刻LSTM的算法如下:

输入门:

遗忘门:

记忆细胞:

输出门:

隐层输出:

其中,为上一神经元输出,为t时刻该神经元的输出。


3、语音特征


语音特征提取是采用各种模拟和数字处理技术,运用软件和硬件等手段,选择和提取表征语音信号特征的过程。特征提取是语音信号分类的重要阶段,其关键在于尽量保留对分类有意义的信息,最大限度地减少冗余、无用的信息,从而实现数据的压缩[15]。

只提取单一特征往往无法充分表征语音信号的全部特点,于是选择多种特征融合的改进方式,使特征之间能够相互补充与映衬,在一定程度上能够提高语音信号分类的准确度和有效性。文献[16]比较了MFCC、GFCC、Log-MelSpectrogram、GammatoneSpectrogram、MeLSpectrogram、CST6种语音特征,以及它们之间两两组合或三三组合的8种不同的融合特征对环境声音分类的影响,在UrbanSound8K和ESC-50数据集上,MFCC、Log-MelSpectrogram、CST3种语音特征融合的分类效果最佳,准确率分别达到93.4%和85.6%。文献[17]构建了一个基于噪声Bark域能量分布的22维的特征向量,通过支持向量机对两种噪声数据集进行分类,平均准确率分别达到99.5%和93.44%。

3.1倒谱系数特征

倒谱系数特征在音频信号处理和分类中时常用到,提取该种特征的一般流程为:先对语音信号进行分帧、加窗等预处理,接着对每一帧信号进行快速傅里叶变换,计算谱线能量,然后通过滤波器滤波后得到一组系数,最后再进行离散余弦变换和倒谱变换得到倒谱系数特征。提取的流程图见图2。

图2倒谱系数特征提取流程

本文采用Mel频率倒谱系数(MelFrequencyCepstralCoefficient,MFCC)和Gammatone倒谱系数(GammatoneCepstralCoefficient,GTCC),并引入其各自的一阶差分与二阶差分特征,以此获取语音的静态特征与动态特征,从而在一定程度上提高语音的识别效果。

3.1.1Mel频率倒谱系数

Mel频率倒谱系数是根据人的听觉实验结果来分析语音频谱的特性。由于人耳主观上所听到的声音高低与声音的客观频率并不成线性正比关系,因此Mel频率倒谱系数符合人耳的听觉特性,具有较强的识别能力。Mel频率尺度的值与实际频率的具体关系可用以下公式表示:

其中,是以美尔(Mel)为单位的感知频率,是以Hz为单位的实际频率。

3.1.2Gammatone倒谱系数

Gammatone(GT)滤波器是伽马分布函数表示的一种脉冲响应,它基于心理声学的测试,具有较为尖锐的频率选择特性。由于GT滤波器与人耳耳蜗基底膜的滤波特性一致,因此可提供一个更为准确的近似知觉的频率响应[18]。它的计算公式为:

其中,表示振幅因子,表示滤波器阶数,表示脉冲响应的持续时间,表示滤波器中央频率,表示滤波器相位[19]。

3.2声谱图特征

声谱图是一种用来表征音频特性的图像,它从图像的角度将语音信号特征具体化、形象化,从而在音频分类与识别领域中发挥一定的作用。其中声谱偏度特征与频谱峰度特征是我们常用的声谱图特征。

3.2.1声谱偏度

波谱偏度是一种三阶统计量信号特征,用以度量数据在其算术平均值附近分布的非对称程度,反映统计数据分布偏斜的方向。偏度等于0表示数据对称分布,偏度小于0表示波谱右侧数值高于左侧,反之偏度大于0表示波谱左侧数值大于右侧。该特征常用于情感识别、音乐类型分类、电机轴承故障检测和语音帕金森病检测。其计算公式如下:

其中,代表在k时的频率,代表在时的谱值,代表声谱偏度的带宽,分别是质心系数与瞬时频率带宽系数[20]107030。

3.2.2频谱峰度

频谱峰度是一种四阶统计量特征,用以度量数据在其均值附近的平直度。峰度值为0,波图呈现高斯分布;峰度值小于0时,波图平坦分布;峰度值大于0时,波图出现尖峰值。其计算公式如下:

其中,代表在k时的频率,代表在时的谱值,代表声谱偏度的带宽,分别是质心系数与瞬时频率带宽系数[20]107031。


4、实验设计


4.1设备软件

实验采用Ubuntu18.04.3LTS系统,使用MATLAB2019b进行实验。

4.2数据库

4.2.1噪声库

噪声库由MATLAB软件随机生成,包含纯净的白色噪声信号、棕色噪声信号、粉色噪声信号各1000条,每类噪声信号随机选择800条作为训练数据,200条作为验证数据,提取特征序列输入模型。信号持续时间为0.5秒,采样率为44.1kHz。

4.2.2Librispeech库

Librispeech库是国际上的开源数据集,在说话人识别领域具有一定的权威性和主流性。它包含了40个说话人,共1000小时的英文阅读语料。选择1831条音频文件作为训练数据,786条作为验证数据,提取特征序列输入模型,采样率为16kHz。

4.3特征提取

选择melSpectrum,提取上述4种特征在内的19种特征及19种特征之间相互融合的多种维度特征。分析窗口采用汉明窗,设定其值为1024,相邻分析窗口的重叠长度为512。19种语音信号特征见表1。

表119种语音信号特征

4.4模型构造

共构建5层网络模型。第1层为特征输入层,共输入2400个噪声信号。第2层为单层LSTM,设置50个隐层神经元个数。后3层依次为全链接层、softmax函数层和分类层。同时采用Adam一阶梯度优化算法,用以更新神经网络权重。最小批量为64,训练周期为10,学习速率下降因子为0.001。


5、结果与分析


5.1单个特征对噪声信号的分类

通过构建上述LSTM神经网络模型,提取单个特征对白色、棕色、粉色噪声信号进行分类,发现除mfccDelta、mfccDeltaDelta、gtccDelta、gtccDeltaDelta、spectralFlux、spectralRolloffPoint、spectralSlope、pitch、harmonicRatio外,其余特征分类的准确率都能达到100%,其中gtccDelta、gtccDeltaDelta、spectralFlux、spectralRolloffPoint、spectralSlope特征表现差,准确率分别为66.67%、67.67%、33.33%、66.67%、33.33%。具体结果见表2。

表2单个特征对噪声信号分类的影响

由表2分析可得,采用单一特征对3种噪声信号进行分类时,10种信号特征能达到100%的准确度,表现佳;4种信号特征能达到80%~100%的准确度,表现较好;3种信号特征能达到60%~70%的准确度,表现较差;剩下2种信号特征的准确度只能达到30%~40%,表现差。表现效果不佳的信号特征可能是由于特征本身在当前噪声数据库下表现不突出,各类噪声信号差别不明显导致分类效果不佳。

比较mfcc与gtcc及他们的一阶差分、二阶差分对噪声信号分类的准确度,不难看出,在这类任务下mfcc特征要优于gtcc特征,mfcc特征的一阶差分与二阶差分的准确度明显高于gtcc的差分特征。同时无论是mfcc特征还是gtcc特征,原特征的准确度都要高于其一阶差分与二阶差分特征,二阶差分的准确度高于一阶差分特征。差分运算对于三类简单的分类而言,没有起到促进作用,反而可能增加了模型的计算量导致分类的效果不佳。二阶差分运算相对于一阶差分,虽然计算量进一步加大,但是其联系的是前中后三帧之间的关系,而一阶差分只联系了前后两针的关系,此效果远比计算量的影响大,因此二阶差分特征可能表征得更加全面,分类准确度有所提高。

5.2多个特征对噪声信号的分类

通过构建上述LSTM神经网络模型,提取多个特征对白色、棕色、粉色噪声信号进行分类,从表3的实验结果可知:多个准确度达100%的单个特征相互融合或准确度达100%的单个特征与表现较弱(表2中准确度未达100%)的特征进行融合时,不受融合维度的影响,噪声信号分类的准确度仍能保持100%;而当多个表现较弱的特征相互融合时,特征维度小于27,噪声信号分类的准确度相比单个特征的准确度都有所提高(spectralRolloffPoint、gtccDelta特征有不变情况出现),但当特征维度不小于27时,mfccDelta等表现一般(表2中准确度达80%~100%)的特征,噪声信号分类的准确度相比其单个特征的准确度反而有所下降。

表3多个特征对噪声信号分类的影响

注:特征下划线表示提取单个特征时对噪声分类表现一般(准确度达80%-100%),特征着重号表示提取单个特征对噪声分类表现差(准确度<70%),其余表示提取单个特征时对噪声分类表现好(准确度达100%)。

由表3分析可得,在对3种噪声信号进行分类时,多种特征融合构成不同维度的特征,并不是维度越大越好,也不是维度小表现就差,但可以看出,表现佳的单一特征与表现差的单一特征组合时,前者能够弥补后者特征的不足,从而使分类准确度达到100%。而单纯为了提高特征维度,随意将表现差的特征融合在一起,分类的准确度相比单一特征而言有提高,但是分类的准确率仍然低。因此在进行特征融合时,尽量选用表现较好的特征以达到预期效果。

分别单看表3中前3种不同维度融合特征的最后一组数据,它们是由单个表现差的特征融合在一起。比较其分类的准确度,可以发现维度的增加并未使分类的准确度上升。再比较表3中后3种不同维度融合特征的最后一组数据,它们包含一种表现一般的融合特征,虽然在准确率上有所提高,但是维度达到41时,准确度急速下降。实验表明,一味提高特征维度分类效果反而会不佳,可能是实验类别少的问题导致提高维度对分类效果起到反作用,增加训练的计算量。

5.3小结

噪音是物体做不规则振动发出的声音,具有相对性。实验生成单一的白色噪声、粉色噪声、棕色噪声都是日常生活中常见的噪声信号,不完全是我们常理解的难听扰民的噪音。纯净的白色噪声、粉色噪声、棕色噪声都具有一定的特点和规律。白色噪声频率的能量密度相同,粉色噪声的频率和褐色噪声的分量功率分别分布于中低频段和低频段。因此,噪声本身的特点与频带分布对噪声分类存在影响。采样频率设为标准的44100Hz,保证能够精准地还原出原始的模拟讯息,从而提高噪声分类的准确度。


6、说话人识别验证


不同语音特征在纯净的噪声信号上的表现原则上对说话人识别特征的选取具有一定的借鉴作用。为了验证两者之间的关系,本文又进行说话人识别验证实验。

构建上述LSTM神经网络模型,采用Librispeech语音库,提取语音特征对说话人进行识别。设置训练周期为30,最小批量为128,相邻分析窗口的重叠长度为480,其余参数与上述实验的参数保持一致。

6.1单个特征对说话人识别的影响结果

通过构建上述LSTM神经网络模型,提取单个特征对40个说话人进行识别,从表4的实验结果可知:13维的mfcc、gtcc特征及其一阶、二阶特征对说话人识别表现好(准确度达80%~100%),而剩下仅有1维的声谱图特征对说话人识别表现差(准确度<30%),其中单一的spectralFlatness特征无法对说话人进行识别。图3表示单一的gtcc特征对说话人识别结果的矩阵图。

图3gtcc特征对说话人识别的结果

6.2多个特征对说话人识别的影响结果

通过构建上述LSTM神经网络模型,提取多个特征对40个说话人进行识别,从表5的实验结果可知:特征融合的维度越高对说话人识别的效果越好(准确度>90%);若是简单的将1维的声谱图特征进行融合,其对说话人识别的表现差(准确度<50%),尤其是将spectralFlatness特征进行融合后对识别的准确度影响大,甚至出现无法识别的现象。图4表示mfcc、gtcc、mfccDelta、gtccDelta、mfccDeltaDelta、gtccDeltaDelta相互融合的78维特征对说话人识别结果的矩阵图。

图4mfcc、gtcc、mfccDelta、gtccDelta、mfccDeltaDelta、gtccDeltaDelta特征融合对说话人识别的结果

6.3综合分析与比较

通过分析比较不同语音特征对噪声信号分类和说话人识别结果的影响,发现大多数低维特征对噪声信号分类的表现好,维度过高的融合特征反而对分类具有反作用。而在说话人识别中无论是单个特征还是多个特征,低维特征表现差,高维特征表现好。这是由于说话人发出的信号比单一的噪声信号复杂得多,需要更高维度的特征去充分表示以获得高识别率。

同时在说话人识别中,gtcc特征及其一阶、二阶特征的表现要优于mfcc特征及其一阶、二阶特征。这是由于mfcc特征是根据人的听觉实验结果来分析语音频谱的特性,而gtcc特征直接采用了与人耳耳蜗基底膜的滤波特性一致的GT滤波器,因此可以提供一个更为准确的近似知觉的频率响应,从而提高说话人的识别率。但是mfcc、gtcc特征要优于其对应差分特征,这点与噪声信号分类的实验结果相同,同时这两种特征在本文的两组实验中均表现好。


7、结论


本文搭建深度长短时记忆神经网络,比较19种单一语音特征和多种维度的融合特征对噪声信号分类和说话人识别的影响。结果表明:19种单一的语音特征除gtccDelta、gtccDeltaDelta、spectralFlux、spectralRolloffPoint、spectralSlope特征外对噪声信号分类的效果好,经特征融合后,效果好的特征能够弥补效果差的特征的不足从而提高噪声分类的准确度,但融合的维度不宜过高。而对于说话人识别而言,无论是单一特征还是融合特征,维度越高对识别的表现越好,低维度特征表现差。

选择最优的语音特征或最佳的特征融合方案是从源头上对说话人识别的提高。本文的实验结果对于语音特征的选择与融合具有一定的参考价值,为公安实践说话人身份的识别提供借鉴。

表4单个特征对说话人识别的影响

注:“-”表示特征无法对说话人进行识别。

表5多个特征对说话人识别的影响导

注:“-”表示特征无法对说话人进行识别。


参考文献:

[1]张其进,张玉梅.基于混沌特性的语音信号分类[J].计算机技术与发展,2019(1):66-69+74.

[3]朱琦,酆广增,肖海勇.基于模式识别的语音分类方法[J].南京邮电学院学报(自然科学版),2000(4):29-33.

[4]叶红卫,戴光智.基于SFLA优化BP神经网络的语音信号分类[J].计算机测量与控制,2017(5):225-227+231.

[6]胡青,刘本永.基于卷积神经网络分类的说话人识别算法[J].信息网络安全,2016(4):55-60.

[7]余玲飞,刘强.基于深度循环网络的声纹识别方法研究及应用[J].计算机应用研究,2019(1):153-158.

[9]陈宙斯,胡文心.简化LSTM的语音合成[J].计算机工程与应用,2018(3):131-135.

[10]胡婷婷,冯亚琴,沈凌洁,等.基于注意力机制的LSTM语音情感主要特征选择[J].声学技术,2019(4):414-421.

[11]高雅,江国华,秦小麟,等.基于LSTM的移动对象位置预测算法[J].计算机科学与探索,2019(1):23-34.

[12]刘婉婉,苏依拉,乌尼尔,等.基于LSTM的蒙汉机器翻译的研究[J].计算机工程与科学,2018(10):1890-1896.

[13]张宇,张鹏远,颜永红.基于注意力LSTM和多任务学习的远场语音识别[J].清华大学学报(自然科学版),2018(3):249-253.

[14]赵淑芳,董小雨.基于改进的LSTM深度神经网络语音识别研究[J].郑州大学学报(工学版),2018(5):63-67.

[15]许东星.基于GMM和高层信息特征的文本无关说话人识别研究[D].合肥:中国科学技术大学,2009:1-113.

[17]袁文浩,林家骏,陈宁,等.一种基于Bark域能量分布的噪声分类方法[J].华东理工大学学报(自然科学版),2013(4):472-476.

[18]王华朋.基于听觉模型的法庭语音证据特征量化[J].中国刑警学院学报,2018(1):119-122.


王华朋,牛瑾琳,刘元周,张琨瑶.不同语音特征对声音分类的有效性研究[J].中国刑警学院学报,2020(06):122-128.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

公安研究

期刊名称:公安研究

期刊人气:1517

期刊详情

主管单位:中华人民共和国公安部

主办单位:公安部第四研究所

出版地方:北京

专业分类:公安

国际刊号:1005-1821

国内刊号:11-2438/D

创刊时间:1988年

发行周期:月刊

期刊开本:大16开

见刊时间:4-6个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

400-069-1609

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定