含噪语音信号频谱增强技术的统计方法研究与展望

含噪语音信号频谱增强技术的统计方法研究与展望。

1、引言  基于单个麦克风的含噪语音信号频谱增强技术,作为语音识别、助听系统和免提终端通信中的一个重要应用研究领域,一直受到有关学术和工业界的高度重视并引起极大的研究热诚[1—3],迄今已出现了大量技术方法。最为著名的技术应该算谱相减(spectral subtraction)方法[4—5],该方法首先基于含噪语音信号的短时功率谱密度来估计出背景噪声短时功率谱密度,然后将含噪语音信号的短时功率谱密度减去已估背景噪声短时功率谱密度,用该差值的平方根作为频谱幅度,并与原含噪语音信号频谱的相位一起来估计原非含噪语音信号,从而达到语音增强结果。这一技术通常使增强语音信号中存在着影响听觉效果的随机起伏窄带残留噪声,即音乐噪声(musical tone)。为减小和降低这一音乐噪声,Boll[4]、Berouti[6]、Goh[7]、Sim[8]和Gustafsson[9]等相继地提出了一些行之有效的方法,以便改进谱相减技术的性能。而Tsoukalas[10]和Virag[11]则分别从人类听觉系统的特性出发,提出了基于听觉遮隐特性(masking property)的谱相减技术。谱相减类型的语音增强技术均对语音噪声作出了最少的先验假设,在应用和实际实现时,合理地选择有关参数,对某些应用场合可得到符合要求的增强结果。

思想汇报 /sixianghuibao/   与之相反,语音增强另一类称之为统计方法的技术则需要估计语音增强信号,使其与原非退化语音信号间的失真度最小化[12—16]。这类方法均需要对语音噪声的可靠统计模型做出先验假定,并且还需要事先规定或定义听觉意义上的失真测度。鉴于语音信号的统计模型和听觉意义上的失真测度至今尚未完全确定,那么现有的不同语音增强统计方法之差别主要在于它们所基于语音统计模型[12—15]和失真测度[17—19]之不同以及谱增强算法的特殊实现方式[2]。基于隐马尔可夫过程(Hidden Markov Process,HMP)的谱增强技术试图避开对语音噪声过程的特定统计分布作事先假设[20—23],它首先根据噪声和非退化语音样本的长训练集序列来估计语音噪声过程的概率分布,然后将已估两过程之概率分布同时应用于一个给定的失真测度以便导出一个语音信号估计器。通常假设一给定状态序列所产生的矢量是统计独立的。通过利用每个子源非对角协方差矩阵并假设由一给定状态序列所产生的矢量为一个非零阶自回归(AR)过程,那么HMP可扩展到能够处理语音信号时频相关性情况[21,24]。基于HMP语音增强技术十分依赖于训练数据集的类型[25],在训练集涵盖的噪声类型条件下,其工作性能较好,而在其它类型的噪声条件下,其工作性能较差;并且性能的改善一般地需要更为复杂的模型和更大的计算量。尽管HMP模型已成功地应用于非退化语音信号自 简历大全 /html/jianli/ 论文联盟动识别领域[26—27],但对语音增强应用而言,该模型的精度尚未能满足这一特定应用的要求[3]。子空间法[28—31]试图将含噪信号的矢量空间分解成一个信号噪声空间和一个噪声空间。通过移去噪声空间并在相应余下的子空间中来估计语音信号,从而实现语音增强技术信号空间的分解现有二种方法:基于含噪矢量Toeplitz协方差估计之特征值分解的Karhunen—Love变换(KLT)[28,30]和数据矩阵的奇异值分解(SVD)[32—33]。在信号噪声空间中,应用线性估计技术来达到信号失真最小化、并由信号来遮荫残留噪声的目的。为此,Jabloun[34]和Hu[35]则从人的听觉系统遮蔽特性和降低残留噪声感知效应的角度出发,分别提出了用于含噪语音增强的感知信号空间法。

3 次访问