语音识别的噪声鲁棒性:指在输入语音质量退化,语音的音素特性、分割特性或声学特性在训练和测试环境中不同时,语音识别系统仍保持较高识别率的性质。 噪声鲁棒性语音识别语音识别前端系统(即信号域语音增强)和后端系统优化(基于深度学习的声学模型优化,特征域优化)角度。
基于统计模型的语音识别系统中,训练的数据必须具有充分的代表性。当识别系统应用于噪声环境时,纯净的训练数据与被噪声污染的测试数据之间存在着不匹配,识别系统在噪声环境下的性能下降主要归因于这种不匹配。噪声鲁棒语音识别的研究目标就是消除或减少这种不匹配的影响,使识别系统的性能尽量接近匹配条件下的性能。由噪声引起的训练和测试的不匹配可以从信号空间、特征空间和模型空间三个 层次来分析。1.语音增强 从处理方法上分类,语音增强算法大体上可以分为基于语音周期性的增强算法、基于全极点模型的增强算法、基于短时谱估计的增强算法、基于信号子空间的增强算法和基于HMM的增强算法等。 从目前的发展 上看,语音增强最常用的方法是基于短时谱估计的方法,主要包括: (1)谱减法:该方法及其改进算法总体上看运算量较小, 易于实时实现,增强效果也较好,是目前常用的一类方法。 (2)维纳滤波:一种比较传统的算法。采用Wiener 滤波的好处是增强后的残留噪声类似于白噪声,几乎没有音乐噪声的残留。 (3)最小均方误差估计。 (4)先进的前端:Advanced front-end (AFE) for distributed speech recognition (DSR) was standardized by ETSI。 国内外的许多学者对语音增强算法进行了研究,在平稳的声学环境及信噪比较高的情况下,语音增强得到了较好的效果。但是在低信噪比以及非平稳的噪声环境下,含噪语音信号的增强仍然是一项非常有挑战性的工作。
2.语音激活检测 (1)基于基频的方法:在安静的背景下,这种方法有较高的准确度;但是随着信噪比的降低,性能下降很大,而且在某些噪声环境下很难准确提取基频参数,因此不能解决这种噪声环境下的检测问题。 (2)基于谱熵的方法 (3)基于倒谱特征的方法 (4)基于高阶统计量的方法 (5)基于似然比测试的方法
特征空间鲁棒语音识别技术:在特征空间减小训练和测试的不匹配所带来的影响,包括鲁棒特征提取、特征补偿和 特征规整等。
1.鲁棒特征提取 试图找出抗噪能力强的特征参数。 这类技术的优点是对于噪声的假设很弱, 所以适用于大多数噪声环境;缺点是不能充分地利用特定噪声 的性质。基于人耳听觉特性的鲁棒特征提取方法,通过对人耳听觉系统的仿真和研究,获得符合人耳听觉特性的语音特征表 示,取得了较好的效果。当今,很多基于人耳听觉的特征提取方法,如MFCC、PLP已经成为主流的鲁棒性特征提取方法。由于PLP特征的提取是基于语音短时谱,易受传输信道的影响。RASTA-PLP可用来抑制这种线性谱失真。实验表明这种 特征能够有效降低错误率。线性鉴别分析(1inear discriminant analysis,LDA)也被引入到语音特征提取中一¨。LDA通过 线性变换一方面可以最小化类内差距、最大化类间差距;另一 方面可以降低特征的维数,在保证系统识别性能的基础上,提高特征的环境鲁棒性。 (1)基于听觉特征:MFCC,PLP,RASTA-PLP。 基于听觉特征提取方法:zero crossing peak amplitude (ZCPA) ,average localized synchrony detection (ALSD), perceptual minimum variance distortionless response (PMVDR), power-normalized cepstral coefficients (PNCC), invariant-integration features (IIF) , amplitude modulation spectrogram, Gammatone frequency cepstral coefficients, sparse auditory reproducing kernel (SPARK) , and Gabor filter bank features 。 (2)基于神经网络:TANDEM system(ANN-HMM hybrid systems),TempoRAL Pattern (TRAP) processing, bottle-neck (BN) features+PCA/HLDA去关联, context-dependent deep neural network hidden Markov model (CD-DNN-HMM)。
2.特征补偿 特征补偿通过对训练与测试环境之间差异的研究,在特征空间中修改测试语音的特征,使得修改后的测试语音特征能够 更加接近训练语音特征。 (1)基于数据驱动的特征补偿 该方法事先需要stereo数 据库,即同时在训练环境和多个具有代表性的测试环境下录制 相同内容的多套语音库,并对训练环境与这些测试环境的每一 帧语音倒谱特征作比较,将差值存储起来。当系统应用到实际 测试环境中,找出差值,对实际测试环境进行补偿。这样的补偿常常只适合于对应的噪声环境,测试环境变化会导致补偿效果不佳,具有较大的局限性。 Empirical Cepstral Compensation SPLICE: Stereo-based Piecewise LInear Compensation for Environments (SPLICE)
(2)基于统计模型的特征补偿。 该方法将语音描述为参数化的统计模型,根据环境模型和最优准则估计纯净语音特征值,具有广泛的适用性,成为当前特征补偿研究的主流。
3.特征规整 为了减小训练环境与测试环境之间不匹配的程度,可以对训练或者测试的语音特征进行某种变换,以使得它们的概率分布尽量接近,从而减小训练和测试的不匹配程度。 特征规整也称为特征归一化、特征后处理等,是指在提取特征后,通过对特征的归一化等处理,进一步降低训练语音特征与测试语音特征之间的不匹配,提高识别系统的噪声鲁棒性。 如:倒谱系数零均值化 Cepstral mean normalization (CMN),Cepstral mean and variance normalization (CMVN), Histogram Equalization method (HEQ)。
模型空间鲁棒语音识别技术:改变训练模型的参数以适应测试语音,包括模型补偿和自适应技术等。 1.模型补偿 模型空间鲁棒语音识别技术改变训练模型的参数以适应测试语音,包括模型补偿和自适应技术等。常用的模型补偿方法有PMC(parallel model combination)、Jacobian自适应和VTS方法等。 2.自适应技术 传统的说话人自适应技术同样可以用于噪声环境下的模型自适应。自适应技术可以利用针对使用环境的一些白适应 数据对纯净语音模型参数进行更新,使得系统在该使用环境中的识别性能显著提高。 (1)基于变换的方法:估计非特定模型与被适应模型之间的变换关系,对非特定模型作变换,减少非特定模型与被适应环境之间的差异。 (2)基于最大后验概率MAP的方法。基于后验概率的最大化,利用贝叶斯学习理论,将非特定模型的先验信息与被适应环境的信息相结合实现自适应。 还可以将以上两类方法结合起来,充分发挥各自的优点。 Discriminative adaptation,speaker-independent discriminative mapping transformation (DMT) ,Maximum likelihood linear regression (MLLR) (3)recurrent neural network (RNN),bidirectional long short-term memory (BLSTM)
1.区分性训练技术 传统声学模型训练采用基于最大似然准则(maximum likelihood estimate,MLE)的训练方法,算法比较成熟,语音训练时有快速算法;但MLE只使用与被训练模型相关的数据,忽略了模型之间的相互区分性,因此这种方法并不一定能够获得最佳的分类性能,而且对于噪声环境中的语音信号,其分布有可能与高斯分布的假设相差较远。为了提高声学模型在噪 声环境的鲁棒性,可采用区分性训练方法,如基于最大互信息 (maximum mutual information estimation.MMIE)、基于最小分类误差准则(minimum classitieation error.MCE)、基于最 小音素错误率(minimum phone error, MPE)等 。 2.直接采用带噪语音进行模型训练 造成语音识别系统在噪声环境中性能下降的根本原因:在纯净环境中训练的语音模型与噪声环境中语音的统计特性不匹配。 因此,一种解决方法是将实际环境的噪声叠加到训练语音数据中,用含噪的语音数据来训练语音模型。 采用含噪语音直接进行训练,在小词表的情况下效果比较理想,但对于大词汇量连续语音识别效果有限。因为在大词汇的情况下,很多语音单元本身比较接近,被噪声污染后,这些语音单元的特征会发生变化,导致不同语音单元之间的区分度下降,影响系统的识别性能;而且训练和测试噪声类型、噪声水平的匹配情况将直接影响识别系统的性能,在无法预知实际应用环境的情况下,为了构造包容不同噪声类型、噪声水平的声学模型,训练数据就需要包含不同类型、不同信噪比的噪声数据。
1.现有方法主要针对加性噪声进行研究,还需考虑卷积噪声的影响。 2.现有的研究工作主要针对平稳噪声,而对非平稳噪声考虑不多。 3.现有方法主要研究语音与噪声不相关的情况,而有些噪声与语音信号是相关的,例如在一些会议场所,语音信号会沿着墙壁的不同路径反射,产生很多与语音信号相关的干扰噪声。 4.信号空间和特征空间的鲁棒语音识别技术与识别系统的词汇量无关,无须对识别软件进行自适应,具有广泛的适用性。模型补偿更接近识别核,能够取得较好的效果,因此应考虑对语音增强、特征补偿、模型补偿结合算法的研究,特别是低信噪比情况下的识别性能。 5.对真实口语语音的识别,这一任务有一些区别于朗读式连续语音识别任务。 因为在真实的口语环境下,词汇不受约束、语音是自然的、有重叠、使用的是不明显的麦克风设备,这都对语音识别的鲁棒性产生了更高的要求,需要研究更具鲁棒性的语音识别技术。
