中科院自动化研究所智能交互团队在语音识别方向获新进展
发布时间:2019-12-08 01:30
5

►根据常识搬迁的端到端语音辨认体系


● ● ●


我所智能交互团队在环境鲁棒性、轻量级建模、自适应才能以及端到端处理等几个方面进行继续攻关,在语音辨认方面获新进展,相关作用将在全球语音尖端学术会议INTERSPEECH2019宣布。 

现有端到端语音辨认体系难以有用运用外部文本语猜中的言语学常识,针对这一问题,陶建华、易江燕、白烨等人提出选用常识搬迁的办法,首要对大规模外部文本练习言语模型,然后将该言语模型中的常识搬迁到端到端语音辨认体系中。这种办法运用了外部言语模型提口供的先验散布软标签,并选用KL散度进行优化,使语音辨认体系输出的散布与外部言语模型输出的散布挨近,然后有用进步语音辨认的准确率。 


语音关键词检测在智能家居、智能车载等场景中有着重要作用。面向终端设备的语音关键词检测对算法的时间杂乱度和空间杂乱度有着很高的要求。当时干流的根据残差神经网络的语音关键词检测,需求20万以上的参数,难以在终端设备上运用。 为了处理这一问题,陶建华、易江燕、白烨等人提出根据同享权值自注意力机制和时延神经网络的轻量级语音关键词检测办法。该办法选用时延神经网络进行降采样,经过自注意力机制捕获时序相关性;并选用同享权值的办法,将自注意力机制中的多个矩阵同享,使其映射到相同的特征空间,然后进一步紧缩了模型的尺度。与现在的功能最好的根据残差神经网络的语音关键词检测模型比较,咱们提出办法在辨认准确率挨近的前提下,模型巨细仅为残差网络模型的1/20,有用降低了算法杂乱度。


6

►根据同享权值自注意力机制和时延神经网络的轻量级语音关键词检测



针对RNN-Transducer模型存在收敛速度慢、难以有用进行并行练习的问题, 陶建华、易江燕、田正坤等人提出了一种Self-attention Transducer 模型,主要在以下三个方面完成了改善:经过自注意力机制代替RNN进行建模,有用进步了模型练习的速度; 为了使SA-T可以进行流式的语音辨认和解码,进一步引进了Chunk-Flow机制,经过约束自注意力机制规模对部分依靠信息进行建模,并经过堆叠多层网络对长间隔依靠信息进行建模; 受CTC-CE联合优化启示,将穿插熵正则化引进到SA-T模型中,提出Path-Aware Regularization,经过先验常识引进一条可行的对齐途径,在练习过程中要点优化该途径。 经验证,上述改善有用进步了模型练习速度及辨认作用。 


7

►根据自注意力机制的端到端语音转写模型


语音别离又称为鸡尾酒会问题,其方针是从一起含有多个说话人的混合语音信号中别离出不同说话人的信号。当一段语音中一起含有多个说话人时,会严重影响语音辨认和说话人辨认的功能。 现在处理这一问题的两种干流办法分别是:深度聚类算法和摆放不变性练习原则算法。深度聚类算法在练习过程中不能以实在的洁净语音作为方针,功能受限于k-means聚类算法;而PIT算法其输入特征区别性缺乏。针对DC和PIT算法的局限性,陶建华、刘斌、范存航等人提出了根据区别性学习和深度嵌入式特征的语音别离办法。首要,运用DC提取一个具有区别性的深度嵌入式特征,然后将该特征输入到PIT算法中进行语音别离。一起,为了增大不同说话人之间的间隔,减小相同说话人之间的间隔,引进了区别性学习方针原则,进一步提高算法的功能。所提办法在WSJ0-2mix语音别离揭露数据库上取得较大的功能提高。 


i/uz/zsfz1569734746.5810093.jpg

►根据区别性学习和深度嵌入式特征的语音别离办法整体框图


端到端体系在语音辨认中取得了严重的打破。然而在杂乱噪声环境下,端到端体系的鲁棒性仍然面对巨大应战。针对端到端体系不行鲁棒的问题,刘文举、聂帅、刘斌等人提出了根据联合对立增强练习的鲁棒性端到端语音辨认办法。具体地说,运用一个根据mask的语音增强网络、根据注意力机制的的端到端语音辨认网络和判别网络的联合优化计划。判别网络用于区别经过语音增强网络之后的频谱和纯洁语音的频谱,可以引导语音增强网络的输出愈加挨近纯洁语音散布。经过联合优化辨认、增强和判别丢失,神经网络主动学习更为鲁棒的特征标明。所提办法在aishell-1数据集上面取得了较大的功能提高。 


9

►根据联合对立增强练习的鲁棒性端到端语音辨认整体框图


说话人提取是提取音频中方针说话人的声响。与语音别离不同,说话人提取不需求别离出音频中所有说话人的声响,而只重视某一特定说话人。现在干流的说话人提取办法是:说话人波束和声响滤波器。这两种办法都只重视声响的频谱特征,而没有运用多通道信号的空间特性。因为声源是有方向性的,并且在实践环境中是空间可分的。所以,假如正确运用多通道的空间区别性,说话人提取体系可以更好地估量方针说话人。为了有用运用多通道的空间特性,刘文举、梁山、李冠君等人提出了方向感知的多通道说话人提取办法。首要多通道的信号先经过一组固定波束形成器,来发生不同方向的波束。从而DNN选用attention机制来确认方针信号地点的方向,来增强方针方向的信号。最终增强后的信号经过SpeakerBeam经过频谱头绪来提取方针信号。提出的算法在低信噪比或同性别说话人混合的场景中功能提高显着。 


10

►方向感知的多通道说话人提取办法框图 


传统的对话情感辨认办法一般从孤立的语句中辨认情感状况,未能充分考虑对话中的上下文信息关于当时时间情感状况的影响。针对这一问题,陶建华、刘斌、连政等人提出了一种交融上下文信息的多模态情感辨认办法。在输入层,选用注意力机制对文本特征和声学特征进行交融;在辨认层,选用根据自注意力机制的双向循环神经网络对长时上下文信息进行建模;为了可以有用模仿实在场景下的交互形式,引进身份编码向量作为额定的特征输入到模型,用于区别交互过程中的身份信息。在IEMOCAP情感数据集上对算法进行了评价,试验结果标明,该办法比较现有最优基线办法,在情感辨认功能上提高了2.42%。 


j/jh/zsfz1569734983.5351821.png

因为情感数据标示困难,语音情感辨认面对着数据资源匮乏的问题。尽管选用搬迁学习办法,将其他范畴常识搬迁到语音情感辨认,可以在必定程度上缓解低资源的问题,可是这类办法并没有重视到长时信息对语音情感辨认的重要作用。针对这一问题,陶建华、刘斌、连政等人提出了一种根据未来观测猜测的无监督特征学习办法。FOP选用自注意力机制,可以有用捕获长时信息;选用微谐和超列两种搬迁学习办法,可以将FOP学习到的常识用于语音情感辨认。该办法在IEMOCAP情感数据集上的功能超过了根据无监督学习战略的语音情感辨认。


12

相关生理学研讨标明,MFCC 关于郁闷检测来说是一种有区别性声学特征,这一研讨作用使得不少作业经过MFCC来辨识个别的郁闷程度。可是,上述作业中很少运用神经网络来进一步捕获MFCC中反映郁闷程度的高表征特征;此外,针对郁闷检测这一问题,适宜的特征池化参数未能被有用优化。针对上述问题,陶建华、刘斌、牛明月等人提出了一种混合网络并结合LASSO 的lp范数池化办法来提高郁闷检测的功能。首要将整段音频的MFCC切分红具有固定巨细的长度;然后将这些切分的片段输入到混合神经网络中以发掘特征序列的空间结构、时序改变以及区别性标明与郁闷头绪相关的信息,并将所抽取的特征记为段等级的特征;最终结合LASSO的lp范数池化将这些段等级的特征进一步聚合为表征原始语音语句级的特征。


k/t7/zsfz1569735166.1038939.png

相关文献:

Learn Spelling from Teachers: Integrating Language Models into Sequence-to-Sequence Models 

A Time Delay Neural Network with Shared Weight Self-Attention for Small-Footprint Keyword Spotting 

Self-Attention Transducers for End-to-End Speech Recognition 

Discrimination Learning for Monaural Speech Separation Using Deep Embedding Features 

Jointly Adversarial Enhancement Training for Robust End-to-End Speech Recognition 

Direction-aware Speaker Beam for Multi-channel Speaker Extraction 

Conversational Emotion Analysis via Attention Mechanisms 

Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion Recognition 

Automatic Depression Level Detection via Lp-norm Pooling 


注:本文转载自中国科学院主动化研讨所。