未来:语音识别系统可以被训练 | 读论文

图灵汇官网

一、概述

端到端语音识别技术将语音识别系统的各个组件整合到一个神经网络框架中,相比传统的语音识别系统,它具有建模简单、组件间联合优化能力强以及系统占用空间小等优势。近年来,它已成为语音识别研究领域的重要方向之一。目前,端到端语音识别系统主要包括基于连接主义时间分类(CTC)、序列到序列(Seq2Seq)和循环神经网络转录器(RNNT)三类系统。

最小贝叶斯风险(MBR)作为一种序列学习中的重要训练标准,已在传统的混合语音识别系统中广泛应用,并显著提高了模型性能。最近,谷歌的研究人员在基于Seq2Seq的端到端识别系统中应用了MBR训练准则,腾讯人工智能实验室的研究人员在此基础上进一步提升了性能。然而,针对RNNT端到端语音识别系统的MBR训练研究尚属空白。此外,由于端到端系统中的语言模型在训练时仅使用了对应文本作为训练数据,这导致语言模型的规模和覆盖范围有限,如何将大规模文本数据训练得到的外部语言模型信息在训练和解码过程中融入端到端语音识别模型仍是一个未解决的问题。

本论文由腾讯AI实验室独立完成,首次提出了针对RNNT端到端语音识别系统的MBR训练,并给出了详细的数学推导。论文已被Interspeech 2020接收。

二、方案详解

基于RNNT的端到端神经网络由转录(编码器)、预测(解码器)和联合网络组成。转录和预测网络通常采用长短时记忆单元(LSTM)的循环神经网络结构。最近,以自注意力机制为核心的Transformer网络结构在传统和端到端识别系统中均表现出了显著的提升效果。本文作者对RNNT端到端神经网络的每个部分进行了改进,采用了卷积和Transformer相结合的网络结构。如图一所示,转录网络由三个基本模块堆叠而成,每个模块包含三层时延神经网络(TDNN)和一层Transformer。预测网络也包含三个基本模块,每个模块包含一层一维因果卷积和一个Transformer层。具体的网络配置见表一和表二。联合网络通常采用前馈网络建模,但实验证明,采用门控线性单元(GLU)的联合网络可以显著提升性能。

MBR 训练

MBR训练的目标是最小化标注序列与RNNT模型在线解码生成的Nbest之间的期望Levenshtein距离。为了实现这一目标,需要求出MBR目标函数相对于RNNT网络输出节点的梯度。详细数学推导过程可参阅原文[3]。通过一系列推导,可以得出MBR目标函数针对RNNT网络输出的梯度的具体形式,这是作者进行MBR训练的数学基础。

外部语言模型结合

在端到端系统中,常见的外部语言模型结合方法是浅层融合,即在RNNT识别系统解码过程中,将RNNT模型和外部语言模型的得分进行内插。然而,对于RNNT端到端系统,这种方法并不适用,因为RNNT模型会输出一个额外的空白符号,而该符号在语言模型的输出中并不存在。因此,本文提出了一种结合RNNT模型和外部语言模型的新策略。具体来说,对于RNNT模型输出的空白概率保持不变,而非空白概率则与外部语言模型进行内插。为了确保最终输出的概率分布特性,需要对RNNT模型输出的非空白概率进行归一化。具体的归一化细节可参阅原文[3]。

三、实验结果

作者在21000小时的工业级语料规模上进行了实验,测试集采用两个内部数据集,一个包含朗读语音,另一个包含口语语音。从表三的第二行与第一行对比可以看出,本文提出的与外部语言模型结合的策略有效。在朗读测试集上,观察到了显著的提升。与基线RNNT系统相比,本文提出的MBR训练在朗读和口语测试集上的识别准确率分别提升了0.6%和0.4%。在内部口语和朗读测试集上,同时在MBR训练和解码时结合外部语言模型进行,识别率分别提升了1.2%和0.5%。

四、总结及展望

本文提出的技术可以提升RNNT端到端语音识别系统的性能和跨领域的鲁棒性,应用场景包括在终端上部署的语音识别服务,以及在离线环境下提供高质量的语音识别服务。未来将进一步提升MBR训练的训练效率和稳定性,并提出动态添加热词的外部语言模型结合算法,以提升RNNT端到端识别系统在长尾词上的识别性能。

参考文献

  1. R. Prabhavalkar, T. N. Sainath, P. N. Y. Wu, Z. Chen, C. Chiu, and A. Kannan, “Minimum word error rate training for attention-based sequence-to-sequence models,” in ICASSP, 2018.
  2. C. Weng, J. Cui, G. Wang, J. Wang, C. Yu, D. Su, and D. Yu, “Improving attention-based sequence-to-sequence models for end-to-end English conversational speech recognition,” in Proc. Interspeech 2018, 2018, pp. 761–765.
  3. C. Weng, C. Y, J. Cui, C. Zhang, D. Yu, "Minimum Bayes Risk Training of RNN-Transducer for End-to-End Speech Recognition", in Proc. Interspeech 2020.

延伸阅读

只懂机器学习已经不够了,下一代数据科学家应该是“全栈型”人才——InfoQ

关注我并转发此篇文章,私信我“领取资料”,即可免费获得InfoQ价值4999元迷你书,点击文末「了解更多」,即可移步InfoQ官网,获取最新资讯~

本文来源: 图灵汇 文章作者: 中睿天下