语音识别技术在多种工业场景中得到了广泛应用,但构建高效语音识别系统通常需要大量的转录数据,而这些数据的采集成本很高。为了应对这一挑战,滴滴出行人工智能实验室的研究人员提出了一种创新的无监督预训练方法——掩蔽预测编码(Masked Predictive Coding, MPC)。这种方法能够应用于基于Transformer模型的无监督预训练,从而提升语音识别系统的性能。
当前的工业端到端自动语音识别系统严重依赖高质量的转录音频数据。然而,转录后的数据需要大量人力投入才能获得,而在实际应用中,还有大量未转录的数据可供使用。因此,如何有效利用未转录数据提升语音识别系统的性能成为一个重要的研究课题。
近期,无监督预训练方法在某些领域已显示出良好的效果。其中,基于Transformer的编码器表征(如BERT)采用了掩蔽语言模型(Masked Language Model, MLM)作为预训练目标,并在多个自然语言处理基准上取得了新突破。受此启发,研究人员提出了一种简单且有效的预训练方法——掩蔽预测编码(MPC)。
研究显示,通过简单的无监督预训练,中文语音识别任务的性能可提升超过10%。例如,在HKUST数据集上,仅使用该数据集进行预训练时,字错误率可达23.3%,这已经接近当前最佳端到端模型的表现(字错误率为23.5%)。而使用更大的无监督数据集进行预训练时,字错误率可进一步降至21.0%。
研究者提出的训练方法分为两个阶段:无监督预训练和有监督微调。为了不对模型架构进行大幅改动,研究者直接将预测编码方法应用于FBANK输入和编码器输出上。在所有实验中,编码器输出和FBANK输入的映射维度相同。在完成无监督训练后,研究者移除了预测编码层,并在模型中加入了Transformer解码器,用于下游ASR任务的微调。整个过程无需引入额外参数,所有参数均在微调阶段进行端到端训练。
研究人员使用了多个数据集,包括HKUST、AISHELL-1、AIDATATANG 200ZH、MAGICDATA、ST-CMDS和Primewords中文语料。其中,HKUST和AISHELL-1数据集未参与预训练。为了探讨预训练数据量和说话风格对下游任务的影响,研究人员还使用了滴滴内部的命令数据和呼叫中心数据。这些数据经过脱敏处理,可用于研究。
实验中,研究者采用了与BERT论文相同的超参数设置,包括编码层数(12层)、解码层数(6层)、模型维度(256维)、前馈网络维度(2048维)和注意力头数(4个)。预训练过程中,每三个编码器之间使用了降采样技术,最终形成8个折叠的降采样。预训练时,模型使用4个GPU进行训练,总批量大小为256,训练次数为500k次。研究者使用了Adam优化器,并采用可变学习率策略,预热公式如下所示。
在微调阶段,总批量大小为128,学习率保持不变,除非连续5个批次后验证集损失仍未下降,则将其除以10。预定义的采样率为0.1,以减少曝光偏差。此外,研究者还采用了L2正则化。
研究结果显示,无监督预训练方法虽然在某些方面不如有监督自适应方法,但其显著优势在于无需任何标注数据,从而大大降低了构建高质量语音识别系统的成本。未来,滴滴团队计划将该模型应用于实际工业场景,并进一步扩大无监督数据集规模,以期提升语音识别的准确性。同时,团队还将探索无监督数据的特定领域和风格对模型鲁棒性的影响。