简单粗暴而有效的改图：自动语音识别数据扩增的“一条野路”

投稿
APP
微信扫一扫获取更多

简单粗暴而有效的改图：自动语音识别数据扩增的“一条野路”

佑亿精密

2022-07-14 21:15:26

神经网络的调参是一项复杂的工程，如何在调参前获得更好的性能？尽管调参过程可能非常繁琐，但最终可能会导致过拟合，影响模型的泛化能力。这是人工调参过程中常见的难题。通常情况下，训练数据的质量会直接影响模型的表现上限，因此获取高质量的训练数据至关重要。

最近，Daniel S. Park 等人提出了一种名为 SpecAugment 的数据增强方法，用于自动语音识别（Automatic Speech Recognition，ASR）模型的训练。这种方法巧妙地将原始语音数据转换成梅尔倒谱图，并对其进行图像变换，从而增强训练数据，显著提升了模型的效果。

什么是自动语音识别

自动语音识别是一种利用深度神经网络将语音转换为文本的技术。无论是像Siri这样的智能助手，还是微软小冰，甚至是日常使用的微信语音输入功能，都离不开自动语音识别技术的支持。在这个时代，人们已经习惯了用语音输入来解放双手。

传统ASR模型通常会先对收集到的声音信号进行预处理，将其转化为频谱图，如梅尔倒频谱图（Mel Frequency Cepstrum Coefficient，MFCC），这种处理方式在一定程度上模仿了人类耳朵对声音的处理方式。

SpecAugment 的独特之处

SpecAugment 的创新在于它在模型训练之前，对音频数据的梅尔倒谱图进行图像处理。具体来说，通过对梅尔倒谱图进行时域扭曲、频率屏蔽等操作，生成一系列扩增样本。这样的处理不仅增强了模型对各种音频失真情况的适应能力，还提高了模型的泛化能力。

模型训练

在进行模型训练时，采用的是 LAS（Listen Attend and Spell networks）模型。该模型主要由 Listener 和 Speller 两个子模型组成。Listener 负责将音频数据转化为基于注意力机制的特征，而 Speller 则负责将这些特征翻译成文本。通过 SpecAugment 方法，模型在训练过程中能够更好地应对不同的音频输入，从而提升整体表现。

提升表现

通过比较扩增训练集前后模型在测试集上的词错误率（WER），可以看到扩增训练集的方法显著降低了错词率，表明扩增训练集的效果非常明显。此外，扩增训练集还可以有效缓解过拟合问题，使模型在开发集上的表现更为稳定。

这个模型的表现如何？

优于现有最佳 ASR 模型：通过适当调整和训练，SpecAugment 训练出的 LAS 模型在 LibriSpeech 960h 和 Switchboard 300h 数据集上的表现优于现有最佳模型，无论是在有噪音还是无噪音的测试集上。
优于引入语言模型的 ASR 模型：传统的 ASR 模型常常需要依赖语言模型来提升性能，但语言模型占用较多内存，限制了其在小型设备上的应用。SpecAugment 方法则无需依赖语言模型，依然能够取得优异的表现，解决了这一问题。

综上所述，SpecAugment 通过改变频谱图的方式来扩增音频数据样本，从而训练出的 ASR 模型表现出色，甚至超越了现有的最佳模型和引入语言模型的方法，具有很高的实用价值。