三分钟了解语音识别技术：技术挑战与未来展望

投稿
APP
微信扫一扫获取更多

三分钟了解语音识别技术：技术挑战与未来展望

周心满

2024-08-23 15:29:37

图灵汇官网

1 引言

在现代商业环境中，语音识别技术正逐渐成为主流，几乎所有的商业设备都致力于提供某种形式的语音交互功能。无论是跨平台的语音助手、转录服务，还是作为辅助工具的语音识别技术，甚至是最新的大语言模型（LLM），语音听写技术已经成为我们日常生活中不可或缺的一部分。根据TechNavio的研究报告，预计从2023年到2028年，语音用户界面（Voice User Interface，简称VUI）市场的规模将以23.39%的复合年增长率增长。这意味着越来越多的技术驱动型企业将采用这项技术。

然而，您对这项技术了解多少呢？本文将深入探讨和定义那些使语音识别技术得以实现的关键技术。

2 特征提取

在进行语音识别之前，首先要将人类产生的声波转换为机器能够理解的数据格式。这一过程包括预处理和特征提取。特征提取是语音识别系统中的关键步骤，它将声波的原始数据转换成一组特征，这些特征能够代表语音信号的关键属性。目前，两种最常用的特征提取技术是梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficient，简称MFCC）和感知线性预测（Perceptual Linear Prediction，简称PLP）系数。

2.1 梅尔频率倒谱系数（MFCC）

MFCC是一种广泛使用的特征提取技术，通过分析音频信号的功率谱来捕捉声音的独特特征。具体处理流程如下：

预加重：对信号进行预加重，以强调高频部分。
分帧：将信号分割成短帧，通常每帧的时长为20到40毫秒。
加窗：对每个帧应用窗函数，以减少帧边界处的不连续性。
快速傅里叶变换（FFT）：对加窗后的信号进行快速傅里叶变换，从而获得频谱信息。
梅尔滤波器组：使用一组梅尔滤波器对频谱进行过滤，这些滤波器模仿人耳对不同频率的敏感度。
对数运算：对过滤后的频谱取对数，以进一步模拟人耳的非线性响应特性。
离散余弦变换（DCT）：通过离散余弦变换将梅尔滤波器的输出转换成MFCC系数。

MFCC提供了一种紧凑且有效的表示方法，能够捕捉到语音信号的关键特征，这些特征随后可以被声学模型用于进一步的语音识别处理。

2.2 感知线性预测（PLP）系数

PLP系数是另一种特征提取方法，旨在更精确地模拟人类听觉系统的特性。PLP的设计基于对人耳听觉感知的深入理解，特别是在频率响应和响度感知方面。PLP处理流程的关键步骤如下：

预处理：对信号进行预处理，包括预加重，以强调高频成分。
分帧和加窗：将信号分割成短帧，并为每帧应用窗函数，减少边界效应。
倒谱分析：对信号进行倒谱分析，这有助于捕捉信号的共振特性。
等效矩形带宽滤波器（ERB 滤波器）：使用等效矩形带宽滤波器代替梅尔滤波器，ERB滤波器能更准确地反映人耳的频率分辨率。
对数压缩：对滤波后的信号进行对数压缩，以模拟人耳对不同响度级别的非线性响应。
线性预测：通过线性预测模型估计信号的频谱包络，这有助于捕捉语音信号的基频和共振峰。
离散余弦变换（DCT）：最后，使用DCT将预测的系数转换为PLP系数，这些系数提供了对语音信号的紧凑表示。

PLP系数通过这些步骤提供了一种对语音信号的感知加权表示，这使得语音识别系统在处理各种环境噪声时更加鲁棒。

2.3 MFCC 和 PLP 的比较

| 特征 | MFCC（梅尔频率倒谱系数） | PLP（感知线性预测系数） | | ---- | ------------------------ | ------------------------ | | 定义 | 一种基于梅尔刻度的倒谱系数，模拟人耳的听觉感知 | 一种基于人耳听觉感知的预测模型，用于提取语音特征 | | 起源 | 基于对数功率谱的倒谱变换 | 基于线性预测模型的倒谱变换 | | 滤波器 | 梅尔滤波器组，模拟人耳的非线性频率响应 | 等效矩形带宽（ERB）滤波器，更精确地模拟人耳频率分辨率 | | 压缩 | 对数压缩，模拟人耳对响度的非线性感知 | 对数压缩，但与MFCC相比，PLP的压缩可能更符合人耳感知 | | 变换 | 离散余弦变换（DCT） | 离散余弦变换（DCT） | | 应用 | 广泛用于语音识别、语音编码、语音合成等领域 | 用于语音识别，特别是在需要更精确模拟人耳特性时 | | 特点 | - 简单易实现
- 计算效率高
- 广泛使用 | - 更精确地模拟人耳特性
- 可能提供更好的噪声鲁棒性
- 计算复杂度略高 | | 优势 | - 计算速度快
- 特征稳定，易于从语音信号中提取 | - 对噪声有更好的抑制能力
- 更符合人耳听觉特性 | | 局限性 | - 对于某些语音特征的捕捉可能不如PLP精确 | - 计算上可能比MFCC复杂
- 实现起来可能更困难 | | 适用场景 | 适用于需要快速且稳定特征提取的场合 | 适用于对语音质量要求较高，需要更精确模拟人耳特性的场合 |

2.4 其它特征提取方法

语音识别系统中的特征提取至关重要，它直接影响到识别的准确性和效率。除了感知线性预测（PLP）和梅尔频率倒谱系数（MFCC）之外，还有多种特征提取方法可以用于提高语音识别的准确性，以下是一些常见的方法：

线性预测系数（LPC）：线性预测分析通过建立一个线性差分方程来预测信号的当前样本值。LPC系数可以捕捉到语音信号的共振特性。
倒谱（Cepstral Coefficients）：倒谱是通过对信号的功率谱进行对数变换和逆傅里叶变换得到的，它有助于强调信号的共振峰。
倒谱线性预测（CMS）：CMS通过从倒谱系数中减去其平均值来减少噪声的影响，这在噪声环境下特别有用。
深度神经网络特征（DNN Features）：随着深度学习技术的发展，直接从原始语音信号中学习特征的深度神经网络也被用于语音识别。
频谱对比特征（Spectral Contrast Features）：频谱对比特征通过分析频谱的局部最大值来捕捉语音信号的音调信息。
基频（F0）：基频是语音信号中周期性波形的频率，它携带了说话人的音调信息，可以作为特征之一。
零交叉率（ZCR）：零交叉率是信号波形在正负之间交叉的次数，它可以提供有关信号节奏和音高变化的信息。

3 声学建模

声学建模是语音识别系统的核心，它建立了音频信号（声音）与语音单位（构成语言的不同声音）之间的统计关系。目前，最常用的技术包括隐马尔可夫模型（Hidden Markov Model，简称HMM）和深度神经网络（Deep Neural Network，简称DNN）。

3.1 隐马尔可夫模型（HMM）

自20世纪70年代以来，HMM已成为语音识别中不可或缺的工具。HMM通过将连续的语音信号分解为离散的音素，并为每个音素分配一个状态，从而实现对语音的建模。模型通过计算从一个状态到另一个状态的转移概率来处理语音的时序特性。这种基于概率的方法使系统能够在噪声干扰和个体语音差异的情况下，从声学信号中推断出连续的语音流。

3.2 深度神经网络（DNN）

随着人工智能和机器学习技术的飞速发展，DNN已经成为语音识别领域的新宠。DNN不依赖于预定义的状态和转移，而是直接从原始数据中学习特征。它们由多层神经元组成，能够自动提取语音信号的高级特征表示。DNN通过捕捉语音中的上下文信息和复杂的声学模式，展现出比HMM更高的准确性和鲁棒性。此外，DNN能够通过额外的训练适应不同的口音、方言和说话风格，这在全球化和多语言环境中尤为重要。

3.3 其它声学建模技术

除了隐马尔可夫模型（HMM）和深度神经网络（DNN），还有几种常用的声学建模技术，它们在语音识别系统中各有其优势和应用场景：

高斯混合模型-隐马尔可夫模型（GMM-HMM）：GMM-HMM是HMM的一种，其中状态的输出概率密度由高斯混合模型定义，常用于传统的语音识别系统。
连接时序分类（CTC）：CTC是一种用于序列建模的损失函数，可用于训练DNN以进行序列识别，特别是在没有明确对齐的输入和输出序列时。
循环神经网络（RNN）：RNN能够处理序列数据，捕捉时间序列中的动态特征，适用于语音信号的建模。
长短期记忆网络（LSTM）：LSTM是RNN的一种，它通过引入门控机制解决了传统RNN的梯度消失问题，适合处理和预测时间序列中的长期依赖关系。
门控循环单元（GRU）：GRU是LSTM的变体，它简化了门控机制，但同样能够学习长期依赖信息。
卷积神经网络（CNN）：CNN在图像处理中非常流行，但它们也可以用于语音信号的特征提取，尤其是在处理频谱图时。
深度置信网络（DBN）：DBN由多层受限玻尔兹曼机（RBM）堆叠而成，能够学习数据的高维表示，可用于语音特征的提取。
Transformer和自注意力机制（Transformer and Self-Attention）：Transformer模型通过自注意力机制处理序列数据，能够并行处理序列中的所有元素，非常适合长距离依赖问题。
端到端的深度学习模型（End-to-End Deep Learning Models）：这些模型直接从输入数据到最终输出进行训练，无需传统的声学特征提取步骤，例如直接从波形到词序列的模型。
注意力机制（Attention Mechanisms）：注意力机制允许模型在处理序列数据时聚焦于输入序列的特定部分，提高了模型对上下文的理解能力。