语音识别的方法有什么|数据堂

图灵汇官网

从20世纪50年代开始研究语音识别以来,经过多年发展,这一技术已取得显著成就,部分成果已经从实验室走向市场,例如某些玩具和特定部门使用的语音密码输入。随着数字信号处理器(DSP)和专用集成电路技术的进步,以及快速傅里叶变换和嵌入式操作系统的最新进展,特定人语音识别尤其是计算量较小的特定人语音识别变得更为可行。因此,探讨特定人语音识别技术在汽车控制中的应用前景十分广阔。

特定人语音识别的方法

当前,常用的说话人识别方法包括模板匹配法、统计建模法和联接主义法(即人工神经网络)。鉴于数据量、实时性和识别率等因素,本文采用矢量量化和隐马尔可夫模型(HMM)相结合的方法。说话人识别系统主要由四个部分组成:语音特征矢量提取单元(前端处理)、训练单元、识别单元和后处理单元。

语音特征矢量提取单元

说话人识别的核心在于如何从语音信号中提取出代表说话人特征的基本信息。语音特征矢量的提取是整个说话人识别系统的基础,直接影响识别的准确性。说话人识别不同于语音识别,它关注的是语音中的说话人信息而非具体的单词含义。为了提高识别率,系统采用了倒谱系数加基因周期参数的方法,而在控制命令的语音识别中仅采用倒谱系数。常用的倒谱系数包括LPC(线性预测系数)和倒谱参数(LPCC),以及基于Mel刻度的MFCC(Mel频率谱系数)。此外,引入一阶和二阶差分倒谱有助于进一步提升识别率。

训练单元

训练单元的主要任务是利用一定算法为每个待识别的说话人创建匹配的参数。对于说话人识别,系统会针对每个合法用户建立多套HMM模型,并使用矢量量化(VQ)方法为其建立VQ码本。VQ码本的设计采用LBG算法,初始码本的设置采用分裂法。此外,还针对每个控制命令词条建立多个训练样本,估计出该词条的HMM参数。

识别单元

识别单元利用训练好的HMM模型参数和测量到的说话人的基音周期,在一定的判决条件下识别出待识别的说话人,并估计出控制命令。常用的判决条件是最大后验概率,通常使用Viterbi算法实现。

后处理单元

后处理单元通过充分利用每个说话人的声道参数和词条中各状态持续时间的概率分布,进一步提高系统的识别率。

系统实现

汽车控制命令通常是有限的词条和数字串的组合,这类语音命令的识别属于特定人小词汇量的连接词识别及与文本相关的说话人确认。目前,无论是从现有的DSP运算速度还是存储空间来看,实时实现这些语音命令的识别是完全可行的。在这个系统中,运算能力和存储单元要求较高的语音识别部分完全由DSP完成。系统的核心采用TMS320VC5410处理器,因其运算速度快、存储空间充足,且其硬件结构非常适合语音识别算法。A/D转换和语音识别部分则使用TLC320AD50C芯片,该芯片集成了A/D、D/A转换器及低通滤波器和采样保持电路。模拟语音信号通过麦克风输入,转换后的数字语音数据以同步串行通信方式传输给DSP。

语音控制汽车是未来的一个重要趋势。尽管目前将语音技术应用于汽车的产品主要集中在玩具等领域,但潜在市场巨大。说话人识别技术已经发展到实际应用阶段,但在实际应用中仍面临识别真实发音与录音回放的问题。为此,本文提出了一种有效的解决方案,即通过随机生成提示文本来增加安全性,防止假冒者提前录音。

本文来源: 图灵汇 文章作者: