语音是人类自然沟通的重要方式。自从计算机诞生以来,人们一直致力于让机器能够“听懂”人类的语言,并正确理解其中的含义。我们期望像科幻电影中的智能机器人一样,能够在语音交流中准确理解我们的意图。语音识别技术将这一梦想变为现实。这项技术就像“机器的听觉系统”,通过识别和理解,将语音信号转化为相应的文本或命令。
语音识别技术,又称为自动语音识别(Automatic Speech Recognition,简称 ASR),旨在将人类语音中的词汇内容转化为计算机可以识别的输入,如按键、二进制编码或字符序列。语音识别技术不仅涉及声学、语音学、语言学、信息理论、模式识别理论和神经生物学等多个领域,而且正在成为计算机信息处理技术的关键部分。
语音识别技术的发展
语音识别技术的研究始于20世纪50年代,1952年贝尔实验室开发出一个能够识别十个孤立数字的系统。到了20世纪60年代,美国卡耐基梅隆大学的Reddy等人开始研究连续语音识别,但进展缓慢。1969年,贝尔实验室的Pierce J甚至认为语音识别在短期内无法实现。
20世纪80年代,以隐马尔可夫模型(Hidden Markov Model,HMM)为代表的统计模型方法逐渐成为语音识别领域的主流。HMM模型能够很好地描述语音信号的短期平稳特性,并将声学、语言学和句法等知识整合到统一框架中。在此期间,卡耐基梅隆大学的李开复研发了SPHINX系统,采用了GMM-HMM框架,其中GMM(高斯混合模型)用于建模语音的观察概率,HMM用于建模语音的时间序列。
20世纪80年代末期,人工神经网络(Artificial Neural Network,ANN)成为语音识别的一个研究方向,但浅层神经网络的表现并未超越GMM-HMM模型。直到20世纪90年代,基于GMM-HMM声学模型的区分性训练准则和模型自适应方法的提出,使得语音识别进入了一个小高潮。剑桥大学发布的HTK开源工具包进一步降低了研究门槛。然而,接下来十年里,语音识别的研究进展相对有限,基于GMM-HMM框架的系统仍未能达到实用化水平。
2006年,Hinton提出使用受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)对神经网络节点进行初始化,从而引入了深度置信网络(Deep Belief Network,DBN)。DBN解决了深度神经网络训练过程中的局部最优问题,开启了深度学习的新时代。2009年,Hinton和他的学生Mohamed D将DBN应用于语音识别的声学建模,并在TIMIT这样的小词汇量连续语音识别数据库上取得了成功。