处暑 | 语音识别技术的前世今生

图灵汇官网

离离暑云散,袅袅凉风起。 《早秋曲江感怀》(唐) 白居易

在这个暑意渐消的时节,我们来聊聊语音识别技术的历史演变。

人类很早就尝试制造能够听懂人类语言的机器,语音识别技术的起源可以追溯到上世纪五十年代。1952年,贝尔实验室开发出了第一台能识别人类语音的机器——Audrey,它可以准确识别0至9的数字,准确率超过90%。不过,Audrey只能识别发明者的声音,换了其他说话人,准确率会大幅下降。尽管如此,Audrey依然标志着计算机语音识别时代的开启。

随后的十几年里,随着计算机技术的飞速发展,语音识别技术也取得了长足的进步。1961年,IBM推出了“ShoeBox”系统,能够识别16个英文单词。世界各地的科学家们也纷纷投入到语音识别的研究中,识别准确度和词汇量不断提高。

到了七十年代和八十年代,语音识别的基本理论逐渐完善,定义为从声学信号中找出最有可能的词序列。这一时期,监督学习成为主流方法,研究人员不再依赖语言学知识,而是利用算法和数据进行自主学习。在此期间,多种技术被应用于语音识别研究,如隐马尔可夫链(HMM)、高斯混合模型(GMM)、最大似然估计、n-gram语言模型和Beam Search等。其中,GMM-HMM架构(隐马尔可夫-高斯混合模型)也在这一时期被提出。这一阶段,语音识别技术不断进步,取得了许多重要成果,例如1984年IBM研发出实时听写系统,1987年李开复开发了Sphinx-I系统,实现了非特定说话人的语音识别。

九十年代,随着个人电脑和互联网的普及,语音识别技术逐渐走向大众市场。这一时期,语音识别技术在科幻电影中频繁出现,也出现了像Dragon Dictate这样的商业化产品。

进入二十一世纪,语音识别技术经历了短暂的停滞期。直到2000年以后,基于深度学习的技术成为研究主流。2009年,图灵奖得主Geoffrey Hinton发表了关于语音识别领域的高引用文章,使得深度学习在该领域的应用受到广泛关注。很快,深度学习展现出显著效果和巨大潜力,相关论文逐年增加。短短几年内,基于深度学习的语音识别系统错误率下降超过30%,远超传统的GMM-HMM算法。新的技术成果迅速在工业界得到应用,如2012年谷歌发布的语音搜索产品就采用了基于深度学习的语音识别技术,这也是深度学习首次大规模商用。此后,微软、苹果、百度等科技巨头相继推出基于深度学习的语音识别产品,如Siri、Cortana、DuerOS等。

进入深度学习时代后,语音识别的准确度不断提高。2016年,微软首席语音科学家黄学东带领的团队在Switchboard语音识别基准测试中,实现了词错率仅为5.9%,首次达到与专业速记员相当而优于普通人的水平。这被视为AI领域的重要突破之一。此外,各种实际应用场景中的问题也逐步解决,包括多语言识别、文字纠错、口音方言、多人对话及嘈杂环境下的识别等。

展望未来,语音识别将成为人工智能时代的重要基础技术,成为人类与多智能体交互的入口。例如,随着自然语言处理算法的不断发展,人工智能系统不仅能识别你说的词语,还能理解你的意图,并进行多轮对话。

本文来源: 图灵汇 文章作者: 张骞月