语音识别现状、应用、目标|数据堂

图灵汇官网

语音识别技术的重要里程碑之一是隐马尔科夫模型(HMM)的应用。自Baum提出相关的数学理论以来,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了首个基于HMM的大词汇量语音识别系统Sphinx。此后,语音识别技术的发展依然离不开HMM框架。

早在计算机诞生之前,人们就提出了自动语音识别的概念。早期的声码器被视为语音识别和合成的初步尝试。1920年代的“Radio Rex”玩具狗可能被认为是最早的语音识别设备之一,因为它能根据呼唤它的名字从底座上弹出来。而最早的基于电子计算机的语音识别系统则是由AT&T贝尔实验室开发的Audrey系统,它能够识别10个英文数字。该系统通过追踪语音中的共振峰实现高准确率的识别。到了1950年代末期,伦敦学院的Denes将语法概率引入了语音识别技术。

1960年代,人工神经网络被引入到语音识别领域。这一时期的重要进展包括线性预测编码(LPC)和动态时间弯曲(DTW)技术。这些技术大大提升了语音识别的效果。

尽管研究人员多年来一直在努力推广“听写机”,但语音识别技术至今仍未能实现无限领域和无限说话人的应用。语音识别技术的发展仍然受到诸多挑战的制约。

语音识别的现状

作为软件产品,微软已在语音识别技术方面投入多年研发。欲了解更多语音识别产品的最新进展,可访问Microsoft .NET语音技术网站。同时,微软的研发团队也在致力于解决语音识别领域的一些技术难题,比如噪音问题。其中一个名为“Dr. Who”的项目旨在使计算机在嘈杂环境中也能准确识别语音信息,无论是在办公室外还是在车里或拥挤的餐厅内。

语音识别的应用

语音识别技术的应用范围广泛,包括语音拨号、语音导航、家居设备控制、语音文档检索和简单的听写数据输入等。结合其他自然语言处理技术,如机器翻译和语音合成,可以创建更为复杂的应用,例如语音到语音的翻译。语音识别技术涉及的领域包括信号处理、模式识别、概率论、信息论、发音机制和听觉机制以及人工智能等。

数据堂提供的数据涵盖了儿童语音识别、多语种混合识别、老年人语音识别、远场语音识别和方言语音识别等多个方面,主要用于智能音箱、智能家电、儿童故事机和陪伴机器人等产品的研究。作为人工智能数据服务行业的领导者,数据堂多年来坚持“用数据支撑人工智能,以智能改变世界”的企业愿景,致力于解决各应用领域数据不足的问题,帮助更多研究人员拓展研究领域,丰富研究内容,加速迭代。

语音识别的目标

语音-文本转换软件和自动电话服务等应用的核心技术是语音识别。这些应用对识别准确率要求极高,因此语音-文本转换软件通常需要用户在安装过程中对其进行“训练”,软件自身也会随着时间逐渐适应用户的语音模式。然而,对于需要与多个说话者互动的自动语音服务,不允许用户进行训练,因为它们必须在首次使用时就能为任何用户提供服务。为了解决识别准确率低的问题,这些系统要么只能处理有限的词汇量,要么严格限制用户可使用的字句或模式。

理想的语音识别系统应具备即买即用的功能,能够迅速适应任何说话者的语音,无需用户进行训练。这样的系统可以在各种条件下为所有用户提供良好的服务。

“这一目标在移动互联网时代尤为重要,”俞栋博士指出,“因为语音是智能手机和其他移动设备不可或缺的交互方式。虽然个人移动设备是采集和学习用户语音的理想工具,但只有当用户的初始体验良好时,他们才会继续使用语音功能。”

非特定人语音识别技术对于那些无法适应特定用户的语音识别系统同样重要。例如,在呼叫中心,来电者身份未知,通话时间短暂;或者用户因担心隐私问题而不愿在提供“语音-语音”翻译的网络服务中留下语音样本。

本文来源: 图灵汇 文章作者: AI智能观察