你也许还没有意识到，语音识别已经让所有人掌握了魔法奥义

投稿
APP
微信扫一扫获取更多

你也许还没有意识到，语音识别已经让所有人掌握了魔法奥义

刘雯蕊

2022-06-13 10:06:51

图灵汇官网

机器之心编译

参与：李泽南、蒋思源

英国科幻小说作家阿瑟·克拉克曾提到，任何一种足够先进的技术都与魔法难以区分。如今，迅猛发展的语音识别技术再次证明了这一点。只需对着空气说出几句话，身边的设备就能实现你的需求，仿佛施展了魔法一般。

亚马逊Echo是一款可以通过语音控制的圆柱形计算机。当你将它放置在桌面上并呼唤Alexa时，它便会被激活。Alexa可以播放你指定的音乐、电台节目、讲笑话、回答日常生活问题，甚至控制其他智能家居设备。据统计，在刚刚过去的圣诞节前，它已进入全美4%的家庭。此外，语音助手也广泛存在于智能手机中。苹果Siri每周处理约20亿条语音指令，而美国20%的安卓设备上的谷歌搜索也是通过语音识别完成的。随着语音输入的普及，打字这项工作正逐渐被淘汰。

语音识别的巨大进步

尽管语音识别看似简单，但它却需要大量的计算来实现自然的人机交流。从Windows的图形界面到触摸屏，人们一直在探索更加直观的交互方式，希望摆脱键盘和鼠标的束缚。直接与计算机对话的愿望推动了语音技术的发展。就像手机和汽车取代了传统工具，无屏幕、无键盘的计算机具有更广泛的用途，未来或许会变得更加智能和普遍。

虽然语音不会完全替代其他输入输出方式，但在某些场景下，语音控制无疑提供了更大的便利。设想一下，如果洗衣机能告知语音助手何时完成工作，并通过后者将消息发送至用户手机，这将是一个高度自动化的场景。然而，要充分发挥语音识别的潜力，科学家们不仅要突破技术瓶颈，还需解决隐私保护与便利性之间的平衡问题。

深度学习的力量

尽管计算机听写系统早已存在，但长期以来一直被认为不够可靠，部分系统需要长时间训练才能识别特定用户的声音。而现代系统则无需训练即可准确识别任何人说的话，这得益于深度学习技术。深度学习使计算机系统能够通过数百万条数据的训练来识别语音，从而达到接近人类的准确度。基于计算机的自动翻译系统正在迅速发展，它们能够将语音转化为文字，质量远超早期版本。

尽管如此，计算机仍无法理解语言的深层含义，这对工程师而言仍是一大挑战。若要让语音识别技术更进一步，就必须克服这一难题。计算机需要理解对话中的上下文，以便与用户进行持续的互动，而非仅仅执行单一命令。

语音技术的未来

研究机构和各大公司都在努力解决这一问题，目标是构建能够与人长时间正常对话的“机器人”。这些机器人不仅能检索信息，还能提供建议和帮助安排事务。亚马逊悬赏100万美元，奖励那些能在20分钟内进行连续有效交流的聊天机器人开发者。

施法代替拼写

消费者和监管机构在语音技术发展中也扮演着重要角色。当前，语音识别系统虽然已经能够很好地工作，但仍需个性化设置才能发挥最佳效果。这意味着机器需要收集用户的大量数据，包括日程安排、邮件内容等，这引发了人们对隐私保护的担忧。

为了实现更多功能，许多语音系统会持续监听周围环境，等待被唤醒。一些人担心这些连接互联网的麦克风会侵犯隐私。尽管并非所有数据都被上传到云端，但启动机制（如“Alexa”、“OK, Google”等）的存在使得数据存储成为一个问题。

近期，阿肯色州警方在调查一起谋杀案时要求亚马逊提供Echo设备收集的语音信息，但遭到科技公司的拒绝。亚马逊认为法律地位尚不明确，不应随意提供此类数据。这一事件类似于2016年苹果公司被要求解锁嫌疑人iPhone的情况，反映了个人隐私与公共安全之间的冲突。

尽管存在这些问题，消费者仍倾向于使用语音识别系统，因为它在很多情况下更加便捷。特别是在驾驶、工作或户外活动时，语音输入可以将计算能力扩展到屏幕和键盘无法触及的领域。语音识别不仅改变了计算方式，还可能影响语言的使用方式。计算机同声传译可能会促使人们使用非标准语言，而在一个机器能够正常交流的世界里，减少对话次数可能意味着生存。迄今为止，触摸屏是最接近人机交互的重大进步，我们期待语音识别技术能带来更多变革。