英国科幻小说作家阿瑟·克拉克曾提到,任何一种足够先进的技术都与魔法难以区分。如今,迅猛发展的语音识别技术再次证明了这一点。只需对着空气说出几句话,身边的设备就能实现你的需求,仿佛施展了魔法一般。
亚马逊Echo是一款可以通过语音控制的圆柱形计算机。当你将它放置在桌面上并呼唤Alexa时,它便会被激活。Alexa可以播放你指定的音乐、电台节目、讲笑话、回答日常生活问题,甚至控制其他智能家居设备。据统计,在刚刚过去的圣诞节前,它已进入全美4%的家庭。此外,语音助手也广泛存在于智能手机中。苹果Siri每周处理约20亿条语音指令,而美国20%的安卓设备上的谷歌搜索也是通过语音识别完成的。随着语音输入的普及,打字这项工作正逐渐被淘汰。
尽管语音识别看似简单,但它却需要大量的计算来实现自然的人机交流。从Windows的图形界面到触摸屏,人们一直在探索更加直观的交互方式,希望摆脱键盘和鼠标的束缚。直接与计算机对话的愿望推动了语音技术的发展。就像手机和汽车取代了传统工具,无屏幕、无键盘的计算机具有更广泛的用途,未来或许会变得更加智能和普遍。
虽然语音不会完全替代其他输入输出方式,但在某些场景下,语音控制无疑提供了更大的便利。设想一下,如果洗衣机能告知语音助手何时完成工作,并通过后者将消息发送至用户手机,这将是一个高度自动化的场景。然而,要充分发挥语音识别的潜力,科学家们不仅要突破技术瓶颈,还需解决隐私保护与便利性之间的平衡问题。
尽管计算机听写系统早已存在,但长期以来一直被认为不够可靠,部分系统需要长时间训练才能识别特定用户的声音。而现代系统则无需训练即可准确识别任何人说的话,这得益于深度学习技术。深度学习使计算机系统能够通过数百万条数据的训练来识别语音,从而达到接近人类的准确度。基于计算机的自动翻译系统正在迅速发展,它们能够将语音转化为文字,质量远超早期版本。
尽管如此,计算机仍无法理解语言的深层含义,这对工程师而言仍是一大挑战。若要让语音识别技术更进一步,就必须克服这一难题。计算机需要理解对话中的上下文,以便与用户进行持续的互动,而非仅仅执行单一命令。
研究机构和各大公司都在努力解决这一问题,目标是构建能够与人长时间正常对话的“机器人”。这些机器人不仅能检索信息,还能提供建议和帮助安排事务。亚马逊悬赏100万美元,奖励那些能在20分钟内进行连续有效交流的聊天机器人开发者。
消费者和监管机构在语音技术发展中也扮演着重要角色。当前,语音识别系统虽然已经能够很好地工作,但仍需个性化设置才能发挥最佳效果。这意味着机器需要收集用户的大量数据,包括日程安排、邮件内容等,这引发了人们对隐私保护的担忧。
为了实现更多功能,许多语音系统会持续监听周围环境,等待被唤醒。一些人担心这些连接互联网的麦克风会侵犯隐私。尽管并非所有数据都被上传到云端,但启动机制(如“Alexa”、“OK, Google”等)的存在使得数据存储成为一个问题。
近期,阿肯色州警方在调查一起谋杀案时要求亚马逊提供Echo设备收集的语音信息,但遭到科技公司的拒绝。亚马逊认为法律地位尚不明确,不应随意提供此类数据。这一事件类似于2016年苹果公司被要求解锁嫌疑人iPhone的情况,反映了个人隐私与公共安全之间的冲突。
尽管存在这些问题,消费者仍倾向于使用语音识别系统,因为它在很多情况下更加便捷。特别是在驾驶、工作或户外活动时,语音输入可以将计算能力扩展到屏幕和键盘无法触及的领域。语音识别不仅改变了计算方式,还可能影响语言的使用方式。计算机同声传译可能会促使人们使用非标准语言,而在一个机器能够正常交流的世界里,减少对话次数可能意味着生存。迄今为止,触摸屏是最接近人机交互的重大进步,我们期待语音识别技术能带来更多变革。