1990年,斯蒂芬妮·泰勒克斯(Stefanie Tellex)在10到12岁的时候开始学习编程。她的姨婆给了她一本编程指南,她便在父亲的台式机上输入代码。其中一个程序是著名的ELIZA,这是一个具有模仿心理治疗功能的人工智能程序。泰勒克斯通过键盘输入指令,ELIZA则会给出程序化的回应。她回忆道:“我对计算机能与人对话的概念非常着迷,认为计算机可以像真人一样存在。”尽管ELIZA的回答有些机械,但她仍然对其有限的能力感到惊叹。
在大学期间,泰勒克斯专注于计算语言学的研究。她曾编写过一个算法,可以回答整段文本的问题,比如“谁刺杀了林肯?”并给出“约翰·威尔克斯·布斯”这样的答案。然而,她表示对这一成果并不满意。“它主要是通过统计单词出现的频率来得出答案,这让我觉得缺少了语言最核心的部分。”
在攻读博士学位时,泰勒克斯与麻省理工学院媒体实验室的德布·罗伊(Deb Roy)合作。罗伊告诉她:“问题在于缺乏感知和行动。你需要与现实世界建立联系。”泰勒克斯逐渐意识到,语言与物体、事件和意图密切相关,而这些都可以通过体验和互动来学习。她认为,机器人也需要类似的体验来理解语言。因此,她逐渐成为一名机器人专家。
目前,泰勒克斯在布朗大学任职,致力于研究“使用语言的机器人”,这一课题在2020年一篇题为《控制、机器人和自主系统年度回顾》的文章中有详细阐述。从应用角度来看,语言为用户提供了一种直观的方式,指导用户如何正确使用设备,包括家庭护理、工厂、手术室、搜救、建筑、教学和自动驾驶汽车等。
泰勒克斯指出:“当与未经培训的用户在高认知负荷的情况下交互复杂系统时,语言是最有效的沟通方式。”她的合作者、马里兰大学巴尔的摩分校的机器人专家辛西娅·马图泽克(Cynthia Matuszek)补充说,在老年人护理等情况下,这一点尤为重要。例如,一位80岁的老人可能会要求她的家庭护理机器人准备午餐:“我厌倦了番茄汤,给我做个三明治吧。”如果机器人只能回答“好的,我将为此组建一个开发团队”,这显然不是一个理想的机器人。
泰勒克斯和她的合作者强调,机器人需要能够遵循自然语言指令——我们称之为“从外部语言到外部世界”的过程——这样可以增强其理解指令的能力,即从外部世界到外部语言的理解。例如,坐下的经历可能帮助机器人识别并找到椅子,或者在有人提出请求时提供适当的替代选择。通过这种方式,机器人可以更好地处理我们日常语言中使用的比喻手法,从而更准确地理解指令背后的含义。
自然界的体验还可以帮助机器人处理语言中的歧义,并根据对世界的背景知识来推断说话者的意图。例如,“我饿了”可能意味着“给我做个三明治”,这需要机器人对三明治有所了解——即三明治的用途和制作方法。
尽管学习语言并不像表面上那么简单,但过去十年间,机器人和语言领域取得了显著进展。这得益于深度学习系统的开发,这些系统模拟大脑思考的方式,可以将丰富的语音和文本形式映射到丰富的感知和动作形式。马图泽克认为:“在我们有生之年,这将成为现实。”她进一步举例说:“‘给我拿我最喜欢的杯子,然后吃晚饭’,这在不久的将来可能会实现。”
研究人员一直在探索将语言与导航结合在一起的可能性。例如,“房间到房间(R2R)”计划于2018年启动,旨在开发一种可以在虚拟环境中工作的算法,然后将其应用于现实世界。虚拟机器人需要遵循一系列指令,如“上楼梯,穿过拱门,右转进入走廊,等待挂在墙上的麋鹿角”。这些指令需要结合虚拟环境中的图像和文本信息,通过神经网络来实现。
另一项任务是由佐治亚理工学院和脸谱(Facebook)的研究人员创建的“嵌入式智能问答(EQA)”,虚拟机器人需要在虚拟房屋中导航,并回答诸如“汽车是什么颜色?”这样的问题。为了完成这些任务,算法需要结合视觉、问题处理、导航和答案生成等多种能力。
最近,研究人员公布了名为ALFRED的任务,其中包括许多充满物体的家庭场景。这些指令要求机器人完成诸如“将加热过的土豆片放在柜台上”等任务,这需要机器人具备多种技能,如加热、切割和放置物品。尽管初期成功率较低,但随着技术的进步,这些任务的完成率有望逐步提高。
总之,虽然对机器人进行自然语言控制仍然是一个尚未解决的挑战,但随着数据集、算法和运算能力的不断提升,未来将会有更多的突破。自主机器人也将变得更加普及,并在商业领域发挥更大的作用。正如泰勒克斯所说:“我看到了语言和机器人结合的巨大潜力。”