编纂于:蛋酱、大盘鸡
曾经,机器狗以其攀爬、跳跃、跑酷和开门的技能惊艳众人,但如今,它们已进化到能开口说话的地步,展现令人瞩目的新能力。
“能开始我们的旅行吗?”Spot礼貌地提问:“请跟随着我,朋友们。”
在最新发布的视频中,波士顿动力展示了将机器狗与LLM(大型语言模型)集成的创新成果。Spot“先生”戴上礼帽,留起小胡子,拥有一双大眼睛和英国口音,正引领参观者游览公司设施。
为了让Spot能够“发声”,波士顿动力采用了OpenAI的ChatGPT API及一些开源LLM进行训练,并为其配备了扬声器,加入了文本转语音转换的功能。这使得Spot不仅能在发出声音的同时不停张开“嘴巴”,仿佛在真实对话。
波士顿动力的首席软件工程师Matt Klingensmith表示,Spot“先生”运用VQA(视觉问答)模型为图像添加字幕,并能回答关于图像的问题。例如,当提问“嘿,Spot!你看到了什么?”时,Spot迅速回应:“我看到了一块二维码的板子和一扇巨大的窗户。”
LLM展现出的“涌现行为”赋予了Spot执行超出了预先训练任务的能力,使其广泛应用于不同领域。这一探索始于今年夏季,团队在机器人应用中使用LLM制作概念验证演示,并在一次内部黑客马拉松中进一步拓展了这些想法。特别是,他们对Spot使用LLM作为自主导游的演示表现出了浓厚的兴趣,这一灵感源于LLM在角色扮演、复制文化细微差异、制定计划和保持连贯性方面的显著能力,以及近期发布的VQA模型(能够为图像添加标题并回答关于图像的简单问题)。
技术解析
探索如何通过Spot的SDK打造出一只“机器狗导游”。在波士顿动力的官方博客中,团队深入介绍了“Spot先生”背后的科技奥秘。Spot的“行走”能力现成可用,SDK也支持对机器狗的自定义设置。Spot“先生”能够观察环境中的物体,利用VQA或字幕模型进行描述,并通过LLM对这些描述进行深入阐述。
团队在Spot收集的三维地图上标记了简短的描述,机器人通过定位系统查找当前位置,并结合传感器提供的上下文输入LLM。然后,LLM整合这些内容生成指令,如“说”、“问”、“去”或“标签”等。
以下为“Spot先生”导游的建筑环境三维地图标注:
除了回答参观者的问题,规划机器狗下一步的行动,LLM还能像即兴演员一样,在基本脚本的基础上灵活应变。这种结合方式充分利用了LLM的优势,同时规避了潜在的风险。虽然LLM可能会添加一些看似合理的但实际不准确的细节,但在此类参观过程中,重点在于提供娱乐性、互动性和趣味性,而不强调事实的绝对准确性。
整个系统整合了简单的硬件集成和协同运行的软件模型,其中包括音频处理、硬件设备集成以及精心设计的软件逻辑。硬件方面,重点在于实现音频功能,让Spot既能演示也能听取观众的提问。团队通过3D打印的防震支架,将Respeaker V2扬声器与Spot的EAP 2有效载荷连接,实现音频输入输出。机器人通过外部计算机(台式或笔记本)与Spot进行通信。
软件层面,波士顿动力团队使用了OpenAI的ChatGPT API,包括gpt-3.5和gpt-4,同时测试了其他开源LLM。这使得Spot具备了出色的对话能力,通过精确的prompt工程,ChatGPT被巧妙地引导至机器人及其“言语”的控制之中。借鉴微软的方法,团队让ChatGPT模拟“编写python脚本的下一行”,以此作为prompt。他们为LLM提供了英文文档形式的注释,并将LLM的输出视为python代码进行评估。LLM能够访问自主SDK、带有每个地点单行描述的地图,并能够说出短语或提出问题。
通过巧妙的硬件集成和软件逻辑设计,波士顿动力成功打造了“Spot先生”这一创新的机器狗导游。这一技术不仅展示了机器人在对话、视觉问答和语音交互领域的进步,还展现了LLM在增强机器人交互体验方面的潜力。未来,随着技术的不断演进,“Spot先生”及其他类似的机器人导游将为参观者带来更加丰富、有趣且互动性更强的体验。