机器人装上OpenAI大模型：合作仅13天，能思考会识别，动作流畅

投稿
APP
微信扫一扫获取更多

机器人装上OpenAI大模型：合作仅13天，能思考会识别，动作流畅

科技生活

2024-04-06 21:03:48

图灵汇官网

装载OpenAI大模型的人形机器人已经亮相。

当地时间3月13日，在宣布与AI新锐公司OpenAI合作后的第13天，AI机器人初创企业Figure展示了其全尺寸人形机器人Figure 01的最新演示视频。这款机器人装备了OpenAI提供的视觉语言模型（VLM）。视频中，Figure 01展示了与人类互动的能力。

根据Figure的介绍，这段长达2分33秒的视频是在3月9日连续拍摄的，以原速播放，展示了Figure 01具备“语音到语音的推理”和“端到端的神经网络”的功能。

在视频中，Figure 01站在一张摆满盘子、苹果和水杯的桌子后面，旁边还有一个碗架。一位主持人站在Figure 01面前，询问它看到了什么。几秒钟后，Figure 01用类似真人的声音详细描述了桌子上的物品和站在桌前的主持人。

当主持人问Figure 01能否提供一些食物时，机器人迅速拿起桌上的苹果递给主持人，并在清理桌上垃圾的过程中解释道：“我给你苹果，因为这是唯一可以吃的东西。”

随后，Figure 01在主持人模糊的指引下，准确地将盘子和水杯放入碗架。视频最后，Figure用“完全掌握技能、快速、灵巧操作”来评价Figure 01的表现。

在X平台（原推特）上，Figure分享了该视频，并表示：“借助OpenAI，Figure 01现在能与人进行完整的对话。OpenAI的模型提供了高水平的视觉和语言智能。Figure的神经网络则提供快速、低级、灵巧的机器人动作。”

Figure的CEO布雷特·阿德科克进一步解释说：“Figure的机载摄像头被输入了由OpenAI训练的视觉语言模型（VLM），Figure的神经网络也通过机器人的摄像头以每秒10次的频率接收图像。然后，神经网络以每秒200次的频率输出24个自由度的动作……除了构建领先的AI，Figure还垂直整合了几乎所有方面。”

不过，阿德科克并未明确说明Figure 01所使用的VLM是GPT-4的相关版本，还是其他模型。此外，他也没有透露Figure 01的具体发布时间。

去年10月，Figure曾展示过Figure 01双足站立行走的视频。今年1月7日，Figure发布了Figure 01使用胶囊咖啡机制作咖啡的视频，当时机器人动作还比较缓慢。而在本次视频发布后，由于机器人动作过于流畅，一些网友对其真实性提出了质疑。

然而，阿德科克坚持认为该视频是真实的：“正如视频所示，机器人的速度得到了显著提升，已接近人类的速度……我们的目标是训练一个世界模型，使其能够操作达到十亿单位水平的人型机器人。”

资料显示，Figure AI由阿德科克于2022年创立，目标是“在全球范围内部署自动人形工作者”。目前研发中的Figure 01身高1.5米，重60公斤。

近期，随着机器人概念的热度不断上升，对标特斯拉Optimus机器人的Figure受到了广泛关注。今年2月，Figure在新一轮融资中获得了包括英伟达、亚马逊创始人杰夫·贝索斯、微软等在内的多家大型科技公司的投资，共筹集资金约6.75亿美元，公司估值达到26亿美元。