装载OpenAI大模型的人形机器人已经亮相。
当地时间3月13日,在宣布与AI新锐公司OpenAI合作后的第13天,AI机器人初创企业Figure展示了其全尺寸人形机器人Figure 01的最新演示视频。这款机器人装备了OpenAI提供的视觉语言模型(VLM)。视频中,Figure 01展示了与人类互动的能力。
根据Figure的介绍,这段长达2分33秒的视频是在3月9日连续拍摄的,以原速播放,展示了Figure 01具备“语音到语音的推理”和“端到端的神经网络”的功能。
在视频中,Figure 01站在一张摆满盘子、苹果和水杯的桌子后面,旁边还有一个碗架。一位主持人站在Figure 01面前,询问它看到了什么。几秒钟后,Figure 01用类似真人的声音详细描述了桌子上的物品和站在桌前的主持人。
当主持人问Figure 01能否提供一些食物时,机器人迅速拿起桌上的苹果递给主持人,并在清理桌上垃圾的过程中解释道:“我给你苹果,因为这是唯一可以吃的东西。”
随后,Figure 01在主持人模糊的指引下,准确地将盘子和水杯放入碗架。视频最后,Figure用“完全掌握技能、快速、灵巧操作”来评价Figure 01的表现。
在X平台(原推特)上,Figure分享了该视频,并表示:“借助OpenAI,Figure 01现在能与人进行完整的对话。OpenAI的模型提供了高水平的视觉和语言智能。Figure的神经网络则提供快速、低级、灵巧的机器人动作。”
Figure的CEO布雷特·阿德科克进一步解释说:“Figure的机载摄像头被输入了由OpenAI训练的视觉语言模型(VLM),Figure的神经网络也通过机器人的摄像头以每秒10次的频率接收图像。然后,神经网络以每秒200次的频率输出24个自由度的动作……除了构建领先的AI,Figure还垂直整合了几乎所有方面。”
不过,阿德科克并未明确说明Figure 01所使用的VLM是GPT-4的相关版本,还是其他模型。此外,他也没有透露Figure 01的具体发布时间。
去年10月,Figure曾展示过Figure 01双足站立行走的视频。今年1月7日,Figure发布了Figure 01使用胶囊咖啡机制作咖啡的视频,当时机器人动作还比较缓慢。而在本次视频发布后,由于机器人动作过于流畅,一些网友对其真实性提出了质疑。
然而,阿德科克坚持认为该视频是真实的:“正如视频所示,机器人的速度得到了显著提升,已接近人类的速度……我们的目标是训练一个世界模型,使其能够操作达到十亿单位水平的人型机器人。”
资料显示,Figure AI由阿德科克于2022年创立,目标是“在全球范围内部署自动人形工作者”。目前研发中的Figure 01身高1.5米,重60公斤。
近期,随着机器人概念的热度不断上升,对标特斯拉Optimus机器人的Figure受到了广泛关注。今年2月,Figure在新一轮融资中获得了包括英伟达、亚马逊创始人杰夫·贝索斯、微软等在内的多家大型科技公司的投资,共筹集资金约6.75亿美元,公司估值达到26亿美元。