谷歌近日推出了两款基于Gemini 2.0的人工智能模型,目标是打造更加灵活且能互动的机器人,这或将促进机器人在更多场景中的广泛应用。这两款新模型适用于不同形态的机器人,比如人形机器人以及工厂和仓库中常见的其他类型机器人。
其中一款名为Gemini Robotics,属于视觉-语言-行动模型,能够通过实际操作来实现指令。这意味着机器人不仅能听懂自然语言指令,还能完成复杂的任务。简而言之,它能让机器人理解人类的语言并执行对应的命令。
另一款名为Gemini Robotics-ER的模型,则侧重于空间推理,是一种视觉-语言模型。它可以帮助机器人更好地感知周围环境,并支持开发者利用其推理功能编写程序。
谷歌DeepMind的工程师Kanishka Rao指出,通过将Gemini模型应用到机器人领域,谷歌正推动机器人技术朝着更智能、更通用的方向迈进。“我们的世界充满复杂性、动态变化和多样性,因此我们认为通用型智能机器人必须具备应对这些挑战的能力。”
值得注意的是,Meta、特斯拉和OpenAI等知名企业都在加大对机器人技术的投资力度,同时一些初创公司如Figure AI和Skild AI也逐渐崭露头角,这些企业的估值均已达到数十亿美元级别。
在一段预先录制的展示视频中,谷歌的研究人员演示了搭载其技术的机器人如何响应基本指令。例如,有一台机器人面对一堆积木,当被指示拼出某个单词时,它成功拼出了“Ace”。
此外,在一个小型玩具篮球场上,另一台机器人按照要求完成了扣篮动作,把一个小塑料球投入篮筐内。Rao提到,当他们首次看到机器人完成这一动作时,整个团队都感到非常激动,因为机器人并未接触过任何与篮球相关的事物。它之所以能做到这一点,是因为Gemini模型帮助它理解了篮网的样子以及“扣篮”这个词汇的意义,并将两者结合起来,在现实中实现了该动作。
尽管如此,谷歌承认这项研究尚处于初步探索阶段。DeepMind的研究员Vikas Sindhwani补充道,Gemini模型的研发建立在对物理环境中“常识性安全”的深刻理解之上。
另外,谷歌计划分阶段部署这些机器人,初期会将其安置在远离人群的地方,随着安全性不断提高,再逐步增强它们的交互性和协作能力。