谷歌最近发布了两款基于Gemini 2.0的人工智能模型,目的是让机器人变得更灵活、更能互动,从而扩大它们的应用范围。这两款模型适用于多种类型的机器人,包括人形机器人以及工厂和仓库里常见的其他机器人。
其中一个模型叫Gemini Robotics,属于视觉-语言-行动类模型,可以通过实际操作来完成任务。换句话说,这种机器人不仅听得懂人类的自然语言指令,还能完成复杂的任务。简单来说,就是它能让机器人明白人的语言并按要求行事。
另一个模型Gemini Robotics-ER则专注于空间推理,属于视觉-语言模型。它有助于机器人更好地识别周围环境,并且能让开发者借助它的推理能力开发程序。
谷歌DeepMind的工程师Kanishka Rao表示,通过将Gemini模型应用于机器人领域,谷歌正在推动机器人技术向更智能、更通用的方向发展。“我们的世界充满复杂性、动态变化和多样性,所以我们认为通用型智能机器人需要有能力应对这些挑战。”
值得注意的是,像Meta、特斯拉和OpenAI这样的大公司正在加大对机器人技术的投资,一些新兴公司如Figure AI和Skild AI也逐渐获得关注,这些公司的估值都已经达到数十亿美元级别。
在一段预先录制的演示视频中,谷歌的研究人员展示了搭载其技术的机器人如何响应简单的指令。例如,有一个机器人面对一堆积木,当被告知拼出某个单词时,它成功拼出了“Ace”。
此外,在一个小型玩具篮球场里,另一个机器人按照指示完成了扣篮动作,把一个小塑料球投进篮筐里。Rao提到,当他们第一次看到机器人完成这个动作时,整个团队都非常兴奋,因为机器人之前没有接触过任何与篮球相关的内容。它能做到这一点,是因为Gemini模型让它理解了篮网的外观以及“扣篮”这个词的意义,并结合这两点,在现实生活中完成了这个动作。
不过,谷歌承认,这项研究还处于早期探索阶段。DeepMind的研究员Vikas Sindhwani补充说,Gemini模型的研发建立在对物理环境中“常识性安全”的深刻理解之上。
另外,谷歌打算分步骤推出这些机器人,最初会把它们放在远离人群的地方,随着安全性不断提升,再逐步增加它们的互动性和合作能力。