专为机器人行业而设计!谷歌推出两款新型AI模型

图灵汇官网

谷歌最近发布了两款基于Gemini 2.0的人工智能模型,目的是让机器人变得更灵活、更能互动,从而扩大它们的应用范围。这两款模型适用于多种类型的机器人,包括人形机器人以及工厂和仓库里常见的其他机器人。

其中一个模型叫Gemini Robotics,属于视觉-语言-行动类模型,可以通过实际操作来完成任务。换句话说,这种机器人不仅听得懂人类的自然语言指令,还能完成复杂的任务。简单来说,就是它能让机器人明白人的语言并按要求行事。

另一个模型Gemini Robotics-ER则专注于空间推理,属于视觉-语言模型。它有助于机器人更好地识别周围环境,并且能让开发者借助它的推理能力开发程序。

谷歌DeepMind的工程师Kanishka Rao表示,通过将Gemini模型应用于机器人领域,谷歌正在推动机器人技术向更智能、更通用的方向发展。“我们的世界充满复杂性、动态变化和多样性,所以我们认为通用型智能机器人需要有能力应对这些挑战。”

值得注意的是,像Meta、特斯拉和OpenAI这样的大公司正在加大对机器人技术的投资,一些新兴公司如Figure AI和Skild AI也逐渐获得关注,这些公司的估值都已经达到数十亿美元级别。

在一段预先录制的演示视频中,谷歌的研究人员展示了搭载其技术的机器人如何响应简单的指令。例如,有一个机器人面对一堆积木,当被告知拼出某个单词时,它成功拼出了“Ace”。

此外,在一个小型玩具篮球场里,另一个机器人按照指示完成了扣篮动作,把一个小塑料球投进篮筐里。Rao提到,当他们第一次看到机器人完成这个动作时,整个团队都非常兴奋,因为机器人之前没有接触过任何与篮球相关的内容。它能做到这一点,是因为Gemini模型让它理解了篮网的外观以及“扣篮”这个词的意义,并结合这两点,在现实生活中完成了这个动作。

不过,谷歌承认,这项研究还处于早期探索阶段。DeepMind的研究员Vikas Sindhwani补充说,Gemini模型的研发建立在对物理环境中“常识性安全”的深刻理解之上。

另外,谷歌打算分步骤推出这些机器人,最初会把它们放在远离人群的地方,随着安全性不断提升,再逐步增加它们的互动性和合作能力。

本文来源: 互联网 文章作者: 南书院之花
    下一篇

导读:2025年,人形机器人行业与大模型的融合开始进一步加深。3月10日,智元机器人刚刚发布了首个通用具身基座模型智元启元大模型(Genie Operator-1),该模型框架由VLM(多模态大模型)