专为机器人行业而设计！谷歌推出两款新型AI模型

投稿
APP
微信扫一扫获取更多

专为机器人行业而设计！谷歌推出两款新型AI模型

南书院之花

2025-03-13 08:15:29

图灵汇官网

谷歌最近发布了两款基于Gemini 2.0的人工智能模型，目的是让机器人变得更灵活、更能互动，从而扩大它们的应用范围。这两款模型适用于多种类型的机器人，包括人形机器人以及工厂和仓库里常见的其他机器人。

其中一个模型叫Gemini Robotics，属于视觉-语言-行动类模型，可以通过实际操作来完成任务。换句话说，这种机器人不仅听得懂人类的自然语言指令，还能完成复杂的任务。简单来说，就是它能让机器人明白人的语言并按要求行事。

另一个模型Gemini Robotics-ER则专注于空间推理，属于视觉-语言模型。它有助于机器人更好地识别周围环境，并且能让开发者借助它的推理能力开发程序。

谷歌DeepMind的工程师Kanishka Rao表示，通过将Gemini模型应用于机器人领域，谷歌正在推动机器人技术向更智能、更通用的方向发展。“我们的世界充满复杂性、动态变化和多样性，所以我们认为通用型智能机器人需要有能力应对这些挑战。”

值得注意的是，像Meta、特斯拉和OpenAI这样的大公司正在加大对机器人技术的投资，一些新兴公司如Figure AI和Skild AI也逐渐获得关注，这些公司的估值都已经达到数十亿美元级别。

在一段预先录制的演示视频中，谷歌的研究人员展示了搭载其技术的机器人如何响应简单的指令。例如，有一个机器人面对一堆积木，当被告知拼出某个单词时，它成功拼出了“Ace”。

此外，在一个小型玩具篮球场里，另一个机器人按照指示完成了扣篮动作，把一个小塑料球投进篮筐里。Rao提到，当他们第一次看到机器人完成这个动作时，整个团队都非常兴奋，因为机器人之前没有接触过任何与篮球相关的内容。它能做到这一点，是因为Gemini模型让它理解了篮网的外观以及“扣篮”这个词的意义，并结合这两点，在现实生活中完成了这个动作。

不过，谷歌承认，这项研究还处于早期探索阶段。DeepMind的研究员Vikas Sindhwani补充说，Gemini模型的研发建立在对物理环境中“常识性安全”的深刻理解之上。

另外，谷歌打算分步骤推出这些机器人，最初会把它们放在远离人群的地方，随着安全性不断提升，再逐步增加它们的互动性和合作能力。