专为机器人行业而设计!谷歌推出两款新型AI模型

图灵汇官网

谷歌近日推出了两款基于Gemini 2.0的人工智能模型,目标是打造更加灵活且能互动的机器人,这或将促进机器人在更多场景中的广泛应用。这两款新模型适用于不同形态的机器人,比如人形机器人以及工厂和仓库中常见的其他类型机器人。

其中一款名为Gemini Robotics,属于视觉-语言-行动模型,能够通过实际操作来实现指令。这意味着机器人不仅能听懂自然语言指令,还能完成复杂的任务。简而言之,它能让机器人理解人类的语言并执行对应的命令。

另一款名为Gemini Robotics-ER的模型,则侧重于空间推理,是一种视觉-语言模型。它可以帮助机器人更好地感知周围环境,并支持开发者利用其推理功能编写程序。

谷歌DeepMind的工程师Kanishka Rao指出,通过将Gemini模型应用到机器人领域,谷歌正推动机器人技术朝着更智能、更通用的方向迈进。“我们的世界充满复杂性、动态变化和多样性,因此我们认为通用型智能机器人必须具备应对这些挑战的能力。”

值得注意的是,Meta、特斯拉和OpenAI等知名企业都在加大对机器人技术的投资力度,同时一些初创公司如Figure AI和Skild AI也逐渐崭露头角,这些企业的估值均已达到数十亿美元级别。

在一段预先录制的展示视频中,谷歌的研究人员演示了搭载其技术的机器人如何响应基本指令。例如,有一台机器人面对一堆积木,当被指示拼出某个单词时,它成功拼出了“Ace”。

此外,在一个小型玩具篮球场上,另一台机器人按照要求完成了扣篮动作,把一个小塑料球投入篮筐内。Rao提到,当他们首次看到机器人完成这一动作时,整个团队都感到非常激动,因为机器人并未接触过任何与篮球相关的事物。它之所以能做到这一点,是因为Gemini模型帮助它理解了篮网的样子以及“扣篮”这个词汇的意义,并将两者结合起来,在现实中实现了该动作。

尽管如此,谷歌承认这项研究尚处于初步探索阶段。DeepMind的研究员Vikas Sindhwani补充道,Gemini模型的研发建立在对物理环境中“常识性安全”的深刻理解之上。

另外,谷歌计划分阶段部署这些机器人,初期会将其安置在远离人群的地方,随着安全性不断提高,再逐步增强它们的交互性和协作能力。

本文来源: 互联网 文章作者: 南书院之花
    下一篇

导读:2025年,人形机器人行业与大模型的融合开始进一步加深。3月10日,智元机器人刚刚发布了首个通用具身基座模型智元启元大模型(Genie Operator-1),该模型框架由VLM(多模态大模型)