近日,大模型的热潮仍在持续,大世界模型再次成为关注的焦点。继李飞飞旗下的World Labs展示了一图生成3D世界的功能后,谷歌DeepMind在12月4日发布了名为Genie 2的大型基础世界模型。Genie 2可以通过单张图片或文字描述生成3D场景。
尽管两个AI工具的功能非常相似,但它们之间仍存在一些关键差异。Genie 2主要通过单张图片或文字生成可交互的3D场景,并以720p的清晰度呈现。用户可以通过鼠标和键盘进行自由探索,通常能够稳定运行10到20秒。
此外,Genie 2具备空间记忆能力,使得在虚拟环境中移动时,系统能保持已生成区域的一致性。它还能实时创造出符合逻辑的新场景内容,使整个世界在长达一分钟内保持一致性。
然而,有专家指出,李飞飞的World Labs在理解物理世界方面更为出色。World Labs不仅生成可互动的视频,还通过深度估计和物体间的关系来构建更加物理化的3D环境。
World Labs主要应用于影视制作,而谷歌的Genie 2则侧重于游戏制作。Genie 2发布后,DeepMind的CEO Demis Hassabis直接邀请马斯克合作开发AI游戏。马斯克对此表示赞同,他曾宣布成立xAI游戏工作室。
值得一提的是,Genie 2为代表的大型世界模型可以快速创建多样化的、可操控的3D环境。这些3D环境不仅适用于训练和评估具身智能体,还可以为研究提供丰富的虚拟训练数据。
谷歌的研究人员Jack Parker-Holder展示了Genie 2的实际应用,通过简单的图片和语言指令,Genie 2能够生成复杂的3D场景。例如,在一个包含三个门的场景中,Genie 2能够准确地理解和生成研究人员期望的3D动画。
研究人员相信,Genie 2将在解锁具身智能体的下一波能力方面发挥重要作用。
(改写自《科创板日报》报道)