接力李飞飞 谷歌虚拟世界生成器上线 将和马斯克联手做AI游戏?

图灵汇官网

科技前沿:谷歌发布Genie 2,推动虚拟世界生成技术

《科创板日报》12月5日讯(编辑 宋子乔) 近期,随着“AI教母”李飞飞和谷歌DeepMind的相继动作,大模型的热度持续升温,大世界模型再次成为关注焦点。

继李飞飞的企业World Labs展示了利用单张图片生成3D世界的创新技术之后,谷歌DeepMind于12月4日发布了其大型基础世界模型Genie 2。该模型能够通过单张图片或文字描述生成逼真的3D场景。

Genie 2的核心功能

Genie 2具备多项引人注目的功能,具体包括:

  1. 生成可交互3D场景:谷歌介绍称,用户只需提供一张图片和文字描述,Genie 2便能生成一个可交互的3D场景,并以高清画质呈现。用户可以通过鼠标和键盘控制,自由探索长达1分钟,大多数情况下可以稳定运行10到20秒。

  2. 空间记忆能力:Genie 2生成的内容能够在用户移动时保持虚拟环境的一致性。即使某些区域暂时不在视野范围内,系统也能保持这些区域的稳定性。World Labs同样具备这一功能,即使视线离开再返回,生成的3D场景也不会改变。

  3. 扩图能力:Genie 2能够实时创造出符合逻辑的新场景内容,并在长达一分钟的时间内保持整个世界的连贯性。这表明Genie 2具备强大的预测3D场景的能力。World Labs也能够利用部分图片生成完整的3D场景。

技术对比

尽管两个AI工具的功能相似,但在核心技术方面存在差异。据机器之心报道,普林斯顿AI创新中心的王梦迪教授指出,李飞飞的World Labs在生成3D环境时更注重物理世界的理解。它从图片出发,估算图片中不同景物的深度和相对关系,从而生成更为真实的3D环境,而不仅仅是可互动视频。

另一个细微的区别在于应用领域。World Labs主要应用于影视制作,而谷歌则侧重于游戏开发。Genie 2发布后,DeepMind CEO Demis Hassabis邀请马斯克共同制作AI游戏,马斯克回应表示赞同。此外,作为YouTube的母公司,谷歌还拥有海量的游戏视频数据资源。

未来展望

Genie 2为代表的大世界模型能够快速创建多样化的、可操控的3D环境,这些环境可用于训练和评估具身智能体,为相关研究提供丰富的虚拟训练数据。谷歌的研究人员Jack Parker-Holder展示了几个实例,证明了Genie 2在处理复杂场景时的强大能力。

这些技术的发展预示着未来AI在游戏和虚拟现实领域的广泛应用前景。

本文来源: 互联网 文章作者: Z科技
    下一篇

导读:据ZP独家报道,前OpenAI研究与安全副总裁Lilian Weng已加盟Fellows Fund,担任新的Distinguished Fellow。Fellows Fund是一支总部位于硅谷、