《科创板日报》12月5日讯(编辑 宋子乔) 近期,随着“AI教母”李飞飞和谷歌DeepMind的相继动作,大模型的热度持续升温,大世界模型再次成为关注焦点。
继李飞飞的企业World Labs展示了利用单张图片生成3D世界的创新技术之后,谷歌DeepMind于12月4日发布了其大型基础世界模型Genie 2。该模型能够通过单张图片或文字描述生成逼真的3D场景。
Genie 2具备多项引人注目的功能,具体包括:
生成可交互3D场景:谷歌介绍称,用户只需提供一张图片和文字描述,Genie 2便能生成一个可交互的3D场景,并以高清画质呈现。用户可以通过鼠标和键盘控制,自由探索长达1分钟,大多数情况下可以稳定运行10到20秒。
空间记忆能力:Genie 2生成的内容能够在用户移动时保持虚拟环境的一致性。即使某些区域暂时不在视野范围内,系统也能保持这些区域的稳定性。World Labs同样具备这一功能,即使视线离开再返回,生成的3D场景也不会改变。
扩图能力:Genie 2能够实时创造出符合逻辑的新场景内容,并在长达一分钟的时间内保持整个世界的连贯性。这表明Genie 2具备强大的预测3D场景的能力。World Labs也能够利用部分图片生成完整的3D场景。
尽管两个AI工具的功能相似,但在核心技术方面存在差异。据机器之心报道,普林斯顿AI创新中心的王梦迪教授指出,李飞飞的World Labs在生成3D环境时更注重物理世界的理解。它从图片出发,估算图片中不同景物的深度和相对关系,从而生成更为真实的3D环境,而不仅仅是可互动视频。
另一个细微的区别在于应用领域。World Labs主要应用于影视制作,而谷歌则侧重于游戏开发。Genie 2发布后,DeepMind CEO Demis Hassabis邀请马斯克共同制作AI游戏,马斯克回应表示赞同。此外,作为YouTube的母公司,谷歌还拥有海量的游戏视频数据资源。
Genie 2为代表的大世界模型能够快速创建多样化的、可操控的3D环境,这些环境可用于训练和评估具身智能体,为相关研究提供丰富的虚拟训练数据。谷歌的研究人员Jack Parker-Holder展示了几个实例,证明了Genie 2在处理复杂场景时的强大能力。
这些技术的发展预示着未来AI在游戏和虚拟现实领域的广泛应用前景。