李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则

王子翼

2024-12-03 10:38:14

近日，李飞飞团队发布了其空间智能项目的首个成果——一个能够生成具有交互性的3D游戏世界的AI系统。只需提供一张图片，系统便能创造出一个充满互动元素的3D世界。

生成的3D世界不仅具有高度的交互性，还可以通过移动相机进行自由探索。用户可以使用键盘的W/A/S/D键或鼠标拖动画面来控制视角。此外，用户还能体验到诸如浅景深、希区柯克变焦等高级摄像效果。

除了输入图片本身，3D世界中的所有元素都是由AI生成的。这些场景在浏览器中实时渲染，并配备有可调节的模拟景深（DoF）效果。用户还可以改变物体的颜色、调整背景光影，甚至在场景中插入其他对象。

与传统的生成模型不同，该AI系统直接预测3D场景，而不是像素。因此，生成的场景在用户视角切换时不会发生改变，并且严格遵循3D几何物理规则。这种技术不仅提升了场景的真实性，还为VR领域带来了新的可能性。

发布后，该成果迅速引起了广泛关注，许多知名人士纷纷点赞。网友们表示，这种技术为VR打开了新的大门。官方也表示，这只是未来3D生成AI技术的冰山一角，团队正努力将这项技术尽快推向市场。

摄影机效果 生成的3D世界在浏览器中实时渲染，用户能够精准控制虚拟摄像机。具体来说，用户可以模拟景深效果和滑动变焦，从而获得更加真实的视觉体验。

3D效果 与其他生成模型不同，该系统直接预测3D场景。官方表示，这带来的三大优势是持久现实、实时控制和遵循正确的几何规则。这意味着生成的场景不会因视角的变化而改变，并且用户可以在其中自由移动和观察。

用户不仅可以探索生成的3D世界，还能通过点击与场景互动。例如，可以给场景添加聚光灯或创建动画效果。此外，团队还展示了如何将经典艺术作品转化为3D世界，使用户能够在虚拟环境中体验这些艺术品。

该AI系统可以与现有的各种AI工具无缝结合，为创作者提供了新的工作流程体验。例如，可以从文本生成图像，然后将这些图像转化为3D世界。这使得创作者可以充分利用自己熟悉的各种工具。

World Labs是由李飞飞教授于今年4月创立的公司，致力于推动空间智能的发展。空间智能的目标是将视觉化转变为洞察，使人们能够更好地理解和行动。该公司在短短几个月内就获得了超过10亿美元的估值，成为新晋独角兽企业。团队表示，目前发布的只是早期预览版本，未来还将不断改进和完善。

李飞飞团队推出的这一AI系统，凭借一张图片就能生成具有高度互动性的3D世界。这项技术不仅为VR领域带来了新的可能，也为创作者提供了全新的工作方式。

几何遵循生成探索物理规则基本智能世界空间

本文来源：互联网文章作者：王子翼

迈克尔·莱维特：AI的未来发展，需要平衡创新和责任｜对话诺奖得主