近日,由李飞飞创立的“World Labs”发布了一款最新的AI系统,仅凭一张图片,AI就能生成一个真实且可互动的3D场景。这标志着“空间智能”的一个重要进展。
与生成静态内容的AI图像/视频生成器不同,World Labs的系统可以创建持久的3D环境,无论用户从哪个角度探索,场景都能保持一致。这大大提升了控制力和一致性,是一种突破性的技术。
目前,大多数生成式AI工具主要用来生成图片或视频这类二维内容,而World Labs的AI系统则直接渲染出完整的3D场景,场景具备高度的交互性和自由度。用户可以通过键盘或鼠标自由控制视角,甚至可以像玩游戏一样探索这个虚拟世界。
3D生成式AI的应用范围已扩展至视频游戏、电影、建筑甚至教育等多个领域,World Labs推出的AI系统有望改变这些领域的发展。
首先,如果裸眼即可实现3D效果,那么学生可以在模拟的三维环境中进行沉浸式学习,这非常适合学习立体几何、物理、生物、医学等科目,也可用于职业教育中的实操教学。
其次,3D场景可以与智能硬件结合,增强交互体验。例如,学生可以通过VR和AR技术,与3D模型互动,进行模拟实验或历史场景重现。
此外,3D AI系统还能与其他AI产品结合,如在虚拟环境中学习口语等。
李飞飞被誉为“AI教母”,现任斯坦福大学计算机科学教授,美国工程院院士,美国国家医学院院士。她的专业领域是计算机视觉和认知神经科学。2023年,她入选了《时代》周刊100位最具影响力的AI人物。
2009年,李飞飞发布了当时人工智能史上最大的人工编辑图像数据集ImageNet,并于2010年创办了ImageNet挑战赛(ILSVRC),极大地推动了计算机视觉识别能力的进步。除了短暂在谷歌工作之外,李飞飞一直在学术界任职。
李飞飞也在积极推进人工智能的教育与研究。她在2019年成立了斯坦福大学的人为本AI研究院(HAI),确保人类能在人工智能中受益。在此之前,李飞飞还和同事们发起了AI4All项目,为女性、少数族裔、困难学生等人群提供人工智能课程。
今年4月,李飞飞首次下场创业,专注于空间智能。9月,World Labs正式亮相,该团队汇集了李飞飞的学生和相关领域的知名技术人员,包括技术大牛Justin Johnson、Nerf技术先驱Ben Mildenhall以及计算机图形学专家Christopher Lassner。
World Labs已获得2.3亿美元的投资,投资者包括Andreessen Horowitz (a16z)、Ashton Kutcher、英特尔资本、AMD Ventures和谷歌前CEO埃里克·施密特。该公司的估值超过10亿美元,显示了资本对其“空间智能”技术的信心。
李飞飞在接受a16z专访时提到,视觉空间智能非常基础,与语言一样重要。图像和视频生成的下一步将依赖于“空间智能”技术的进步,而World Labs正在朝这个方向努力。
Justin Johnson曾解释,空间智能是机器在三维空间和时间中以三维方式感知、推理和行动的能力,这可以帮助机器理解事物在三维空间和时间(4D)中的位置和交互方式。这是将AI从大型数据中心带出来,放入3D/4D世界中,使其理解这个世界丰富性的关键。
目前,World Labs已经迈出了空间智能技术的重要一步。根据World Labs官网介绍,其3D场景AI系统的优势在于:
李飞飞本人也在社交平台上分享了这一成果,表示:“虽然很难用语言完全描述这种通过一张图片或一句话就能生成的3D场景互动体验,但我相信它会给大家带来全新的感受。”
World Labs联合创始人Justin Johnson指出,如今创造互动式沉浸式场景需要多年开发时间和巨额预算。借助AI生成的世界模型,他们希望让这个过程更快、更方便,从而让人人拥有创造力。
这种技术不仅是艺术创作的强大工具,也为虚拟现实提供了无限可能。网友们纷纷点赞,认为这项技术可能是VR应用的一次重大飞跃。
不少知名人士也对此表示赞赏。Shopify创始人Tobi Lutke称其为“AI领域的一次革命”,认为这项技术将会彻底改变创作与互动体验。
许多网友认为,World Labs的技术令人“大开眼界”。AI能够从单张图片生成这样的世界,不仅让游戏和电影的制作方式发生变革,还将极大提升设计、教育、艺术等领域的创作效率。
目前,World Labs的系统已经进入内测阶段,创作者和开发者们均抢先体验,并开始在实际项目中运用这项技术。接下来,World Labs将继续改善所生成3D场景的大小和真实度。