专访“AI 教母”李飞飞:世界是三维的,我们需要尊重这一事实

图灵汇官网

在人工智能(AI)领域,斯坦福大学教授李飞飞被誉为“AI 教母”。她在深度学习革命中扮演了重要角色,多年来致力于创建ImageNet数据集和竞赛,该数据集和竞赛要求人工智能系统识别1000个类别的物体和动物。2012年,一个名为AlexNet的神经网络在ImageNet竞赛中夺冠,其卓越表现震惊了整个AI研究界。

从那时起,神经网络借助互联网上大量免费训练数据以及提供前所未计算能力的GPU,取得了显著进展。ImageNet的出现极大地推动了计算机视觉技术的发展,研究人员不仅掌握了物体识别,还开始研究图像和视频生成技术。李飞飞与他人共同创立了斯坦福以人为本人工智能研究院(HAI),并持续推动计算机视觉的进步。最近,她创办了一家名为World Labs的初创公司,专注于生成用户可以探索的3D场景。World Labs致力于赋予AI“空间智能”,即生成和与3D世界互动的能力。

在近期的人工智能顶会NeurIPS上,李飞飞发表了题为“从看见到行动:攀登视觉智能的阶梯”的主旨演讲,阐述了她对机器视觉的愿景。

在演讲前,李飞飞接受了IEEE Spectrum高级编辑Eliza Strickland的专访。以下是采访内容:

Eliza Strickland:为什么将演讲题目定为“攀登视觉智能的阶梯”?

李飞飞:我认为智能有不同的复杂程度。在过去的几十年里,尤其是在深度学习革命的十多年里,我们在视觉智能方面取得了令人惊讶的进展。技术能力日益增强。Judea Pearl提出的“因果关系阶梯”给了我灵感。此外,演讲还有副标题:“从看到做”。许多人没有意识到,无论是动物还是AI智能体,“看”都与互动和“做”密切相关。这与语言不同,语言本质上是一种交流工具,用来传递思想。

ES:你是说我们会本能地对某些景象做出反应?

李飞飞:我不只是指本能。如果观察感知的进化和动物智能的进化,你会发现两者间有紧密联系。每次我们从环境中获得更多信息时,进化的力量就会推动智能的发展。如果不能感知环境,我们将处于非常被动的状态;生存将变得非常困难。然而,一旦能够从环境中获取线索,进化压力就会增大,推动智能的发展。

ES:你是说创造更深入的机器智能需要让机器感知更多环境?

李飞飞:我不确定“深入”是否是最恰当的描述。我认为我们正在创造更多能力。技术变得越来越复杂,越来越有能力。解决空间智能问题是实现全面智能化的关键一步。

ES:为什么你想研究空间智能并构建这些3D世界?

李飞飞:空间智能是视觉智能的发展方向。如果我们真正解决视觉问题并将其与行动联系起来,最简单且明显的是,世界是3D的。我们的物理智能体,无论是机器人还是其他设备,都将生活在一个3D世界中。即使是虚拟世界也越来越3D化。如果你与艺术家、游戏开发者、设计师、建筑师和医生交谈,你会发现其中大部分都是3D的。承认这一点,破解3D智能问题就显得至关重要。

ES:你展示的场景是如何保持物体的持久性和遵守物理定律的?

李飞飞:一旦认同了世界的3D性,许多事情就自然而然地发生了。例如,在我们发布的视频中,篮球被投放到一个场景中。因为它是3D的,所以你可以拥有这种能力。如果场景只是2D生成的像素,篮球将无处可去。

ES:你们在推进这项技术时面临的最大技术挑战是什么?

李飞飞:这是一个前所未有的难题。在World Labs的演示视频中,我们用一幅梵高的画生成了周围场景的艺术风格、灯光和建筑。如果你转过身去,场景突然变成摩天大楼,这就缺乏说服力。它必须是3D的,你必须能够在其中导航。因此,这不仅仅是像素的问题。

ES:你使用的训练数据量大吗?

李飞飞:非常大。

ES:在算力方面是否面临技术挑战?

李飞飞:算力需求巨大,这是公共部门难以承担的。这也是我选择以私营部门方式开展这项工作的部分原因。这也是我一直推动公共部门算力访问的原因之一,因为我深知创新离不开充足的资源支持。

ES:如果公共部门也能掌握这些资源,那将更好,因为他们通常更愿意为了公众利益而获得知识。

李飞飞:知识的发现需要资源的支持。例如,伽利略时代的望远镜让天文学家观测到新的天体。胡克发明的显微镜使他发现了细胞。每次新技术工具的出现都促进了知识的探寻。如今,在人工智能时代,这些工具包括算力和数据。公共部门必须认识到这一点。

ES:假设我们能让AI系统真正理解3D世界,这将带来什么?

李飞飞:它将释放人们的创造力和生产力。我希望更高效地设计我的房子。许多医学应用都需要理解特殊的3D世界——人体。我们一直在讨论创造机器人来帮助我们,但机器人需要空间智能才能在3D世界中导航。我们也讨论了虚拟世界,它将允许人们参观地方、学习概念或娱乐。这些都使用3D技术,尤其是混合技术,我们称之为AR。我希望戴上一副眼镜穿过公园,它能告诉我关于树木、小路和云的信息。我也希望通过空间智能学习不同的技能。

ES:什么样的技能?

李飞飞:举个简单的例子,如果我在高速公路上爆胎,我该怎么办?现在,我需要打开一个“如何换轮胎”的视频。但如果我能戴上眼镜,看到我的车发生了什么,然后在指导下完成这个过程,那就太棒了。你也可以考虑烹饪,甚至雕刻有趣的东西。

ES:你认为在我们有生之年,我们还能在这项技术上取得多大的进展?

李飞飞:我认为这将在我们的有生之年实现,因为技术进步的步伐非常快。你们已经看到了过去10年带来的变化。这无疑预示着接下来会发生什么。

本文来源: 互联网 文章作者: 人工智能展
    下一篇

导读:C114讯 12月12日消息(水易)在中国电信“2024数字科技生态大会”期间,首届“TeleAI开发者大会”在广州举办。会上,中国电信发布星海AI中台、天翼AI开放平台、星辰智能体平台等开放平