李飞飞:理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型

图灵汇官网

导读

语言中蕴含着丰富的视觉隐喻,如“眼见为实”、“一幅画胜过千言万语”、“眼不见,心不烦”等。这是因为人类从视觉中获取了许多意义。然而,人类并非一直具备视觉能力。直到大约5.4亿年前,所有生物都生活在水下,无法看见。直到三叶虫的出现,动物们才第一次感知到周围阳光的丰富。接下来发生的事情非常非凡。在接下来的1000万到1500万年间,视觉能力开启了一个被称为寒武纪大爆发的时期,许多现代动物的祖先在此期间出现。

如今,我们正经历着人工智能(AI)的现代寒武纪大爆发。每周都有新的、令人惊叹的工具问世。起初,生成式AI革命是由巨大的语言模型推动的,例如ChatGPT,它们模仿人类的语言智能。然而,我认为基于视觉的智能——我称之为“空间智能”——更为重要。虽然语言很重要,但作为人类,我们理解和与世界互动的能力很大程度上依赖于我们的视觉体验。计算机视觉是AI的一个重要分支,它致力于教会计算机拥有与人类相同甚至更好的空间智能。在过去15年里,这一领域迅速发展。在我的职业生涯中,我一直致力于这一领域,并坚信AI应以人为本。

孩子们无需被教导如何看东西,他们通过经验和观察来理解世界。他们的眼睛就像生物相机,每秒可以捕捉多张“照片”。到三岁时,孩子们已经积累了数亿张这样的图像。我们需要从大型语言模型转向大型世界模型。研究表明,视觉的一个基本要素是物体识别。因此,我们开始教会计算机这种能力。这并不容易,因为将一只猫的三维(3D)形状呈现为二维(2D)图像的方式是多种多样的,取决于视角、姿态和背景等因素。为了让计算机在图片中识别一只猫,它需要拥有大量的信息,就像一个孩子一样。这一切直到2000年代中期才成为可能。当时,被称为卷积神经网络的算法经过多年发展,结合现代GPU的强大能力和互联网上的数十亿张图像,实现了突破。我的实验室为这一突破贡献了数据部分。2007年,我们创建了一个名为ImageNet的项目,其中包含1500万张标记图像,涵盖了22000个物体类别。随后,我们和其他研究人员使用这些图像及其相应的文本标签训练神经网络模型,使模型能够用简单的句子描述之前未见过的照片。ImageNet数据库的意外快速发展,推动了现代AI的兴起。随着技术进步,基于变换器架构和扩散等新技术的新型模型,开启了生成式AI工具的新时代。在语言领域,这使得像ChatGPT这样的聊天机器人成为可能。在视觉方面,现代系统不仅可以识别,还可以根据文本提示生成图像和视频。尽管这些成果令人印象深刻,但仍然局限于二维。为了使计算机具备人类的空间智能,它们需要能够建模世界、推理事物和地点,并在时间和3D空间中进行互动。简而言之,我们需要从大型语言模型转向大型世界模型。学术界和工业界的实验室已经展示了这一转变的初步迹象。借助最新的AI模型,这些模型使用来自机器人传感器和执行器的文本、图像、视频和空间数据进行训练,我们可以通过文本提示来控制机器人,例如,要求它们拔掉手机充电器或制作一个简单的三明治。或者,给定一张2D图像,该模型可以将其转化为用户可以探索的无限数量的合理3D空间。应用前景无限。想象一下,能够在普通家庭中导航并照顾老人的机器人;为外科医生提供不知疲倦的帮助;或者在模拟、培训和教育中的应用。这正是真正以人为中心的人工智能,空间智能是其下一个前沿。人类进化了数亿年所取得的成果,现在在计算机中仅需几十年就能实现。而我们人类将是最大的受益者。

本文翻译自:《经济学人》, https://www.economist.com/the-world-ahead/2024/11/20/fei-fei-li-says-understanding-how-the-world-works-is-the-next-step-for-ai

本文来源: 互联网 文章作者: 罗倩
    下一篇

导读:腾讯新闻《一线》作者 | 凌雪编辑 | 刘鹏11月25日,邬贺铨在度小满联合主办的“中关村博士后学术交流论坛”上表示,“大模型的落地应用正在从模型层走向智能体(AI Agent)。”他表示,智能