清华大学教授孙富春：具身智能是AI进入物理世界进行交互的载体

投稿
APP
微信扫一扫获取更多

清华大学教授孙富春：具身智能是AI进入物理世界进行交互的载体

老罗讲金

2024-12-07 10:09:19

图灵汇官网

导读

2024年12月6日，一场名为“奔向数智新时代”的大会在成都举行。此次活动由成都传媒集团指导，每日经济新闻主办，中央财经大学数字经济融合创新发展中心提供学术支持，数智未来场景实验室进行智略支持。

在大会上，清华大学计算机科学与技术系教授、中国人工智能学会副理事长孙富春围绕“具身智能赋能产业发展”发表了主题演讲。他首先回顾了具身智能的历史背景，提到了沃伦·麦卡洛克关于认知与身体关系的研究、艾伦·图灵通过心智发育和具身来发展智能的理论，以及赫尔德和海因证明主动行为与感觉反馈互动对认知发展的重要性。

孙富春还阐述了具身智能与离身智能体之间的区别。离身智能体缺乏物理形态，只能被动接受人类准备的数据，而具身智能则通过给机器一个物理形态，使其能与物理世界互动，比如家用服务机器人和无人驾驶车辆。1963年，麻省理工学院的理查德·黑尔德教授通过一对猫进行实验，一只猫被置于篮子中并蒙住眼睛，另一只猫则自由活动，结果发现能够与物理世界互动的猫学会了行走，这进一步强调了具身的重要性。

为了实现真正的“智能”，具身智能系统需要具备场景感知、认知、多模态的连续学习等能力，以便更好地理解和应对复杂环境。孙富春举了一个例子，人类在完成某项任务时，通常需要将抽象的感知转化为认知，并且这一过程离不开知识的引导。例如，将苹果放在桌子上可以分为三个步骤：首先找到苹果，这需要感知技能和认知技能的结合；其次抓住苹果；最后放置苹果。在知识的指导下，机器也能像人类一样高效地完成各种任务，并根据操作对象的不同特性（如形态、大小、硬度）进行相应的操作。此外，具身智能还体现在智能体能够处理多任务和跨任务的能力上。

目前，具身智能的快速发展为多个行业带来了前所未有的变革机会。在制造业领域，具身智能机器人能够精准执行复杂的生产任务，提高生产效率和产品质量；在医疗领域，具身智能展现出巨大的应用潜力，例如在外科手术中，医疗机器人能够辅助医生进行高精度的手术操作，从而降低手术风险，提高手术成功率。此外，具身智能还在智能家居、安防监控、智慧交通等领域发挥了重要作用。

展望未来，孙富春认为具身智能的发展将围绕四大核心要素展开：本体、具身智能体、数据和知识以及学习和进化架构。本体作为实际的执行者，需在物理或虚拟世界中进行感知和任务执行，具有广泛适应性的机器人本体非常重要。其次，具身智能体负责感知、理解、决策和控制等核心工作，能够自主与环境互动。当前，大型语言模型（LLM）和视觉语言模型（VLM）等模型能够赋予具身智能体强大的泛化能力。第三，数据是泛化的关键，但由于机器人的数据稀缺且昂贵，模型规模变得越来越大，对数据的要求也越来越严格。最后，如何有效地将简单的仿真与复杂的真实世界进行建模，也是智能体设计的关键问题之一。