微软提出了一种新方法,旨在让机械臂模仿人类动作,即使缺乏高质量的机器人数据也不受影响。这种方法被称为图像目标表示(IGOR,Image-GOal Representation),通过提供人类与现实世界互动的大量数据来训练模型。
IGOR能够直接为人类和机器人构建一个统一的动作表示空间,实现跨任务和智能体的知识迁移,并显著提升下游任务的效果。在训练具身智能的基础模型时,高质量的带标签机器人数据是关键因素,但直接采集这些数据的成本很高。因此,利用网络视频中丰富的人类活动数据成为一种可行的解决方案。
IGOR框架由三个基础模型组成:潜在动作模型(LAM)、策略模型(Policy Model)和世界模型(World Model)。具体而言,LAM通过将初始状态和目标状态之间的视觉变化压缩为低维向量,来学习和标注潜在动作。这使得具有相似视觉变化的图像状态拥有相似的动作向量,代表它们在语义空间而非像素空间的变化。
通过LAM,可以将海量的视频数据转化为带有潜在动作标注的数据,从而扩展具身智能基础模型能够使用的数据量。LAM将视频中的物体运动“迁移”到其他视频中,实现了跨任务和跨智能体的迁移。这意味着,通过人的行为演示,机器人也能做出正确的动作。
潜在动作模型(LAM) LAM的目标是以无监督的方式从互联网规模的视频数据中学习和标注潜在动作。具体来说,它通过一个逆动态模型(IDM)和前向动态模型(FDM)来提取潜在动作表示。IDM从视频帧序列中提取潜在动作表示,而FDM则用学到的表示和当前视频帧来重建未来的视频帧。这种方式确保了学到的潜在动作具有泛化性。
在未见数据集上,LAM学到的相似潜在动作反映了相似的语义,例如打开夹子、机械臂向左移动和关闭夹子,这些潜在动作在不同任务间共享,从而提升下游模型的泛化性。
世界模型(World Model) World Model的作用是根据历史视频帧和未来多帧的潜在动作表示,生成在历史帧基础上执行各个潜在动作之后的未来视频帧。通过微调预训练的视频生成模型,World Model能够生成对应于不同潜在动作表示的未来视频帧。这种方法可以控制不同物体的独立移动。
策略模型(Policy Model) Policy Model的目标是在具体的下游任务上,根据视频帧和文本指令预测智能体每一步要采取的动作。在IGOR中,Policy Model的训练分为两个阶段:首先根据输入的视频帧和文本指令预测LAM提取出的相应潜在运动表示,建立从视频帧到通用潜在运动表示的映射;然后根据文本指令、视频帧以及第一阶段模型预测出的潜在动作表示共同预测下游任务上具体的运动标签。这种分阶段的训练方法提升了模型的任务成功率。
IGOR通过大量人类和机器人视频预训练学习动作表示,并将其泛化到不同的任务和智能体上。通过从海量视频中学到的动作表示,IGOR能够实现机器人轻松模仿人类动作,从而实现更通用的智能体。这一方法不仅解决了数据采集成本高的问题,还极大地提高了机器人的灵活性和适应性。