机器人轻松模仿人类，还能泛化到不同任务和智能体

投稿
APP
微信扫一扫获取更多

机器人轻松模仿人类，还能泛化到不同任务和智能体｜微软新研究

黑石动态

2024-10-22 19:14:30

图灵汇官网

新方法让机械臂模仿人类动作

微软提出了一种新方法，旨在让机械臂模仿人类动作，即使缺乏高质量的机器人数据也不受影响。这种方法被称为图像目标表示（IGOR，Image-GOal Representation），通过提供人类与现实世界互动的大量数据来训练模型。

IGOR的核心优势

IGOR能够直接为人类和机器人构建一个统一的动作表示空间，实现跨任务和智能体的知识迁移，并显著提升下游任务的效果。在训练具身智能的基础模型时，高质量的带标签机器人数据是关键因素，但直接采集这些数据的成本很高。因此，利用网络视频中丰富的人类活动数据成为一种可行的解决方案。

IGOR框架详解

IGOR框架由三个基础模型组成：潜在动作模型（LAM）、策略模型（Policy Model）和世界模型（World Model）。具体而言，LAM通过将初始状态和目标状态之间的视觉变化压缩为低维向量，来学习和标注潜在动作。这使得具有相似视觉变化的图像状态拥有相似的动作向量，代表它们在语义空间而非像素空间的变化。

通过LAM，可以将海量的视频数据转化为带有潜在动作标注的数据，从而扩展具身智能基础模型能够使用的数据量。LAM将视频中的物体运动“迁移”到其他视频中，实现了跨任务和跨智能体的迁移。这意味着，通过人的行为演示，机器人也能做出正确的动作。

模型架构细节

潜在动作模型（LAM） LAM的目标是以无监督的方式从互联网规模的视频数据中学习和标注潜在动作。具体来说，它通过一个逆动态模型（IDM）和前向动态模型（FDM）来提取潜在动作表示。IDM从视频帧序列中提取潜在动作表示，而FDM则用学到的表示和当前视频帧来重建未来的视频帧。这种方式确保了学到的潜在动作具有泛化性。

在未见数据集上，LAM学到的相似潜在动作反映了相似的语义，例如打开夹子、机械臂向左移动和关闭夹子，这些潜在动作在不同任务间共享，从而提升下游模型的泛化性。

世界模型（World Model） World Model的作用是根据历史视频帧和未来多帧的潜在动作表示，生成在历史帧基础上执行各个潜在动作之后的未来视频帧。通过微调预训练的视频生成模型，World Model能够生成对应于不同潜在动作表示的未来视频帧。这种方法可以控制不同物体的独立移动。

策略模型（Policy Model） Policy Model的目标是在具体的下游任务上，根据视频帧和文本指令预测智能体每一步要采取的动作。在IGOR中，Policy Model的训练分为两个阶段：首先根据输入的视频帧和文本指令预测LAM提取出的相应潜在运动表示，建立从视频帧到通用潜在运动表示的映射；然后根据文本指令、视频帧以及第一阶段模型预测出的潜在动作表示共同预测下游任务上具体的运动标签。这种分阶段的训练方法提升了模型的任务成功率。