只需1次演示,1小时在线训练,机器人真就做到看一遍就会了

图灵汇官网

本文介绍了一种名为ROT(Regularized Optimal Transport)的算法,该算法用于模仿学习,无需任何预训练,在14项任务中的平均成功率为90.1%。

模仿学习是一种历史悠久的方法,可以分为两大类:行为克隆(BC)和逆强化学习(IRL)。行为克隆通过监督学习来获取策略,使策略在给定观察的情况下最大化演示行动的可能性。这种方法虽然避免了在线交互的需求,但在rollout过程中会出现分布不匹配的问题。另一方面,逆强化学习通过从演示轨迹中推断潜在的奖励函数来优化策略,从而使得策略即使在缺乏任务特定奖励的情况下也能稳健地解决问题。不过,逆强化学习方法需要大量的在线环境交互,这增加了成本。

纽约大学的研究团队近期提出了一种新的ROT算法,旨在解决逆强化学习中存在的问题。ROT利用最优传输(OT)进行奖励计算,并在专家演示中使用行为克隆进行预训练,以减少智能体探索的需求。此外,该研究还开发了一种名为soft Q-filtering的自适应权重方案,用于稳定在线学习过程,确保策略接近预训练的行为克隆策略。

为了验证ROT的有效性,研究人员在DM Control、OpenAI Robotics和Meta-world的20个模拟任务上进行了广泛实验,并在xArm上完成了14个机器人操作任务。结果显示,ROT在多个任务上的表现优于传统方法,尤其是在一些较难的任务上,其训练速度显著提升。

ROT不仅在模拟环境中表现出色,还在实际操作任务中取得了优异成绩。通过一次演示和一小时的在线训练,ROT在14个任务中的平均成功率达到90.1%,远超基于行为克隆(成功率36.1%)和对抗性逆强化学习(成功率14.6%)的方法。

此外,ROT在不同起始位置的表现依然出色,但在某些情况下也出现了失败的情况。进一步分析表明,soft Q-filtering方法确实改善了先前的SOTA对抗逆强化学习方法,但基于最优传输的方法(ROT)更为稳定,且总体上促进了更高效的学习。

ROT算法的相关论文可以在https://arxiv.org/pdf/2206.15469.pdf下载,更多详细信息可访问https://rot-robot.github.io/。

本文来源: 图灵汇 文章作者: 天平广播