轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机

图灵汇官网

AIxiv专栏介绍

AIxiv专栏是机器之心发布的学术和技术内容栏目。在过去几年中,AIxiv专栏共发布了2000多篇内容,涵盖了全球各大高校和企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或联系我们。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。


强化学习在无人机控制中的应用

无人机控制是一项极具挑战性的任务,尤其是在实现敏捷、高机动性的行为时。传统控制方法如PID控制器和模型预测控制(MPC)在灵活性和效果上存在局限性。近年来,强化学习(RL)在机器人控制领域展现出巨大潜力。通过直接将观测映射为动作,强化学习能够减少对系统动力学模型的依赖。然而,“Sim2Real”(从仿真到现实)的鸿沟依然是强化学习应用于无人机控制的一大难点。研究者们致力于实现无需额外微调的策略迁移。

尽管已有许多基于强化学习的控制方法被提出,但目前尚未形成共识,例如:如何设计奖励函数才能使无人机飞行更平稳?域随机化在无人机控制中的应用又该如何?最近,清华大学的研究团队给出了一项突破性答案。他们详细研究了训练零微调部署的鲁棒RL策略所需的关键因素,并提出了一套基于PPO的强化学习框架——SimpleFlight。该框架在轨迹跟踪误差上比现有RL基线方法降低了50%以上。

如果你正在为强化学习策略无法实际操控无人机而苦恼,SimpleFlight可以帮助你训练出无需额外微调即可在真实环境中运行的鲁棒策略。


实验效果展示

为验证SimpleFlight的有效性,研究人员在开源的微型四旋翼无人机Crazyflie 2.1上进行了广泛实验。实验中,无人机的位置、速度和姿态信息由OptiTrack运动捕捉系统以100Hz的频率提供,并传输到离线计算机上进行策略解算。策略生成的集体推力和体速率(CTBR)控制指令以100Hz的频率通过2.4GHz无线电发送到无人机。

研究人员使用了两种类型的轨迹作为基准轨迹:

  • 平滑轨迹:包括八字形和随机多项式轨迹。八字形轨迹具有周期性,测试了三种速度:慢速(15.0秒完成)、正常速度(5.5秒完成)和快速(3.5秒完成)。随机多项式轨迹由多个随机生成的五次多项式段组成,每个段的持续时间在1.00秒和4.00秒之间随机选择。

  • 不可行轨迹:包括五角星和随机之字形轨迹。五角星轨迹要求无人机以恒定速度依次访问五角星的五个顶点,测试了两种速度:慢速(0.5米/秒)和快速(1.0米/秒)。随机之字形轨迹由多个随机选择的航点组成,航点的x和y坐标在-1米和1米之间分布,连续航点之间由直线连接,时间间隔在1秒和1.5秒之间随机选择。


训练数据与测试结果

训练数据包括平滑随机五次多项式和不可行之字形轨迹。训练过程持续15,000个epoch,完成后,策略直接部署到Crazyflie无人机上进行测试,未进行任何微调。由于策略在不同随机种子下表现稳定,研究人员随机挑选了一个策略,而非选择表现最好的那个。

表1展示了SimpleFlight与两种SOTA RL基线方法(DATT和Fly)的表现对比。结果表明,SimpleFlight在所有基准轨迹上均取得最佳性能,轨迹跟踪误差降低了50%以上,且是唯一能够成功完成所有基准轨迹(包括平滑和不可行轨迹)的方法。


SimpleFlight的关键因素

SimpleFlight是如何实现这些成果的呢?研究人员主要从以下几个方面入手,以缩小模拟到现实的差距,并总结出了以下5大关键因素:

  • 输入空间设计:采用与未来一段参考轨迹的相对位姿误差、速度和旋转矩阵作为策略网络的输入,使得策略能够进行长距离规划,并更好地处理急转弯的不可行轨迹。使用旋转矩阵而非四元数作为输入,有助于神经网络的学习。

  • 时间向量:将时间向量添加到价值网络的输入。无人机的控制任务通常是随时间动态变化的,时间向量作为价值网络的额外输入,增强了价值网络对时间信息的感知,从而更准确地估计状态值。

  • 动作平滑度:采用CTBR指令作为策略输出动作,并使用连续动作之间的差异的正则化作为平滑度奖励。在无人机控制中,不平滑的动作输出可能导致飞行过程中的不稳定,而现实中的无人机由于硬件特性和动态响应的限制,比仿真环境更容易受到这些不稳定动作的影响。研究表明,使用连续动作之间的差异的正则化作为平滑度奖励,可以获得最佳的跟踪性能。

  • 系统辨识与域随机化:通过系统辨识对关键动力学参数进行校准,并选择性地应用域随机化手段。尽管域随机化可以提高模型的鲁棒性,但过度引入可能导致性能下降。因此,需谨慎选择应用随机化的参数。

  • 批量大小:在SimpleFlight的训练过程中,研究人员特别关注了批量大小对策略性能的影响。他们发现,增大批量大小虽然在仿真环境中的性能提升不显著,但在真实无人机上的表现却显著改善。这表明,大批量大小在缩小模拟与现实之间的Sim2Real Gap方面起到了关键作用。


总结

SimpleFlight的意义不仅在于实现了目前所知的在Crazyflie 2.1上最佳的控制性能,更在于作为一套关键训练因素的集合,能够轻松集成到现有的四旋翼无人机控制方法中,从而帮助研究者和开发者进一步优化控制性能。此外,研究人员还进行了额外实验,将SimpleFlight部署到一款由团队自制的250mm轴距四旋翼无人机上,进一步验证了其在不同硬件平台上的适应性和效果。

本文来源: 互联网 文章作者: 和婷
    下一篇

导读:【文/观察者网 齐倩】据路透社报道,当地时间1月2日,美国商务部再次抛出“国家安全”担忧,表示正在考虑制定新规则,对中国无人机实施限制措施,以限制或禁止其在美国境内使用。美国商务部发布声明中称,