轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机


无人机飞得更加平稳!

轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机

原标题:轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机
文章来源:机器之心
内容字数:6530字

清华大学团队SimpleFlight:解决强化学习无人机控制Sim2Real难题

机器之心AIxiv专栏报道了清华大学高能效计算实验室的一项突破性研究成果:SimpleFlight框架。该框架解决了强化学习(RL)策略在无人机控制中难以从仿真环境零样本泛化到真实世界的难题,在轨迹跟踪误差上比现有RL基线方法降低了50%以上。

1. 背景与挑战

传统的无人机控制方法(如PID控制器和MPC)在灵活性方面存在局限。强化学习因其直接将观测映射为动作的能力,展现出巨大的潜力,但“Sim2Real”鸿沟一直是其应用的瓶颈。如何训练出无需额外微调即可在真实环境中部署的鲁棒RL策略,是研究者们面临的挑战。

2. SimpleFlight框架

清华大学团队提出的SimpleFlight框架,集成五大技术,基于PPO算法,有效解决了上述难题。该框架在开源微型四旋翼无人机Crazyflie 2.1和团队自制的250mm轴距四旋翼无人机上进行了测试,取得了显著成果。

3. 实验结果

实验使用了平滑轨迹(八字形、随机多项式)和不可行轨迹(五角星、随机之字形)两种类型的基准轨迹。SimpleFlight在所有基准轨迹上均取得最佳性能,成功率100%,轨迹跟踪误差降低了50%以上,并且无需任何微调。

4. SimpleFlight的五大核心技术

SimpleFlight的成功归功于以下五大关键因素:

  1. 输入空间设计:采用相对位姿误差、速度和旋转矩阵作为策略网络输入,并使用旋转矩阵而非四元数。
  2. 奖励设计:将时间向量添加到价值网络输入,并使用连续动作差异的正则化作为平滑度奖励。
  3. 训练技术:使用系统辨识校准关键动力学参数,谨慎选择性地应用域随机化,并使用较大的batch size。
  4. 高效仿真平台基于NVIDIA Isaac Sim搭建的OmniDrones仿真平台,可实现每秒超过10^5步的仿真速度。
  5. CTBR指令:使用collective thrust and body rates (CTBR)作为策略输出动作。

5. 结论与意义

SimpleFlight并非依赖于新的算法或复杂的架构,其意义在于提供了一套关键训练因素的集合,可轻松集成到现有的四旋翼无人机控制方法中,帮助研究者和开发者进一步优化控制性能。该研究为强化学习在无人机控制领域的实际应用提供了重要的参考。

论文链接:https://arxiv.org/abs/2412.11764

开源代码及模型项目网站:https://sites.google.com/view/simpleflight


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

暂无评论

暂无评论...