基于任意视角的未来空间生成引导机器人动作规划
智元机器人EnerVerse架构:赋能机器人动作规划的未来空间生成
本文介绍了智元机器人团队提出的EnerVerse架构,该架构利用自回归扩散模型,在生成未来具身空间的同时引导机器人完成复杂任务,从而解决了机器人动作规划中模态对齐和数据稀缺的两大难题,并在机器人动作规划任务中实现了当前最优(SOTA)表现。
1. 挑战与解决方案
机器人动作规划的核心在于根据实时观测和任务指令预测并完成未来操作。然而,现有方法面临通用模型局限性和视觉记忆泛化能力不足等问题。EnerVerse通过逐块生成的自回归扩散框架,结合创新的稀疏记忆机制和锚定视角(FAV)方法,有效解决了这些挑战。
2. EnerVerse架构的技术方案
EnerVerse采用以下关键技术:
- 逐块扩散生成 (Next Chunk Diffusion):基于结合时空注意力的UNet结构,逐步生成未来具身空间,并通过单向因果逻辑确保生成序列的逻辑合理性。
- 稀疏记忆机制:借鉴LLM的上下文记忆,通过高比例随机掩码和较大时间间隔更新记忆队列,降低计算开销,提升长程任务生成能力。
- 锚定视角 (Free Anchor View,FAV):支持动态调整锚定视角,克服固定多视角在狭窄场景中的局限性,并通过光线投射原理和跨视角3D空间注意力确保生成视频的几何一致性。
- 高效动作规划 (Diffusion Policy Head):在生成网络下游集成Diffusion策略头,实现未来空间生成与机器人动作规划的全链条打通,并支持稀疏记忆,提升长程任务规划能力。
3. 实验结果与分析
实验结果表明,EnerVerse在视频生成和动作规划方面均取得了显著成果:
- 视频生成性能:在短程和长程任务中均优于现有模型,展现出更强的逻辑一致性和连续生成能力。
- 动作规划能力:在LIBERO基准测试中,EnerVerse在单视角和多视角设定下均超越了现有方法,尤其在长程任务中表现突出。
- 消融实验:证明了稀疏记忆机制和二阶段训练策略对性能提升的关键作用。
- 注意力可视化:直观展现了EnerVerse生成的未来空间与预测的动作空间的强时序一致性。
4. 结论
智元机器人通过EnerVerse架构,开创了未来具身智能的新方向。该架构突破了机器人任务规划的技术瓶颈,为多模态、长程任务的研究提供了全新范式。项目主页、论文和数据集即将开源。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
暂无评论...