具身智能新高度！智元机器人推出全球首个4D世界模型EnerVerse

基于任意视角的未来空间生成引导机器人 动作规划

原标题：具身智能新高度！智元机器人推出全球首个4D世界模型 EnerVerse
文章来源：机器之心
内容字数：5074字

本文介绍了智元机器人团队提出的EnerVerse架构，该架构利用自回归扩散模型，在生成未来具身空间的同时引导机器人完成复杂任务，从而解决了机器人动作规划中模态对齐和数据稀缺的两大难题，并在机器人动作规划任务中实现了当前最优（SOTA）表现。

机器人动作规划的核心在于根据实时观测和任务指令预测并完成未来操作。然而，现有方法面临通用模型局限性和视觉记忆泛化能力不足等问题。EnerVerse通过逐块生成的自回归扩散框架，结合创新的稀疏记忆机制和锚定视角(FAV)方法，有效解决了这些挑战。

EnerVerse采用以下关键技术：

逐块扩散生成 (Next Chunk Diffusion)：基于结合时空注意力的UNet结构，逐步生成未来具身空间，并通过单向因果逻辑确保生成序列的逻辑合理性。
稀疏记忆机制：借鉴LLM的上下文记忆，通过高比例随机掩码和较大时间间隔更新记忆队列，降低计算开销，提升长程任务生成能力。
锚定视角 (Free Anchor View,FAV)：支持动态调整锚定视角，克服固定多视角在狭窄场景中的局限性，并通过光线投射原理和跨视角3D空间注意力确保生成视频的几何一致性。
高效动作规划 (Diffusion Policy Head)：在生成网络下游集成Diffusion策略头，实现未来空间生成与机器人动作规划的全链条打通，并支持稀疏记忆，提升长程任务规划能力。

实验结果表明，EnerVerse在视频生成和动作规划方面均取得了显著成果：

智元机器人通过EnerVerse架构，开创了未来具身智能的新方向。该架构突破了机器人任务规划的技术瓶颈，为多模态、长程任务的研究提供了全新范式。项目主页、论文和数据集即将开源。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

暂无评论...