具身智能新高度!智元机器人推出全球首个4D世界模型EnerVerse

图灵汇官网

AIxiv专栏:推动具身智能的前沿探索

AIxiv专栏是机器之心发布的学术和技术内容平台。多年来,该专栏已报道了2000多篇内容,涵盖了全球各大高校和顶尖企业的实验室,极大地促进了学术交流与知识传播。如果你有优秀的工作想要分享,欢迎投稿或联系我们。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

如何让机器人在任务指导和实时观察的基础上规划未来的行动,一直是具身智能领域的重要科学问题。然而,实现这一目标面临两大主要挑战:

模态对齐

需要在语言、视觉和动作等多模态空间中建立精确的对齐机制。

数据稀缺

缺乏大规模、多模态且带有动作标签的数据集。

针对这些问题,智元机器人团队开发了EnerVerse架构,利用自回归扩散模型(autoregressive diffusion)来生成未来的具身空间,并引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型,EnerVerse结合了具身任务的需求,创新性地引入了稀疏记忆机制(Sparse Memory)自由锚定视角(Free Anchor View, FAV),提升了4D生成能力和动作规划性能。实验结果显示,EnerVerse不仅在空间生成方面表现出色,还在机器人动作规划任务中达到了当前最优(SOTA)水平。项目主页与论文已经上线,模型和相关数据集即将开源。

未来空间生成助力机器人动作规划

机器人动作规划的核心在于基于实时观测和任务指令,预测并完成一系列复杂的未来操作。然而,现有的方法在处理复杂具身任务时存在一些局限性:

通用模型局限性

当前通用视频生成模型缺乏对具身场景的针对性优化,无法满足具身任务的特殊需求。

视觉记忆泛化能力不足

现有方法依赖稠密连续的视觉记忆,容易导致生成长程任务序列时逻辑不连贯,影响动作预测性能。

为了解决这些问题,EnerVerse采用了逐块生成的自回归扩散框架,结合创新的稀疏记忆机制与自由锚定视角(FAV)方法。其关键技术包括:

逐块扩散生成

EnerVerse采用逐块生成的自回归扩散模型,逐步生成未来的具身空间,以引导机器人动作规划。其关键设计包括:

  • 扩散模型架构:基于结合时空注意力的UNet结构,每个空间块内部通过卷积与双向注意力建模;块与块之间通过单向因果逻辑保持时间一致性。
  • 稀疏记忆机制:借鉴大语言模型(LLM)的上下文记忆,EnerVerse在训练阶段对历史帧进行高比例随机掩码,在推理阶段以较大时间间隔更新记忆队列,有效降低计算开销并提升长程任务的生成能力。
  • 任务结束逻辑:通过特殊的结束帧(EOS frame),实现对任务结束时机的精准监督,确保生成过程在合适节点终止。

灵活的4D生成:自由锚定视角(FAV)

针对具身操作中复杂遮挡环境和多视角需求,EnerVerse提出了自由锚定视角(FAV)方法,以灵活表达4D空间。其核心优势包括:

  • 自由设定视角:FAV支持动态调整锚定视角,克服固定多视角在狭窄场景中的局限性。
  • 跨视角空间一致性:基于光线投射原理(ray casting),EnerVerse通过视线方向图(ray direction map)作为视角控制条件,并将2D空间注意力扩展为跨视角的3D空间注意力(cross-view spatial attention),确保生成视频的几何一致性。
  • Sim2Real适配:通过在仿真数据上训练的4D生成模型(EnerVerse-D)与4D高斯泼溅(4D Gaussian Splatting)交替迭代,构建一个数据飞轮,为真实场景下的FAV生成提供伪真值支持。

高效动作规划:扩散策略头(Diffusion Policy Head)

EnerVerse通过在生成网络下游集成扩散策略头(Diffusion Policy Head),实现未来空间生成与机器人动作规划的全链条贯通。其关键设计包括:

  • 高效动作预测:生成网络在逆扩散的第一步即可输出未来动作序列,确保动作预测的实时性。
  • 稀疏记忆支持:在动作预测推理中,稀疏记忆队列存储真实或重建的FAV观测结果,有效提升长程任务规划能力。

实验结果

EnerVerse在短程与长程任务视频生成中均表现出卓越的性能:

  • 在短程生成任务中,EnerVerse的表现优于现有微调视频生成模型,如基于DynamiCrafter与FreeNoise的扩散模型。
  • 在长程生成任务中,EnerVerse展现出更强的逻辑一致性和连续生成能力。

此外,EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。

动作规划能力

在LIBERO基准测试中,EnerVerse在机器人动作规划任务中取得了显著优势:

  • 单视角(one FAV)设定:EnerVerse在LIBERO四类任务中的平均成功率已超过现有方法。
  • 多视角(three FAV)设定:进一步提升了任务成功率,在每一类任务上均超越当前最佳方法。

消融与训练策略分析

稀疏记忆机制:消融实验表明,稀疏记忆对长程序列生成的逻辑合理性和长程动作预测精度至关重要。

二阶段训练策略:先进行未来空间生成训练,再进行动作预测训练的二阶段策略,显著提升了动作规划性能。

注意力可视化

通过可视化Diffusion策略头中的交叉注意力模块,研究发现EnerVerse生成的未来空间与预测的动作空间具有较强的时序一致性,直观体现了EnerVerse在未来空间生成与动作规划任务中的相关性与优势。

智元机器人通过EnerVerse架构开创了未来具身智能的新方向。通过未来空间生成引导动作规划,EnerVerse不仅突破了机器人任务规划的技术瓶颈,还为多模态、长程任务的研究提供了全新范式。

本文来源: 互联网 文章作者: 雅卓
    下一篇

导读:中新网1月9日电(中新财经记者 吴涛)“人形机器人在未来三年内,会有很多示范项目落地;五年左右,行业将会出现小规模爆发;十年左右,将有望走进千家万户。”EX机器人总裁李博阳。供图近日,EX机器人