近日,由智元机器人、上海交通大学与上海人工智能实验室共同研发的机器人领域的首个4D世界模型EnerVerse正式发布。这一模型旨在使机器人能够根据任务指导和实时观察来规划未来的行动。
在机器人技术中,如何实现有效的动作规划一直是一个挑战。传统的动作规划方法通常难以在语言、视觉和动作等多种模式之间实现精确匹配,并且缺乏大规模、多模态且包含动作标签的数据集。
针对这些问题,EnerVerse采用了自回归扩散模型,能够在生成未来场景的同时引导机器人完成复杂的任务。此外,EnerVerse还引入了稀疏记忆机制和自由锚定视角,提升了4D生成能力和动作规划性能。
据智元机器人介绍,EnerVerse不仅拥有出色的未来场景生成能力,还在机器人动作规划任务中达到了当前最佳的表现。目前,该项目的主页和相关论文已经上线,模型和数据集也即将开放源代码。
逐步生成未来场景
EnerVerse利用自回归扩散模型逐步生成未来的场景,以指导机器人的动作规划。该模型的关键设计包括:
扩散模型架构:结合时空注意力的UNet结构,每个空间块内部通过卷积和双向注意力建模,块与块之间通过单向因果逻辑保持时间一致性。
稀疏记忆机制:借鉴大型语言模型的上下文记忆,EnerVerse在训练阶段对历史帧进行高比例随机掩码,在推理阶段以较大时间间隔更新记忆队列,从而降低计算开销并提升长程任务的生成能力。
任务结束逻辑:通过特殊的结束帧实现对任务结束时机的精准控制,确保生成过程在合适节点终止。
自由锚定视角
EnerVerse提出了一种灵活的自由锚定视角方法,以解决具身操作中因遮挡关系复杂而难以构建完美全局视角的问题。这一方法的特点包括:
自由设定视角:允许根据场景灵活重置锚定视角,避免固定多视角在狭窄空间中的局限性。
跨视角空间一致性:基于光线投射原理,EnerVerse使用视线方向图作为视角控制条件,将2D空间注意力扩展为跨视角的3D空间注意力,确保生成的多视角视频在几何上保持一致。
Sim2Real Adaption:通过在仿真数据上微调的4D生成模型与4D高斯泼溅交替迭代,构建了一个数据飞轮,为真实场景下的FAV生成提供伪真值支持。
高效动作预测
EnerVerse在生成网络下游集成了扩散策略头,实现了未来场景生成与机器人动作规划的全链条打通。其关键设计包括:
EnerVerse在视频生成、动作规划、消融与训练策略分析以及注意力可视化等方面均表现出色。