中山大学和华为诺亚等单位的研究团队提出了一种全新的原语驱动的路径点感知世界模型——PIVOT-R。这种模型通过优化路径点预测和设计异步分层执行器,显著提升了机器人操作的准确性和执行效率。
中山大学和华为诺亚等单位的研究团队共同开发了一种名为PIVOT-R的新模型,这是一种原语驱动的路径点感知世界模型。PIVOT-R通过优化路径点预测和设计异步分层执行器,显著提高了机器人操作的精确度和执行效率。
现有机器人操作模型通常将用户指令直接映射到低层次的可执行动作上,忽略了关键路径点的建模。这导致模型在开放环境中的表现不够稳定。此外,随着模型规模的增大,计算效率也会下降,无法满足实时任务的需求。
为了解决这些问题,研究团队提出了PIVOT-R。该模型通过关注与任务相关的路径点预测,提升了机器人操作的准确性,并设计了一个异步分层执行器来降低计算冗余,提升模型的执行效率。
原语动作解析 PIVOT-R的第一个步骤是原语动作解析。这一步利用预训练的视觉-语言模型(VLM)将复杂的自然语言指令转换成一组简单的原语动作,如“靠近”、“抓取”、“移动”等。这些原语动作为机器人提供了操作任务的粗略路径。
路径点预测 在原语动作解析之后,PIVOT-R进行路径点预测。路径点代表了机器人操控过程中的关键中间状态,例如靠近物体、抓取物体、移动物体等。通过预测路径点对应的视觉特征,PIVOT-R为后续的动作预测模块提供指引。
动作预测模块 动作预测模块负责根据预测的路径点生成具体的低层次机器人动作。该模块使用轻量级的Transformer架构进行动作预测,确保计算效率和性能的平衡。这一模块的重点在于实现低延迟和高精度的操控任务执行。
异步分层执行器 此外,PIVOT-R引入了一个关键的执行机制——异步分层执行器。不同于传统的同步更新方式,PIVOT-R为不同模块设置了不同的执行频率,以多线程方式进行异步更新,从而提升执行速度。
研究团队在SeaWave仿真环境和真实环境下进行了实验。实验结果表明,PIVOT-R在仿真环境和真实环境中均取得了最优效果。同时,该模型的速度与RT-1等方法相当,未因使用大模型而导致速度变慢。此外,PIVOT-R在泛化性测试中也表现出色,成功率远高于其他模型。
PIVOT-R通过引入原语动作驱动的路径点感知,显著提升了机器人在复杂操控任务中的性能。该模型不仅在执行效率上具备优势,还能够更好地应对复杂、多变的环境。这一方法为机器人学习提供了一个新的范式。