斯坦福大学吴佳俊团队开发了一套用于机器人的大型多模态数据集——IKEA Video Manuals,该数据集已被纳入NeurIPS会议。数据集涵盖了6大类宜家家具,每种家具都包含完整的3D模型、组装说明书和实际组装视频。
斯坦福大学吴佳俊团队为机器人设计了一套视频教程,旨在教会机器人如何组装宜家家具。该团队提出了一种名为IKEA Video Manuals的数据集,涵盖了6大类宜家家具,每种家具都包含了完整的3D模型、组装说明书和实际组装视频。
该数据集的特点在于其精细划分,拆解出的安装子步骤多达1000多个。作者表示,该数据集首次实现了组装指令在真实场景中的4D对齐,为研究这一复杂问题提供了重要基准。
知名科技博主、前微软策略研究者Robert Scoble认为,有了这个数据集,机器人将能够自行组装家具。团队成员李曼玲表示,这项工作将组装规划从2D推进到3D空间,通过理解底层视觉细节,解决了空间智能研究中的一个主要瓶颈。
数据集中包含了6大类36种宜家家具,从简单的凳子到复杂的柜子,展示了不同难度的组装任务。每款家具都包括安装说明书、真实组装视频和3D模型。这些模态并非简单堆砌,而是经过精细对齐,确保视频和操作步骤的一致性。
在长凳的数据示例中,包含了其基本概况、视频信息、关键帧信息和安装步骤。安装步骤中有主要步骤和子步骤的划分,并标注了对应的视频位置。整个数据集中共有137个手册步骤,细分为了1120个具体子步骤,捕捉了完整的组装过程。
IKEA Video Manuals数据集是在IKEA-Manual和IKEA Assembly in the Wild(IAW)两个数据集的基础上建立的。这些真实视频带来了更丰富的挑战,如部件被遮挡、相似部件识别、摄像机移动和不同光照条件等。为了应对这些挑战,研究团队建立了一套可靠的标注系统,确保标注质量和一致性。
基于IKEA Video Manuals数据集,团队设计了多个核心任务来评估当前AI系统在理解和执行家具组装以及空间推理方面的能力。这些任务包括基于3D模型的分割与姿态估计、视频目标分割和基于视频的形状组装。
实验结果显示,当前AI模型在视频理解能力和空间推理方面存在局限。例如,在遮挡问题、特征缺失和特殊拍摄角度等方面,模型的表现不佳。
本项目的第一作者是斯坦福大学计算机科学硕士生刘雨浓,目前在斯坦福SVL实验室学习,由吴佳俊教授指导。吴佳俊教授是斯坦福大学助理教授,同时也是清华姚班校友。此外,Salesforce AI Research研究主任Juan Carlos Niebles,西北大学计算机科学系助理教授李曼玲等人也参与了该项目。
项目主页:https://yunongliu1.github.io/ikea-video-manual/ 论文地址:https://arxiv.org/abs/2411.11409