在三维空间中实现感知与决策,机器人和具身AI展现出超越二维图像处理的独特能力,这一优势也是当前人工智能模型普遍存在的显著短板。伊利诺伊大学厄巴纳-香槟分校的研究团队,通过对这一现象的深入洞察,揭示了空间感知在三维多模态推理中的关键作用,并提出了一种强化空间智能的新策略。
该团队聚焦于三维场景中的智能感知,指出相较于传统的机器学习模型,人类在处理复杂三维空间任务时,能够自然地从自身角度出发,形成直观的理解与判断,这种能力被称为“情景感知”。通过结合大视觉语言模型,研究者们开发了新的方法,旨在提升人工智能在三维空间推理与决策上的表现。
论文发表在2024年IEEE国际计算机视觉与模式识别会议上,揭示了现有AI模型在情景感知方面的局限性。研究显示,现有模型在情景估计任务中的表现仅优于随机猜测,且无论是否有情景输入,对情境相关的问答效果并无显著差异,这与人类的直觉形成鲜明对比。此外,团队发现了SQA3D数据集的重要性,该数据集虽较少被用于研究情境感知,但在探索三维视觉语言推理中展现出独特价值。
研究团队通过分析现有模型的不足,发现直接端到端估计方法限制了模型利用情景信息的能力,而回归估计则难以在大型三维空间中精准定位。为此,他们设计了SIG3D模型,旨在优化上述问题,显著提升三维搜索空间的效率与准确度。通过广泛的数据集验证和可视化结果,证实了优化模块的有效性。
评审专家高度评价了该研究,认可其明确的研究动机、创新的方法以及在问答与情景估计任务上的卓越性能,特别是显著提高了情境估计任务的准确性。研究成果对游戏、居家机器人、自动驾驶及混合现实产品等领域具有潜在应用价值,有望推动AI系统在空间理解、避障、导航、交流等方面的能力提升。
研究者满运泽表示,这项工作为其转向视觉语言多模态研究方向奠定了基础。他期待进一步探索情景感知在更大规模模型中的应用潜力,并计划扩展研究范围,包括从室内到室外的场景转换,以及深入研究视觉模型在3D多模态推理中的泛化能力。这些后续研究已在其个人预印本平台上公布。
通过此次研究,团队不仅揭示了情景感知在三维视觉语言推理中的重要性,还展示了其在提升AI系统空间智能方面的实际应用潜力。这一成果不仅对当前人工智能领域的理论发展具有重要意义,也为未来AI在复杂环境下的交互与决策提供了新的视角和工具。