GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

图灵汇官网

导读

机器之心发布的AIxiv专栏是一个汇集学术和技术内容的平台。过去几年间,该专栏接收并报道了逾两千篇内容,涵盖了全球顶尖高校与企业的实验室成果,极大地推动了学术界的交流与知识传播。如果您拥有卓越的研究成果,欢迎投稿或寻求报道。

突破性研究成果

  • 作者背景:Chuanyang Jin(金川杨)是文章的第一作者,他本科毕业于纽约大学,即将赴约翰霍普金斯大学(JHU)攻读博士学位。他在麻省理工学院(MIT)访问期间完成的研究,使他成为最年轻的杰出论文奖获得者之一。他的导师包括Tianmin Shu(舒天民)、Joshua B. Tenenbaum与Antonio Torralba,这三位教授均是MIT的知名学者,Google Scholar引用量均超过十万次。他们的研究专注于构建能在现实世界中理解和互动的社会智能系统,以实现以人为中心的人工智能发展。

  • 理论基础:心智能力(Theory of Mind,简称ToM)是开发类人社会智能AI模型的关键基石。ToM指的是理解他人思维的能力,对于构建具备高度社会交互性的AI至关重要。

多模态ToM基准:MMToM-QA

  • 开创性成就:近期,来自约翰霍普金斯大学、纽约大学、麻省理工学院、哈佛大学等机构的研究团队,共同开创了首个多模态的ToM测试基准——MMToM-QA。这一基准在学术界引起了广泛关注,尤其是在最近的ACL 2024会议上,该论文荣获杰出论文奖。

  • 基准特色:MMToM-QA的独特之处在于它是一个多模态的ToM测试框架,每一项问题都包含一段活动视频、相关文字描述以及一个ToM问题。这种设计不仅要求模型在更复杂的上下文和环境中系统性地评估其心智能力,而且考察了个体的信念与目标。

大模型挑战与解决方案

  • 多模态模型与LLM的局限:MMToM-QA的实验结果显示,尽管人类在多模态信息支持下的理解能力显著增强,但现有的多模态模型和语言模型(LLM)在处理此类问题时表现不佳,几乎等同于随机猜测。

  • GPT-4V的局限性:作为对比,GPT-4V在一致性情况下表现出色,但在处理错误信念、信念更新以及目标判断时,会系统性地犯错,揭示了其在多模态ToM任务中的不足。

  • BIP-ALM的创新方案:为解决上述问题,研究团队提出了一种名为BIP-ALM(Bayesian Inverse Planning Accelerated by Language Models)的新方法。BIP-ALM采用符号表示整合视频与文字信息,利用逆向规划与语言模型加速心理状态概率的推断,有效提升了在多模态ToM任务上的表现。

未来展望

  • MuMA-ToM研究:研究团队进一步探索了多智能体的多模态心智模型,提出MuMA-ToM项目,旨在深化对多智能体互动中信念、社会目标以及对他人目标信念的理解。面对大型多模态模型如GPT-4o、Gemini-1.5 Pro等在多智能体ToM任务上的表现欠佳,研究团队又引入了基于自然语言的改进方法LIMP(Language model-based Inverse Multi-agent Planning),以增强通用性与灵活性。

此研究系列展示了人工智能领域在理解和模拟人类心智能力方面的最新进展,以及如何通过创新方法克服现有模型在复杂情境下的局限性。

本文来源: 互联网 文章作者: GRCC
    下一篇

导读:撰文 / 钱亚光 编辑 / 黄大路 设计 / 师 超 来源 / Automotive News by John Irwin, www.photonics.com, business.observ