GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集_图灵汇

投稿
APP
微信扫一扫获取更多

GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集

GRCC

2024-09-12 19:47:49

图灵汇官网

导读

机器之心发布的AIxiv专栏是一个汇集学术和技术内容的平台。过去几年间，该专栏接收并报道了逾两千篇内容，涵盖了全球顶尖高校与企业的实验室成果，极大地推动了学术界的交流与知识传播。如果您拥有卓越的研究成果，欢迎投稿或寻求报道。

突破性研究成果

作者背景：Chuanyang Jin（金川杨）是文章的第一作者，他本科毕业于纽约大学，即将赴约翰霍普金斯大学（JHU）攻读博士学位。他在麻省理工学院（MIT）访问期间完成的研究，使他成为最年轻的杰出论文奖获得者之一。他的导师包括Tianmin Shu（舒天民）、Joshua B. Tenenbaum与Antonio Torralba，这三位教授均是MIT的知名学者，Google Scholar引用量均超过十万次。他们的研究专注于构建能在现实世界中理解和互动的社会智能系统，以实现以人为中心的人工智能发展。
理论基础：心智能力（Theory of Mind，简称ToM）是开发类人社会智能AI模型的关键基石。ToM指的是理解他人思维的能力，对于构建具备高度社会交互性的AI至关重要。

多模态ToM基准：MMToM-QA

开创性成就：近期，来自约翰霍普金斯大学、纽约大学、麻省理工学院、哈佛大学等机构的研究团队，共同开创了首个多模态的ToM测试基准——MMToM-QA。这一基准在学术界引起了广泛关注，尤其是在最近的ACL 2024会议上，该论文荣获杰出论文奖。
基准特色：MMToM-QA的独特之处在于它是一个多模态的ToM测试框架，每一项问题都包含一段活动视频、相关文字描述以及一个ToM问题。这种设计不仅要求模型在更复杂的上下文和环境中系统性地评估其心智能力，而且考察了个体的信念与目标。

大模型挑战与解决方案

多模态模型与LLM的局限：MMToM-QA的实验结果显示，尽管人类在多模态信息支持下的理解能力显著增强，但现有的多模态模型和语言模型（LLM）在处理此类问题时表现不佳，几乎等同于随机猜测。
GPT-4V的局限性：作为对比，GPT-4V在一致性情况下表现出色，但在处理错误信念、信念更新以及目标判断时，会系统性地犯错，揭示了其在多模态ToM任务中的不足。
BIP-ALM的创新方案：为解决上述问题，研究团队提出了一种名为BIP-ALM（Bayesian Inverse Planning Accelerated by Language Models）的新方法。BIP-ALM采用符号表示整合视频与文字信息，利用逆向规划与语言模型加速心理状态概率的推断，有效提升了在多模态ToM任务上的表现。

未来展望

MuMA-ToM研究：研究团队进一步探索了多智能体的多模态心智模型，提出MuMA-ToM项目，旨在深化对多智能体互动中信念、社会目标以及对他人目标信念的理解。面对大型多模态模型如GPT-4o、Gemini-1.5 Pro等在多智能体ToM任务上的表现欠佳，研究团队又引入了基于自然语言的改进方法LIMP（Language model-based Inverse Multi-agent Planning），以增强通用性与灵活性。

此研究系列展示了人工智能领域在理解和模拟人类心智能力方面的最新进展，以及如何通过创新方法克服现有模型在复杂情境下的局限性。

模态缺陷致命暴露测试发布 ToM JHU GPT

本文来源：互联网文章作者： GRCC

: 让企业摸着“京东”过河，解密京东云言犀AI，最接地气的数智供应链答案
图灵汇

: 海尔智家邓邱伟：一个“智家大脑”如何颠覆智能家居体验？
图灵汇

: 突发机器人龙头曝大幅裁员，CEO公开发话行业凛冬将至！
图灵汇

: 阿里达摩院田彪：如何用“模组化”解决AI语音场景“碎片化”痛点？
图灵汇

: 暌违四年，优傲新品重新“定义”协作机器人
图灵汇

: 谷歌 AI 搜索功能被指冲击新闻出版商流量：未经许可提取内容 + 低链接率
图灵汇

: 谷歌发布安卓 16 QPR1 Beta 2 更新：Pixel 8/9 系列手机支持桌面模式、为平板引入窗口化功能
图灵汇

: 谷歌安卓 16 窗口化新规：功能仅限平板，折叠手机体验需外接屏幕
图灵汇

: 苹果更新 iOS 26 / iPadOS 26 / macOS Tahoe 26 设计资源，助力开发者快速适配“液态玻璃”视觉风格
图灵汇

: 苹果更新 iOS 26 / iPadOS 26 / macOS Tahoe 26 设计资源，助力开发者快速适配“液态玻璃”视觉风格
图灵汇

下一篇

AI热成像助力AEB性能提升

金志伟

2024-09-18

155

导读：撰文 / 钱亚光编辑 / 黄大路设计 / 师超来源 / Automotive News by John Irwin, www.photonics.com, business.observ