AI一键解析九大生物医学成像模式,用户只需文字prompt交互

图灵汇官网

导读

BiomedParse团队投稿,介绍了一款由微软和华盛顿大学的研究人员开发的AI大模型,该模型可以一键解析包括MRI、CT和病理学在内的九大生物医学成像模式。

AI大模型一键解析九大生物医学成像模式

这款名为BiomedParse的AI大模型不仅可以高精度地识别复杂和不规则形状的生物医学对象,还能通过对象识别阈值建模来检测无效的提示请求,并在图像中不存在指定对象时拒绝分割。用户无需手动进行标注或边界框操作,只需通过简单的临床语言提示指定目标对象,例如“肿瘤边界”或“免疫细胞”,便能让AI准确识别、检测并分割图像中的相关区域。

多任务联合预训练

BiomedParse通过文本驱动图像解析,将九种医学成像模式整合到一个统一的模型中,联合预训练处理对象识别、检测与分割任务。无论是影像级别的器官扫描,还是细胞级别的显微镜图像,BiomedParse都能直接利用临床术语进行跨模式操作,为科学家和临床医生提供更统一、更智能的多模式图像解析方案。

高精度识别与分割

BiomedParse在分割不规则形状的生物医学对象方面表现出色,通过将图像区域与临床概念关联,相比手动框选分割精度提升了39.6%,提高了在关键任务中的可靠性。该模型已经开源并提供Apache 2.0许可,相关演示demo和Azure API均已上线。

数据集与性能评估

为了支持BiomedParse的预训练,研究团队利用GPT-4从45个公开的医学图像分割数据集生成了一个包含超过600万个图像、分割标注与文字描述三元组的数据集——BiomedParseData。该数据集涵盖了64种主要生物医学对象类型和82个细分类别,涉及九种成像模式。

在测试集上,BiomedParse在Dice系数上显著超越了当前最优方法MedSAM和SAM,并且无需对每个对象手动提供边界框提示。即使在给MedSAM和SAM提供精准边界框的情况下,BiomedParse的纯文本提示分割性能仍能超越5-15个百分点。此外,BiomedParse的性能还优于SEEM、SegVol、SAT、CellViT、Swin UNETR等多个模型,尤其在复杂不规则的对象识别上表现突出。

展望未来

展望未来,团队表示BiomedParse拥有广阔的发展潜力,可进一步扩展至更多成像模式和对象类型,并与LLaVA-Med等高级多模态框架集成,支持“对话式”图像分析,实现数据交互式探索。

团队成员简介

  • 赵正德(Theodore Zhao),论文一作,微软高级应用科学家,研究方向包括多模态医疗AI模型、图像分割与处理、大模型的安全性分析。

  • 顾禹(Aiden Gu),微软高级应用科学家,研究方向专注于医疗健康、生物医学及机器人多模态模型。

  • 潘海峰(Hoifung Poon),微软研究院健康未来(Health Futures)General Manager,华盛顿大学(西雅图)计算机博士,研究方向为生成式AI基础研究及精准医疗应用。

  • 王晟(Sheng Wang),华盛顿大学计算机科学与工程系助理教授,微软研究院访问学者,专注于人工智能与医学的交叉研究。

  • Mu Wei,微软Health and Life Sciences首席应用科学家,研究方向涵盖生物医学图像解析、数字病理学基础模型、临床文档结构化的大模型应用及大模型错误率估计。

感兴趣的读者可以自行查阅相关论文和项目网页。

论文和项目链接

本文来源: 互联网 文章作者:
    下一篇

导读:2024年,AI Agent的风吹的猛了些。在11月12日的「百度世界2024」上,百度创始人李彦宏重点指出“智能体是AI应用的最主流形态,即将迎来它的爆发点。”大洋彼岸,YC合伙人、资深投资人