结合医学图像和文本的 AI 模型能准确预测癌症结果

摘要：将视觉信息（例如显微镜和 X 射线图像、CT 和 MRI 扫描）与文本（检查记录、不同专业的医生之间的交流）融合是癌症治疗的关键组成部分。尽管人工智能可以帮助医生查看图像并发现与疾病相关的异常情况（例如形状异常的细胞），但开发能够整合多种类型数据的计算机模型却

斯坦福大学的研究人员创建了 MUSK，这是一种结合医学图像和文本的 AI 模型，可以改善癌症预后和治疗预测，在多种癌症类型的准确率上优于传统方法。

将视觉信息（例如显微镜和 X 射线图像、CT 和 MRI 扫描）与文本（检查记录、不同专业的医生之间的交流）融合是癌症治疗的关键组成部分。尽管人工智能可以帮助医生查看图像并发现与疾病相关的异常情况（例如形状异常的细胞），但开发能够整合多种类型数据的计算机模型却一直很困难。

斯坦福医学院的研究人员现已开发出一种能够整合视觉和语言信息的人工智能模型。在对 5000 万张标准病理切片医学图像和超过 10 亿篇病理相关文本进行训练后，该模型在预测数千名不同类型癌症患者的预后、确定哪些肺癌或胃食管癌患者可能从免疫疗法中受益以及确定最有可能复发的黑色素瘤患者方面均优于标准方法。

研究人员将该模型命名为 MUSK，即具有统一掩模建模的多模态变换器。MUSK 与目前人工智能在临床护理环境中的使用方式有显著不同，研究人员认为它将彻底改变人工智能指导患者护理的方式。

“MUSK 可以准确预测多种癌症类型和阶段患者的预后，”放射肿瘤学副教授 Ruijiang Li 医学博士表示：“我们设计 MUSK 的原因是，在临床实践中，医生从不依赖单一类型的数据来做出临床决策。我们希望利用多种类型的数据来获得更多见解，并更准确地预测患者的结果。”

Li 教授是斯坦福癌症研究所的成员，也是这项研究的资深作者，该研究于 1 月 8 日发表在《自然》杂志上。博士后学者 Jinxi Xiang 博士和 Xiyue Wang 博士是这项研究的主要作者。

尽管人工智能工具在临床上的应用越来越多，但它们主要用于诊断（这个显微镜图像或扫描是否显示癌症迹象？），而不是用于预后（这个人可能的临床结果是什么，哪种疗法对个人最有效？）。

挑战的一部分是需要对大量标记数据（例如，这是带有癌性肿瘤的肺组织切片的显微镜载玻片）和配对数据（这是获得肿瘤的患者的临床记录）进行模型训练。但精心策划和注释的数据集很难获得。

在人工智能术语中，MUSK 就是所谓的基础模型。预先在大量数据上训练的基础模型可以通过额外的训练进行定制，以执行特定任务。由于研究人员设计 MUSK 时使用不满足传统人工智能训练要求的未配对多模态数据，因此计算机在初始训练期间可用于“学习”的数据库将扩大几个数量级。有了这个先机，任何后续训练都可以使用更小、更专业的数据集来完成。实际上，MUSK 是一种现成的工具，医生可以对其进行微调，以帮助回答特定的临床问题。

“最大的未满足临床需求是医生可以用来指导患者治疗的模型，”Li 教授说：“这个病人需要这种药物吗？或者我们应该专注于另一种治疗方法？目前，医生使用疾病分期和特定基因或蛋白质等信息来做出这些决定，但这并不总是准确的。”

研究人员从国家数据库《癌症基因组图谱》中收集了 16 种主要癌症（包括乳腺癌、肺癌、结直肠癌、胰腺癌、肾癌、膀胱癌、头颈癌）患者的组织切片显微镜载玻片、相关病理报告和随访数据（包括患者病情进展）。他们利用这些信息训练 MUSK 预测疾病特异性生存率，即在特定时间段内未死于特定疾病的人数百分比。

对于所有类型的癌症，MUSK 预测患者疾病特异性生存率的准确率为 75%。相比之下，基于患者癌症分期和其他临床风险因素的标准预测正确率为 64%。

另一个例子是，研究人员训练 MUSK 使用数千位信息来预测哪些患有肺癌或胃癌和食道癌的患者最有可能从免疫疗法中受益。

“目前，是否为患者提供特定类型的免疫疗法的主要决定因素是该患者的肿瘤是否表达一种名为 PD-L1 的蛋白质，”Li 教授说：“这是一种仅由一种蛋白质组成的生物标记。相比之下，如果我们可以使用人工智能来评估数百或数千位多种类型的数据，包括组织成像，以及从临床记录中收集的患者人口统计数据、病史、既往治疗和实验室测试，我们就可以更准确地确定谁可能受益。”

对于非小细胞肺癌，MUSK 约有 77% 的时间正确识别出受益于免疫疗法治疗的患者。相比之下，基于 PD-L1 表达预测免疫疗法反应的标准方法正确率仅为约 61%。

当研究人员训练 MUSK 识别哪些黑色素瘤患者在初次治疗后五年内最有可能复发时，也得到了类似的结果。在这种情况下，该模型的正确率约为 83%，比其他基础模型生成的预测准确率高出约 12%。

“MUSK 的独特之处在于它能够将未配对的多模态数据纳入预训练，与其他模型所需的配对数据相比，这大大增加了数据规模，”Li 教授说：“我们观察到，对于所有临床预测任务，整合多种类型数据的模型始终优于仅基于图像或文本数据的模型。将这些类型的未配对多模态数据与 MUSK 等人工智能模型结合起来，将是人工智能帮助医生改善患者护理能力的重大进步。”

哈佛医学院的研究人员为这项工作做出了贡献。

该研究由美国国立卫生研究院（拨款编号 R01CA222512、R01CA233578、R01CA269599、R01CA285456、R01CA290715 和 R01DE030894）和斯坦福以人为本人工智能研究所资助。

参考文献：“精准肿瘤学的视觉语言基础模型”作者：Jinxi Shang、Xiyue Wang、Xiaoming Zhang、Yinghua Xi、Feyisope Eweje、Yi Jiang Chen、Yuchen Li、Colin Bergstrom、Matthew Gopaulchan、Ted Kim、Kun-Hsing Yu、Sierra Willens、Francesca Maria Olguin、Jeffrey J. Nirschl、Joel Neal、Maximilian Diehn、Sen Yang 和 Ruijian Li，1 月 8 日2025年，自然。DOI：10.1038/s41586-024-08378-w

来源：康嘉年華

标签：模型癌症图像

本文地址：https://news.43u.com.cn/a/438485.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!