医学AI大模型，从通用视觉到医疗影像

摘要：随着基础模型在自然语言处理及计算机视觉等领域的突破性进展，其在医学领域的应用潜力也逐渐受到广泛关注。2024年，医学基础模型的发展主旋律为从通用领域逐步细化到医疗各领域。这一过程不仅包括从通用技术向医疗领域的迁移，还进一步深入特定医疗模态及具体器官的分析中。在

随着基础模型在自然语言处理及计算机视觉等领域的突破性进展，其在医学领域的应用潜力也逐渐受到广泛关注。2024年，医学基础模型的发展主旋律为从通用领域逐步细化到医疗各领域。这一过程不仅包括从通用技术向医疗领域的迁移，还进一步深入特定医疗模态及具体器官的分析中。在此框架下，基础模型在疾病诊断、治疗规划等关键医疗任务中展现出了巨大的应用潜力。相比于传统的任务特定模型，基础模型通过自监督学习、多模态融合、适应性调整等策略，显著提升泛化能力的同时，有效减轻了对大量标注数据的依赖。许多研究针对医学领域的不同模态、特定器官与任务提出了一系列创新方法，显著提升了基础模型在专业医学场景中的适应性和专用性。

图1. 2024年医学基础模型的发展主旋律

2024年，上海人工智能实验室在MedicalImage Analysis杂志推出了全球首个医疗图像基础模型特刊Foundation Models forMedical Image Analysis。该特刊聚焦于医学图像分析基础模型的研究，为解决临床应用中的复杂多样的问题提供了有力支持，特别关注多模态数据和长尾场景等重要研究课题。值此年末，本文将详细梳理2024年医疗影像领域基础模型的关键进展，涵盖从方法论创新到临床应用转化的一系列前沿。

从通用基础模型到医疗基础模型的跨越

近年来，随着海量异构数据处理需求的日益增长，基于预训练的基础模型（foundation model）在自然语言处理与计算机视觉等领域备受关注。以Transformer架构为基础，Vision Transformer（ViT）、对比语言-图像预训练模型（CLIP）以及分割万物模型（SAM）等标志性工作相继涌现。这些模型均采用了大规模数据集进行预训练，从而能够捕捉自然图像中广泛存在的特征和模式。

今年在NEJM AI上发表的一篇文章指出，直接将通用基础模型应用于医疗专精任务往往难以取得理想的效果。鉴于此，医疗领域的研究者们开始探索将通用模型的架构和思路迁移到医疗任务中。这一过程中最突出的问题之一是医学标注数据的稀缺。虽然少量示例数据的训练在某些任务中是可行的，但医学影像标注成本高昂且耗时，使得全面迁移通用基础模型的能力仍面临阻碍。这一现实问题成为了在医疗领域训练大规模基础模型的主要瓶颈。针对这一问题，许多研究者提出了不同的解决方案。

在多模态医疗领域，NEJM AI上的一项研究提出了一种通用型生物医学人工智能系统Med-PaLM Multimodal。该系统可以灵活编码和解释包括临床语言、医学影像和基因组数据在内的多模态生物医学信息。它基于全新的多模态基准MultiMedBench 测试，在14项任务中均达到或超越当前先进模型水平，并在胸部X光报告生成任务中获得40.5%的临床医生偏好率。该研究展示了通用型生物医学AI系统在推动跨模态整合与临床应用方面的潜力。同样致力于推动多模态医疗基础模型研究，微软研究院在NatureMethods上发表了BiomedParse，这是一种面向生物医学图像分析的基础模型，能够在九种成像模式下同时完成分割、检测和识别任务。通过引入联合学习策略，BiomedParse不仅显著提升了单项任务的准确性，还实现了基于文本描述分割所有相关对象的新功能。发表于NatureMedicine的开源轻量级通用生物医学视觉-语言基础模型BiomedGPT，则在多种生物医学任务上展现先进性能。BiomedGPT在25项实验中有16项达到先进水平，并在人类评估中表现出色，总结能力接近人类专家。

在医学影像领域，也有很多工作研究如何针对特定医疗应用构建医疗基础模型，如视网膜影像基础模型、皮肤影像基础模型、病理影像基础模型、放射影像基础模型等。具体而言，发表在Nature的全片病理基础模型Prov-GigaPath，使用了来自 171,189张全片病理图像、涵盖31种主要组织类型的1.3亿张图像切片进行预训练。该模型实现了超长输入的上下文学习，并在26项数字病理学任务中显著超越现有方法。Prov-GigaPath展示了全片建模和真实世界数据在数字病理学中的关键作用，并提供了开源权重供研究者使用。

以图像分割任务为例，医疗影像分析往往要求模型能够同时捕捉全局依赖关系和局部细节特征，而传统的卷积神经网络虽然在局部特征提取方面表现出色，但在全局信息建模时存在局限。随着Transformer架构的引入，这一问题得到了有效解决。TransUNet结合了Transformer的全局建模能力与经典UNet的分层特性，在编码-解码结构中嵌入自注意力机制，成功实现了对全局特征和局部细节的高效捕捉。在图像分割任务中，TransUNet在多器官轮廓精准分割方面表现优异，尤其在CT等高分辨率医学影像中，显著提升了分割精度，为医学影像分析提供了强有力的支持。

今年3月，中国科学院深圳先进技术研究院提出的Swin-UMamba进一步推动了图像分割任务中的模型架构优化。与TransUNet不同，Swin-UMamba基于SwinTransformer的层次化特性，通过局部自注意力机制有效捕捉多尺度特征，同时充分利用了在ImageNet上预训练的优势，结合基础模型在自然图像上学到的知识，大幅提升了模型在医疗影像任务中的数据效率和性能，展现了出色的迁移能力。Swin-UMamba能够跨越多种模态（如MRI、内镜图像、显微镜图像等）实现精确分割。

尽管借鉴了通用基础模型的架构设计，从头训练一个医学基础模型仍然十分昂贵。因此，一些研究者专注于高效利用和调整现有基础模型，使其能够快速适应新的医学任务和环境。

参数高效微调（PEFT）正是这一领域的重要策略。PEFT不改变预训练模型的大部分参数，仅添加或调整少量参数进行模型微调，能够显著减少训练过程中的计算量和资源消耗，同时保持甚至提升模型在新任务上的表现。举例来说，PneumoLLM模型将文本分支替换为分类头以减少可学习参数量，显著降低了大语言模型在诊断应用中的迁移难度。它还设计了上下文多令牌引擎以自适应生成诊断令牌，以及用于实现图像到诊断令牌信息传递的信息发射器模块。

与此同时，今年的许多工作基于SAM（SegmentAnything Model）这一先进通用基础分割模型，通过添加适配器并在下游任务上微调，实现了对肿瘤、外科场景、3D医疗图像的精细分割。具体来说，香港中文大学的研究人员提出了一种将SAM从2D适应到3D医学图像分割的方法。该方法通过修改网络架构的方式处理3D数据，同时保持大部分预训练参数不变，仅添加少量空间适配器。在四类肿瘤分割任务中，该方法在肾脏、胰腺和结肠癌分割方面取得显著提升，在肝脏肿瘤分割方面达到相当高水平。而麻省总医院与哈佛医学院先进医学计算与分析中心的研究者则提出了与模态无关的MA-SAM框架，通过参数高效微调和3D适配器提取第三维信息，实现了SAM在容积和视频医疗数据上的适应。

此外，今年还有一些研究利用提示学习方法来促进通用基础模型向医疗场景的迁移。例如，电子科技大学深圳高等研究院的研究者提出的多模态提示学习方法，通过GPT-4识别疾病概念并优化图像块相关性，从而为预训练基础模型提供精确提示；而北京大学的研究人员则通过嵌入式提示调优（EPT）提高了医学图像分类任务中的微调效率和小样本学习能力。今年7月，上海人工智能研究院提出的PathoTune框架通过多模态提示调优，有效弥补了基础模型与病理任务之间的差距，显著提高了对病理任务的适应性。该框架同时利用视觉和文本提示，在多个数据集上表现优于单模态提示调优方法，并能使自然图像预训练的通用基础模型直接适应病理任务，超越了传统的病理基础模型。

模态专用基础模型：

精准聚焦模态特性

随着对医疗数据复杂性的深入理解，越来越多的研究开始聚焦于每种数据模态的特性。今年以来，许多新的医学影像数据集相继发布，涵盖了包括CT、MRI、X-光片和病理图像在内的多种医学图像模态。基于此，研究者们训练了专门用于特定模态的模态专用基础模型。

具体来说，对于X射线模态数据，德克萨斯大学的研究人员构建了一个包含35万余张胸部X光片、呈现典型长尾分布特征的公开基准数据集，每张图像都标注了26种临床发现中的一种或多种。研究团队系统总结了多标签医学图像分类中的成功经验，提出了应对长尾数据的优化策略。此外，他们利用视觉-语言基础模型完了成零样本和少样本疾病分类任务。

在医疗问答领域，德克萨斯大学的研究者构建了包含针对胸片的Medical-CXR-VQA详细临床问题数据集，该研究提出了基于空间关系图、语义关系图和隐式关系图的视觉问答方法，通过图注意力机制学习逻辑推理路径。实验结果表明，该方法在标签提取任务上的准确率提升了62%，在临床应用中展现出较强的证据支持能力和可靠性。

在医学影像方面，Aignostics公司发布了目前最大规模的腹部CT数据集AbdomenAtlas。该数据集涵盖了广泛的人群特征及多种设备类型，共收录了来自112家医疗机构的20,460例三维CT影像。研究团队由10名放射科医生组成，采用人工智能辅助标注方法，完成了67.3万个高质量解剖结构掩码的标注工作。他们首先对5,246例影像中的22种解剖结构进行人工标注，随后利用半自动化流程，由放射科医生优化模型预测的标注结果。此外，上海交通大学与上海人工智能实验室发布了3D医学图像定位基础模型MedLAM，其在统一解剖映射（UAM）和多尺度相似性（MSS）两个任务上训练而成，使用了超过1.4万张CT扫描。MedLAM能够大幅降低SAM模型对3D医学图像点位信息的人工标注需求。

更多专注于特定模态的医疗数据集的出现，推动了精准聚焦于模态特性的方法，极大促进了医疗基础模型的发展。一批新的研究工作不仅使模型能够学习常规的图像特征，还根据不同图像模态和应用场景设计了独特的结构和方法。例如，针对超声图像在低质量情况下噪声较多的问题，复旦大学的研究者们提出了面向超声图像的通用基础模型USFM。该模型基于超过200万张多器官超声图像进行训练，采用空间-频率双重掩码建模方法处理低质量图像，在分割、分类和图像增强等多个任务中表现出色。上海人工智能研究院的研究者们则针对超声图像信噪比高的特点，提出了去模糊掩码图像建模方法。该模型在预训练阶段融入去模糊任务，并结合了多尺度层次编码器架构，在28万张超声图像实验中取得了显著成果，为超声图像分析提供了专门的解决方案。

在病理切片分析方面，上海交通大学清源研究院的研究人员提出了PathoDuet框架，针对病理切片图像的特点，设计了跨尺度定位和跨染色迁移两个预训练任务，有效利用了图像放大倍数和染色方式之间的关联性。PathoDuet在结直肠癌分型和免疫组化标记物表达预测等任务中优于现有方法。此外，通用病理基础模型UNI[39]在超过100万张诊断切片上进行了大规模无监督学习，并在34个任务中展现了卓越的性能。该模型支持分辨率无关分类、少样本学习等，并具备对108种癌症类型的泛化分类能力。

今年9月，哈佛、斯坦福大学等多个研究机构在Nature发表CHIEF模型，采用无监督和弱监督相结合的双预训练策略，分别用于提取局部和全局的图像特征。在 19,491张图像上的测试表明，CHIEF 在癌细胞检测、肿瘤来源识别、分子特征表征和预后预测等任务中，显著优于现有的深度学习方法。在NatureMedicine上发表的计算病理学基础模型Virchow，在跨癌症检测和少量训练数据下展现出显著的性能优势。Virchow能够在多个癌症类型中实现高精度检测，并且在一些罕见癌症的检测任务中超越了传统的用于特定组织检测的临床级模型。即将发表于Nature的多模态Transformer模型MUSK利用大规模未标注的图像-文本数据进行联合学习，在5000万张病理图像和10亿个病理相关文本标记上进行预训练。该模型在23个病理图像的基准测试中表现优异，涵盖跨模态检索、视觉问答和图像分类等任务。特别地，MUSK在癌症预后预测方面展现出强大潜力，包括黑色素瘤复发、全癌种预后及肺癌和胃食管癌的免疫治疗反应预测。

在医学报告领域，阿德莱德大学的研究者提出了掩码医学图像建模（MedIM）框架，利用放射学报告引导掩码生成过程，并设计了基于知识驱动和句子驱动的双重掩码策略，有效引导模型关注临床意义较大的图像区域。大规模实验表明，相比传统的掩码图像建模（MIM）预训练方法，MedIM在下游任务中展现了显著优势。中国科学院深圳先进技术研究院的研究者则设计了一种迭代式视觉-语言框架，通过临床词典和由模型优化的度量方式，提取放射学报告的关键信息。该框架首先对报告生成粗略的理解，然后在此基础上不断提取关键信息并生成更细粒度的理解。在众多医学图像分析任务中，该方法在微调和零样本场景下均优于七种现有最优方法。香港中文大学的研究人员提出利用多模态大语言模型将前列腺影像临床指南（PICG）融入PI-RADS评分模型，而无需额外标注和网络参数。方法包括两阶段微调：第一阶段通过领域适配层处理3D MRI图像，第二阶段将PICG转化为引导指令，生成基于PICG的图像特征，并与评分网络对齐，该方法显著提高了评分网络的性能。

在医学图像方面，香港城市大学的研究者提出了统一的、具有高度适应性的UniversalModel 模型，能够灵活应用于多个数据集，同时能够识别新的器官和肿瘤类别。该模型引入了基于语言的参数生成器，提升了语义编码能力，并设计了轻量级的类别特定输出层。模型使用来自14个数据集的共3,410个CT样本进行训练，并在MedicalSegmentation Decathlon排行榜上的6个CT任务中拔得头筹。在 Nature发表的FastGlioma 模型是一种用于胶质瘤术中检测的视觉基础模型，通过快速分析新鲜手术组织实现肿瘤浸润的精准评估，在220名患者测试中达到92.1±0.9%的 AUC。该模型显著优于传统引导方法，并在不同患者群体和脑肿瘤类型中表现出一致性和零样本泛化能力。多伦多VecturInstitute 的研究员在一篇NatureCommunications文章中提出了 MedSAM医学图像分割基础模型，能够在广泛的任务范围内对多种模态的医学图像进行高性能分割。MedSAM在SAM模型的基础上，使用超过150万的图片和分割掩码进行训练，包含了10种图像模态以及30种癌症类别。

在NEJM AI发表的一篇文章提出了一种面向临床级病理诊断的基于人工智能的异常检测（AD）方法，解决了稀有疾病因缺乏训练数据而难以检测的问题。利用1700万张胃肠道活检图像，AD模型在胃癌和结肠癌检测中分别达到了最高97.7%和96.9%的AUROC，能够在无需特定训练的情况下识别罕见病理。该模型具备零样本检测能力，可提高诊断安全性、病例优先级管理和自动化水平。香港科技大学的研究者提出的视觉症状引导提示学习框架ViP，则通过CLIP实现大规模视觉语言模型（VLMs）中的知识迁移。ViP从预训练的大型语言模型中提取可解释的视觉症状，并利用双提示网络基于这些视觉症状指导两个可学习的提示模块的训练，进而将框架有效地适应于医学图像分析，在两个挑战性数据集上的表现超越了现有的最先进方法。

专用模型的应用突破：

更细分的应用场景

正如[1]所分析，2024年医疗基础模型的发展呈现出通用领域到医疗各细分领域深化的趋势。越来越多的研究工作向特定医疗领域进一步细化，开始针对具体的医疗任务设计专用模型。它们往往针对具体医学任务或医疗数据问题，利用独特的设计和优化策略有效提升医疗基础模型的专用性。

例如，针对脑部MRI图像的高分割精度需求，佛罗里达大学的研究人员提出的BrainSegFounder模型采用两阶段训练策略，首先从健康人群脑部MRI数据中学习解剖特征，随后针对特定疾病特征进行优化。这种方法显著降低了标注数据需求。评估结果显示，该模型在BraTS和ATLASv2.0数据集上的分割精度超越了传统监督学习方法。RudolfV模型则通过将染色方式和组织切片类别等病理学专家知识整合进自监督学习过程，解决了当前病理学人工智能模型在泛化能力、应用多样性和处理罕见疾病方面遇到的困难。

针对眼科图像和任务的多样性，香港中文大学的生物医学团队为8个特定的眼科图像模态设计编码器，并为不同任务设计解码器，整合超过50万名患者的340万张图像，训练了眼科疾病基础模型VisionFM。该模型在多个眼科疾病诊断任务上超过基线方法，准确率接近中级眼科医师。该模型还具备强大的数据泛化能力，能够扩展到新的图像模态和设备，甚至能从眼底图像预测青光眼进展和颅内肿瘤。

针对胸部X光影像计算机辅助诊断（CAD）任务中的诊断粒度细和数据标注少的问题，中国科学院深圳先进技术研究院的团队提出了MaCo，通过引入掩蔽对比学习，同时实现了胸部X光图像的细粒度理解和零样本学习。MaCo在6个公开的胸部X光数据集上验证了其效果，在分类、分割、检测等多个任务中超越了10种现有的最先进方法。

针对病理学诊断，哈佛大学的研究人员在Nature发表了PathChat，一个专为人类病理学设计的视觉-语言通用AI助手。PathChat结合了专门适应病理学的视觉编码器与预训练的大语言模型，在超过456,000个多样化的视觉-语言指令上进行微调，展现出卓越的性能。

针对心脏超声影像，最近在Nature Medicine上发表的EchoCLIP是一个创新的人工智能模型。它能够分析心脏超声图像并理解专家的诊断解读。该模型即使在没有针对具体任务进行专门训练的情况下，也展现出了优秀的表现。模型在评估心功能和识别心内植入设备上达到良好性能，同时其长上下文变体EchoCLIP-R在患者识别和跨模态检索等任务中展现了优异能力。这一研究推动了基础模型在心血管影像初步解读中的应用潜力。

针对多语言医学问答领域，上海交通大学的研究者在 NatureCommunications上发表了相关研究，构建了多语言医学语料库 MMedC。该语料库涵盖六种主要语言、约 255亿标记，并用于通用大语言模型的自回归训练和领域适配。同时，研究者开发了具有推理能力的多语言医学多选问答基准MMedBench，以评估多语言医学模型的性能。在此基础上，通过在 MMedC 上训练多个开源模型，研究者提出了多语言医学大模型MMed-Llama 3。该模型在MMedBench 和英语基准测试中表现出色，在推理能力和问答准确率方面均达到领先水平。

此外，还有许多研究关注医疗模型的公平性问题。针对医疗数据的复杂性、多样性以及潜在的社会文化背景差异，Med-UniC框架通过整合英语和西班牙语医学数据，将不同语言的医学文本映射到共同的语义空间，减少语言差异引起的偏差，提供了统一跨语言表示的有效解决方案。这种方法确保了模型的公平性，在文本层面推动了医学语言的客观性和一致性。NEJM AI的一篇评论探讨了大语言模型（LLMs）在医学研究、教育和临床中的应用潜力，并提出了基于四项生物伦理原则的框架以促进其负责任使用。该框架强调患者、临床医生和 LLMs治理系统的共同责任，并提出了减轻相关风险的潜在方法，确保 LLMs在医学领域应用时的伦理、公平和高效。

结语：医疗基础模型的未来展望

回顾2024年，医疗基础模型的进展不仅仅是技术上的突破，更是方法论上的创新。从Transformer架构的引入，到Swin-UMamba模型的跨模态应用，再到针对特定任务的医疗专用模型的构建，医疗基础模型正朝着专用化和精准化的方向发展。眼底、病理、X光等领域的专用模型，正推动医疗AI走向临床应用。随着技术的不断发展与应用场景的深化，我们相信医疗基础模型将在疾病早期筛查、个性化治疗以及智能医疗服务中发挥越来越重要的作用。

2024年也是医疗基础模型向临床实践和具体应用迅猛发展的一年。随着技术的不断进步，越来越多的研究开始聚焦于模型的临床适应性与可解释性，探索如何在实际医疗场景中实现有效落地。例如，商汤科技研发的“大医”医疗健康大语言模型，基于其千亿参数规模的“商量”大语言模型，利用超过300亿token的高质量医学数据进行训练。该模型覆盖了20多个细分医疗场景，具备检索增强、长程记忆存取和智能工具调用等多种功能，展现出行业领先的医疗问答能力。

展望2025年，我们聚焦于医疗基础模型在测试阶段能力的提升，预测了规模化、综合化、精准化三个可能发展方向。具体而言，“规模化”指利用以OpenAI提出的GPT-o1为代表的测试阶段技术，实现测试阶段规模效应（test-timescaling），不断提升医疗基础模型在应用阶段的推理能力。“综合化”指利用智能体系统（agent system），弥补单一医疗基础模型的思考欠缺和视角单一性，助推多个医疗基础模型的团队协作效应。“精准化”指利用基于检索的基础模型生成（retrieval-augmentedgeneration），减少医疗基础模型的错误判断，从而有效缓解幻觉问题，提升模型的准确性和可靠性。

本文提到的多数工作的论文和官方代码等信息已经收录于上海人工智能实验室牵头研发的医疗基础模型开源平台OpenMEDLab。OpenMEDLab致力于提供一个集合多模态医学基础模型的创新解决方案。未来，随着平台的不断发展，我们期待看到这些技术更新在OpenMEDLab上实现和应用，进一步推动跨模态、跨领域的医学AI创新。通过在不同医学任务中的灵活应用，OpenMEDLab不仅为基础模型的适配和微调提供了支持，也为解决医学中的长尾问题、提升模型效率和减少训练成本提供了创新途径。在OpenMEDLab的平台上，未来的医疗基础模型将在疾病早期筛查、个性化治疗、智能医疗服务等多个场景中实现更广泛的应用和落地，继续为医学AI的进步和发展提供动力。

来源：佑信医管

标签：模型医学通用

本文地址：https://news.43u.com.cn/a/526096.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!