在已见数据集上的性能优势:在多个乳腺、甲状腺、肝脏、前列腺等公开数据集上,DSC和IoU均优于UniverSeg、MedCLIP-SAM、BiomedParse、SAMUS等SOTA方法。例如,在BUSUC乳腺数据集上实现了91.68%的DSC和85.16%的IoU。在未见数据集上的强泛化能力:在BUSBRA(乳腺)、TNSCUI(甲状腺)和Luminous(背肌)三个未见过的数据集上,平均DSC达72.83%,IoU为68.53%,优于所有对比方法。尤其是在Luminous肌肉数据集上展示了良好的开集分割能力,而无需额外训练。无需手动 Prompt 即可实现高质量分割:相比于需要点 Prompt 的SAMUS等方法,本方法完全基于文本 Prompt 自动完成,减少了人为交互需求。高效推理速度:推理时间仅需0.33秒/图像,在Titan V GPU上运行,适合实时临床应用。文本编码器受限于预训练语义空间:Grounding DINO的文本编码器最初在自然图像和通用文本上训练,部分医学术语可能无法准确理解,影响对复杂病变的定位。摘要:在已见数据集上的性能优势:在多个乳腺、甲状腺、肝脏、前列腺等公开数据集上,DSC和IoU均优于UniverSeg、MedCLIP-SAM、BiomedParse、SAMUS等SOTA方法。例如,在BUSUC乳腺数据集上实现了91.68%的DSC和85.16%的
2. 依赖高质量文本 Prompt:
虽然模型对Prompt用词具有鲁棒性,但不清晰或模糊的描述仍可能导致分割失败。3. 缺乏大规模超声文本-图像对的支持:
当前微调数据量相对较小(15个数据集),更大规模的图文匹配数据有望进一步提升性能。4. 未针对特定器官做优化:
对某些结构复杂的器官(如肾脏皮质、髓质)分割精度仍有提升空间。由于解剖学变异、多样的成像协议以及有限的标注数据,超声成像中准确且泛化的目标分割仍然是一个重大挑战。在本研究中,作者提出了一种 Prompt 驱动的视觉语言模型(VLM),通过整合Grounding DINO与SAM2,实现跨多种超声器官的目标分割。总共使用了18个公共超声数据集,包括乳腺、甲状腺、肝脏、前列腺、肾脏和椎旁肌。这些数据集分为15个用于使用低秩适配(LoRA)对Grounding DINO进行超声领域的微调和验证,另外3个完全保留用于测试以评估在未见过分布中的性能。综合实验表明,作者的方法在大多数已见数据集上优于最先进的分割方法,包括UniverSeg、MedSAM、MedCLIP-SAM、BiomedParse和SAMUS,同时在未见过数据集上保持强劲性能,无需额外的微调。这些结果突出了VLM在可扩展和鲁棒的超声图像分析中的潜力,减少了对大型器官特定标注数据集的依赖。作者将在论文被接受后发布作者的代码到code.sonography.ai。
超声成像因其安全性、经济性、便携性和实时性,在临床实践中得到了广泛应用。它在癌症筛查、疾病分期和图像引导干预等方面发挥着重要作用,涵盖了乳房、甲状腺、肝脏、前列腺、肾脏和肌肉骨骼系统等多种解剖结构。尽管具有这些优势,超声成像仍然存在固有的挑战,这些挑战使得自动化分析变得复杂。诸如组织对比度低、斑点噪声、声学阴影和操作者依赖性变异等问题会降低图像质量,阻碍解剖结构的精确界定,最终影响自动化分割算法的性能和泛化能力。
为了克服这些局限性,深度学习(DL)方法已成为超声图像分析的标准。在完全监督的深度学习方法中,模型完全从 Token 数据中学习。卷积神经网络(CNN)等架构能够有效捕获局部特征[1],而基于视觉 Transformer (ViT)的模型通过自注意力机制捕获长距离依赖关系和全局上下文。此外,结合CNN和 Transformer 的混合设计在许多超声分割任务中提升了性能。例如,He等人引入了HCTNet[2],这是一种基于混合CNN- Transformer 的层,用于乳腺病变分割;Xu等人提出了MCV-UNet[3],该模型使用CNN-ViT主干进行多尺度神经分割。对于胎儿头估计,Jiang等人[4]提出了一种双学生-教师模型。在肌肉骨骼成像中,Chen等人[5]设计了一种针对手臂分割的混合 Transformer ,有效捕获了全局和局部的解剖特征。MicroSegNet[6]、LightBTSeg[7]和AAU-Net[8]等模型在乳腺和前列腺超声数据集上实现了最先进(SOTA)的性能。此外,UniverSeg[9]使用共享编码器和条件机制在多个医学成像模态上进行训练,支持跨任务泛化而不需要结构变化。然而,它需要16张分割样本图像的训练集来适应新任务。
尽管这些全监督模型为该领域带来了改进,但它们依赖于高质量的标注。为了减少标注需求,近年来人们探索了半监督学习(SSL)方法[10],包括用于肌肉超声的基于一致性的SSL[11]。深度谱学习[12]等无监督技术进一步降低了手动标注的要求。虽然基于SSL和无监督的模型减少了对外部标注超声数据的依赖,但像SHAN[13]这样的形状引导架构通过处理多中心甲状腺超声分割中的分布偏移,有效地利用了来自不同影像中心的大规模标注数据集。这些模型是器官特定的,需要广泛的重新训练或架构修改才能泛化到不同的器官,并且对于每个新的目标器官都需要额外的重新训练。
突出要点提出了一种新的分割方法,通过将微调后的Grounding DINO与SAM2配对,在不引入新的复杂架构的情况下分割超声图像。- 无需点击、输入框或特定器官的再训练,即可支持自由形式的自然语言 Prompt 。该方法在乳腺、肝脏和前列腺数据集上优于UniverSeg、MedSAM、MedCLIP-SAM、BiomedParse和SAMUS。展示了在具有不同相似度水平的未见数据集上的强泛化能力:乳腺(BUSBRA,相似)、甲状腺(TNSCUI,中等相似)和椎旁肌肉(LUMINOUS,不相似)领域。利用低秩适配(LoRA)进行参数高效的微调,实现模型的有效适配,同时计算开销最小。尽管上述提到了许多进展,例如减少标注需求或增强对不同解剖结构的鲁棒性,但这些方法通常只解决孤立挑战,未能满足更广泛的临床和技术要求。一种能够在各种任务、器官和成像条件下可靠执行的通用解决方案仍然难以实现。这激发了人们对更灵活和适应性更强的范式日益增长的兴趣,例如使用视觉语言模型(VLMs)的 Prompt 驱动分割。VLMs具有以下优势:它们可以通过文本 Prompt 实现对新未见解剖结构的零样本泛化,允许在不同分割任务之间无缝适应而无需特定任务的再训练,并促进跨成像模态和临床用例的可扩展性。
基于 Prompt 的分割方法利用视觉语言模型(VLM)技术已成为一种有前景的替代方案,能够泛化到先前未见过的解剖结构,无需额外训练即可实现分割[14]。在此范式基础上,已提出多种模型以利用VLM集成的优势,实现更通用的医学图像分割。例如,Grounding DINO[15]是广泛使用的VLM方法之一,它通过输入 Prompt 引导进行开放集目标检测。通过结合图像特征与文本嵌入,它能够精确定位自由文本中描述的目标,成为语言引导视觉理解的领先方法之一。BiomedParse[16]展示了跨多种模态进行联合分割、检测和识别的可行性,进一步强化了基础模型(foundation models)的潜力。MedCLIP-SAM[17]和MedCLIPSAM2[18]等变体将CLIP风格的图像-文本预训练[19]与分割一切模型(SAM)[20]相结合,用于CT和MRI分割。然而,由于模态不匹配,它们在超声数据上的有效性仍然有限。
在超声领域,Ferreira等人[21]提出了一种基于 Prompt 的小结构分割方法,该方法利用迭代点 Prompt 和图像变换。UltraSAM[22]增强了SAM对超声纹理的敏感性,但缺乏视觉-语言交互,并且仍然是任务特定的。SAM-MedUS[23]通过多域训练展示了在超声任务上的强泛化能力;然而,它依赖于手动提供的 Prompt ,这限制了其在临床工作流程中的自动化和可扩展性。像ClickSAM[24]这样的交互式模型通过基于点击的输入减少标注工作,解决了手动 Prompt 的自动化限制,但它们仍然依赖于空间交互,这又引入了另一层约束。
SAMUS [25] 集成了改进的ViT编码器、并行CNN分支和跨分支注意力机制,以提高分割效率。尽管SAMUS为自动超声分割提供了一种有前景的方法,但最近的实验表明,它依赖于准确用户定义的点 Prompt [26],这限制了其对缺乏超声成像和人体解剖知识的新手用户的实用性。Gowda等人 [27] 利用ChatGPT为SAMUS生成上下文 Prompt ,增强了其捕捉细微超声特征的能力;然而,为了避免计算成本高昂的微调任务,它并未针对超声领域进行微调。
SAM需要用户提供空间 Prompt ,例如边界框,这限制了完全自动化。为了解决这个问题,APGSAM [26]最近通过检测网络引入了自动空间 Prompt ,消除了手动输入边界框的需求。尽管这是一个有前景的进步,但该方法缺乏通过文本提供的明确语义指导,并且仅限于乳腺超声图像,降低了其对其他解剖结构的泛化能力。采用不同方法,Chen等人 [28]开发了MOFO,这是一个由解剖先验引导的多器官超声分割模型。尽管这是一个重要的进步,但它仅支持固定的器官特定任务 Prompt 。换句话说, Prompt 被硬编码到一组封闭的器官列表中,并且不灵活 [28]。此外,这项工作依赖于同时从多个器官学习,要求训练集中包含各种器官的数据以实现有效的分割。它也不提供推理时间,可能会限制实时临床部署。
为解决基于SAM的分割中手动 Prompt 的局限性,作者引入Grounding DINO [15]作为先验模型,自动生成用于基于SAM的超声图像分割所需的边界框。Grounding DINO通过整合图像和文本特征之间的跨模态注意力,从输入 Prompt 中生成边界框,无需预定义类别或用户交互。这一功能使得SAM能够基于High-Level语义线索(如器官名称)对超声图像中的解剖结构进行自动空间 Prompt 。与仅依赖视觉检测网络且仅限于特定解剖结构(例如乳房)的先前方法(如APG-SAM)不同,作者的方法结合了基于文本定位的语义灵活性以及视觉语言模型(VLMs)的泛化能力,从而实现了一个更可扩展和完全自动化的分割流程,覆盖了不同的超声成像领域。为此,作者提出的方法集成了一个经过微调的低秩适配(LoRA)Grounding DINO检测器与冻结的SAM2解码器。值得注意的是,在训练过程中,只有1.7%的Grounding DINO参数被更新,而SAM2的权重完全保持冻结。
因此,作者提出的基于LoRA的定位策略克服了APG-SAM [26]的纯几何指导以及Chen等人 [28]的刚性器官特定 Prompt 设计,为不同临床应用中的超声分割提供了一种可扩展、无需标注的解决方案。
所提出方法的贡献可以总结如下:
接受自由形式的自然语言 Prompt (例如“肿瘤”、“恶性病变”),无需点击、框选或进行器官特定的再训练在涵盖6个器官系统的18个公共超声数据集上实现了SOTA DSC分数适用于未见过的解剖结构和采集协议实时运行(在2017年发布的可负担的Titan V GPU上,对800×800图像的处理时间为0.33秒),便于临床部署。本研究使用了18个涵盖不同器官(包括乳房、甲状腺、肝脏、前列腺、肾脏和肌肉)的公共超声数据集,具体如表I所示。这些数据集提供了多样的解剖结构、采集协议和成像条件,增强了所提出方法的鲁棒性和泛化能力。
在训练和验证过程中,使用了15个数据集(称为已见数据集),其中包括12924张图像用于训练和3881张用于验证。关键数据集包括BrEaST(乳腺)[29]、BUID(乳腺)[30]–[32]、BUSUC(乳腺)[33]、BUSUCML(乳腺)[34]、BUSB(乳腺)[35]、BUSI(乳腺)[36]、STU(乳腺)[37]、S1(甲状腺)[38]、TN3K(甲状腺)[39]、TG3K(肝脏)[40]、105US(肝脏)[41]、AUL(前列腺)[42]、MicroSeg(前列腺)[43]、RegPro(乳腺)[44]和kidneyUS(肾脏)[45]。
为了评估跨领域的泛化能力,使用了三个额外的数据集,BUSBRA(乳腺癌)[46]、TNSCUI(甲状腺)[47]和Luminous(背肌)[48],这些数据集专门用于测试。这些数据集(在表I中以灰色突出显示)包含2,808张图像,被视为分布外数据集(即,在训练或验证过程中从未见过),从而能够在未见过的领域中评估性能。
对于所有数据集,真实分割 Mask 被转换为紧密的边界框,通过提取标注区域周围的包围最小矩形来实现。每张图像都与一个在训练过程中推导出的文本 Prompt (例如“良性”或“恶性”)配对。所有图像都被调整大小为800×800像素,其对应的边界框也相应地进行了缩放。未使用的数据集专门用于推理。
表 I: 本研究中使用的公共超声数据集及其在训练集、验证集和测试集中的分布。三个仅用于测试(在训练或验证期间未见过)的数据集以灰色高亮显示。唯一的例外是UniverSeg Baseline ,它需要一个16图像的支持集。因此,为这种方法提供了每个未见过数据集的16张手动分割图像。
如图1所示,所提出的框架基于Grounding DINO,这是一个基于transformer的视觉语言模型(VLM),用于执行图像-文本联合定位。它由一个冻结的图像主干、一个冻结的基于BERT的文本编码器以及一个基于transformer的编码器-解码器结构[15]组成。为了有效地将此模型应用于超声(US)数据,同时保留预训练知识,作者将低秩适配(LoRA)[49]引入到选定的模块中:
编码器(特征增强器):LoRA Adapter 被插入到特征增强器中的前馈和交叉注意力层中,从而实现对图像和文本特征的特定任务适应。
解码器(跨模态):LoRA模块被注入到所有解码器层中,特别针对采样偏移、注意力权重、投影层和跨模态注意力进行优化,增强与文本 Prompt 对齐的空间定位能力。
图1:基于LoRA的微调策略概述,该策略集成于Grounding DINO框架中,用于超声图像-文本定位。该架构包括冻结的 Backbone 网络、特征增强器和跨模态解码器层中的LoRA注入 Adapter ,以及SAM2分割头。
文本编码器: 基于BERT的文本编码器保持冻结状态,而LoRA模块被选择性地应用于自注意力输出投影和前馈层,为医疗领域文本适应引入可控的灵活性。
其他组件: 用于连接视觉和文本特征的特性图层通过LoRA进行适配,而边界框回归头则完全可训练且不使用LoRA,从而在不破坏预训练表示的情况下实现有效的定位。
通过对比损失和定位损失对齐的边界框预测,指导下游SAM2模型从超声输入中生成细粒度分割 Mask 。这种设置仅占Grounding DINO总可训练参数的,能够实现高效的微调,同时降低GPU内存使用并减少过拟合风险,这在低数据超声成像场景中尤为重要。
所提出的模型使用一个复合损失函数进行训练,该损失函数结合了以下三个组成部分。该损失函数用于指导边界框回归和开集分类:
Ltotal=λL1∗LL1+λGIoU∗LGIoU+λfocal∗Lfocal
1. LL1 :边界框回归(定位)
该术语衡量预测边界框坐标与真实边界框坐标之间的绝对差异。它促使模型生成精确的边界框尺寸。
2. LGIoU :空间重叠(定位)
GIoU损失[50]将IoU(IoU)指标扩展为惩罚与真实框距离较远的预测,即使它们没有重疊。这提高了目标定位中的收敛性和空间精度。
3. Lfocal :对比分类(文本引导预测)
受GLIP [51]的启发,作者使用Focal Loss [52]通过视觉 Query 和语言 Token 之间的对比学习来监督分类。具体来说,模型计算每个解码器 Query 与输入 Prompt 中所有 Token Embedding 的点积,生成一组logits。然后对这组logits应用focal loss,以优先处理更难的样本并缓解类别不平衡问题。这实现了开集分割,通过将图像区域与自由形式的文本描述进行对齐。
这种损失公式使模型能够以高精度定位和分类由文本 Prompt 描述的目标,同时保持对未见过的解剖结构或措辞的泛化能力。
分割性能使用两个基于重叠的标准度量进行评估: 10 U ( 10 U )
以及Dice Score Coefficient(DSC)。这些指标是通过将SAM2生成的分割 Mask 与真实标注进行比较来计算的。IoU衡量预测 Mask P 与真实 Mask G 之间的重叠程度:
IoU=|P∩G|/|P∪G|
其中 |P∩G| 表示预测 Mask 和真实 Mask 共有的像素数量,而 |P∪G| 表示两个 Mask中的总像素数。IoU(IoU)对区域重叠提供了严格的评估,并且对假阳性与假阴性惩罚相同 [53]。
DSC,也称为分割任务中的F1分数,衡量了精确率和召回率的调和平均值:
DSC=2|P∩G||P|+|G|
该指标强调 P 与 G 之间的像素级一致性,尤其对小目标分割敏感[54]。IoU与DSC共同为分割性能提供互补的洞察,平衡了区域重䁷和边界一致性。
所有训练均在NVIDIA RTX 4090 GPU(24 GB RAM)上进行,推理速度则在2017年发布的更经济实惠的NVIDIA Titan V(12 GB RAM)上进行基准测试。该模型使用跨越五个器官(乳房、甲状腺、肝脏、前列腺和肾脏)的15个公共超声数据集进行训练。每个数据集被分为训练(70%)、验证(20%)和测试(10%),测试集在模型开发过程中被保留,以确保在未见过数据上进行评估。
使用批大小为4和学习率为的AdamW优化器[55]进行了LoRA微调,权重衰减为。仅更新LoRA参数,而其他所有权重保持冻结。训练损失包括分类的Focal Loss、定位的L1和GIoU损失,以及用于优化图像-文本对应关系的对比对齐损失。采用基于验证损失的早停机制,耐心设置为20个epoch以减轻过拟合。训练期间所有数据集被合并,并应用了随机翻转、调整大小、填充、擦除和裁剪等数据增强。这导致了一个通用的单一模型,该模型在所有数据集(已见和未见)上进行了评估。
03 结果本节对所提出的方法在各种超声分割任务上进行了定量和定性评估。作者包含了消融研究、在已见数据集上与SOTA方法的比较,以及在新领域上的性能分析,以验证该方法的一般化能力。
表II总结了评估Grounding DINO模型与不同分割头组合的消融研究。基准配置,即使用自然图像训练的Grounding DINO与SAM2,在所有数据集上的分割性能均有限。与MedSAM配合微调Grounding DINO显著提升了DSC和IoU分数。然而,最佳性能由与SAM2配合微调的Grounding DINO实现,该配置在乳腺、肝脏和前列腺数据集上始终优于其他配置。具体而言,在具有挑战性的AUL肝脏数据集上,DSC和IoU分数分别提升至44.02%和35.79%。在MicroSeg前列腺数据集上,使用SAM2微调实现了88.56%的DSC和81.17%的IoU,证明了该微调策略的有效性。平均而言,微调后的Grounding DINO与SAM2实现了最高的DSC(73.99%)和IoU(65.66%),证实了其优越的泛化能力。因此,该配置被用于所有后续实验。
在表III中,作者提供了与近期SOTA分割方法在已见数据集上的全面比较。所提出的方法在大多数数据集上均优于MedCLIP-SAM、MedCLIPSAMv2、UniverSeg、SAMUS和BiomedParse。例如,作者的方法在BUSUC乳腺数据集上实现了最高的DSC分数91.68%和IoU 85.16%,超越了所有 Baseline 方法。在BUSB、S1、TN3K、TG3K、105US和AUL数据集上也观察到了类似的改进,这证实了所提出方法在已见领域上的鲁棒性和有效性。
值得注意的是,一些对比方法如BiomedParse和SAMUS受益于显著更大的预训练数据集(BiomedParse使用了大约3.4亿张医学图像,而SAMUS则使用了30000张超声图像)。尽管如此,作者的方法在远小得多的数据集上训练,却始终能取得更优的性能。此外,值得注意的是,由于AutoSAMUS的模型未公开,在推理过程中向SAMUS提供了地面真 Mask 内的随机点。换句话说,该方法的成果并非完全自动,而是通过向模型提供点 Prompt 获得的。相比之下,作者的方法无需空间 Prompt ,使得比较结果更为保守,并突显了其鲁棒性。
所有数据集上的平均性能,如表III最后一行所示,表明作者的方法实现了最佳的均值DSC为78.97%和IoU为71.13%,平均而言优于所有其他方法。这进一步证明了作者的方法与现有模型相比具有强大的泛化能力和有效性。
为了评估泛化能力,作者在三个来自未知领域的公开超声数据集上测试了所有方法:
乳腺(BUSBRA)、甲状腺(TNSCUI)和多裂肌(Luminous)。UniverSeg 在这一点上具有优势,因为作者为它在推理前提供了来自每个未见过数据集的16图像 Token 支持集。还应该注意的是,与已见数据集一样,地面真 Mask 内的随机点被用作 SAMUS 的空间 Prompt 。
表 II: 比较Grounding DINO的分割性能(DSC和IoU分数)与不同分割头在多个超声数据集上的消融研究。评估的配置包括:(1) Grounding DINO + SAM2(在自然图像上训练),(2) 微调Grounding DINO + MedSAM,以及(3) 微调Grounding DINO + SAM2。结果以平均值±标准差报告。加粗的结果表示每次比较中的最高分数。第三种方法在所有数据集和器官上始终表现最佳,并在其余实验中使用。
表III: 在公开超声数据集上SOTA方法(UniverSeg、BiomedParse、SAMUS、MedCLIP-SAM、MedCLIP-SAMv2和所提出的方法)的分割性能(DSC和IoU分数)的定量比较。结果以平均值±标准差报告。加粗的结果表示每个比较中的最高分数。
如表IV所示,作者的方法在所有数据集上实现了最高的平均DSC(72.83%)和IoU(68.53%),无需重新训练或特定领域适应,超越了所有竞争方法。在BUSBRA数据集上,作者的模型达到了DSC 79.10%和IoU 86.44%,超过了所有其他方法。对于TNSCUI甲状腺数据集,它实现了最高的DSC(86.44%)和IoU(79.10%),显示出强大的鲁棒性。在Luminous数据集上,虽然SAMUS在DSC(65.36% vs 64.99%)上略微优于作者的方法,但作者的方法实现了最佳的IoU(51.96% vs 49.99%),表明与真实 Mask 的重叠更好。
最后,值得注意的是,SAMUS和BiomedParse受益于远大的预训练数据集(分别为30,000张和3.4百万张图像),而作者的模型在显著更少的数据上训练,却能更有效地泛化于不同的解剖结构和成像条件。
表V展示了不同肾脏结构对于不同文本 Prompt 的分割性能变化情况。结果表明,模型总体上对 Prompt 用词具有鲁棒性,性能略有波动。例如,对于皮质,五个不同 Prompt 的DSC值在70%到72%之间变化。包含在临床环境中广泛认可的术语(“肾包膜”,“皮质”)的 Prompt 始终表现良好。此外,包膜分割的性能(DSC 85-92%,IoU 77-85%)高于皮质、髓质和中央回声复合体(DSC 66-73%,IoU 50-58%),这表明定义良好、清晰的解剖边界(如包膜)更容易被SAM2准确分割。
图2:在多种已见超声数据集上的分割结果定性比较。每一行代表一个不同的数据集:Tg3k(甲状腺)、Aul(肝脏)、Kidneyus(肾脏)、BrEast(乳腺)和Muregpro(前列腺)。列展示了UniverSeg、BiomedParse、SAMUS、MedCLIP-SAM、MedCLIP-SAMv2、作者的方法和真实标签(Ground Truth)的预测。预测的分割 Mask 以蓝色叠加显示。为定量展示分割性能,为每个预测提供了相应的DSC和IoU分数。
图2和图3展示了在已见和未见超声数据集上分割结果的定性比较。
每一行代表一个不同的数据集,涵盖了各种器官。列展示了来自竞争性SOTA方法的预测结果,包括UniverSeg、BiomedParse、SAMUS、MedCLIP-SAM、MedCLIP-SAMv2,以及提出的方法(Ours)和相应的真实标签 Mask 。对于已见数据集(图2),提出的方法在边界界定上最为准确,假阳性数量更少,尤其是在前列腺和肝脏等复杂结构上。与其他方法相比,这种优越性能体现在更高的DSC和IoU分数上。
图3:在多种未见过的超声数据集上分割结果的定性比较。每一行代表一个不同的数据集:Busbra(乳腺)、Luminous(下背部肌肉)和Tnscui(甲状腺)。列展示了UniverSeg、BiomedParse、SAMUS、MedCLIP-SAM、MedCLIP-SAMv2、作者的方法和真实标签 Mask 的预测。预测的分割 Mask 以蓝色叠加显示。为定量展示分割性能,为每个预测提供了相应的DSC和IoU分数。
表V 不同肾脏结构使用不同文本 Prompt 的分割性能(DSC和IoU分数)。结果以平均值±标准差报告。
类似地,对于未见过数据集(图3),作者的方法始终能够实现更好的分割质量,并且能够很好地泛化到之前未见过的数据。值得注意的是,在像Luminous(下背部肌肉)和TNSCUI(甲状腺)这样具有挑战性的数据集上,所提出的模型能够保持解剖结构,并产生最小的过度分割或欠分割,这反映了其强大的领域泛化能力,而无需进行特定任务的微调。
在NVIDIA TITAN V GPU(12 GB)上评估了推理运行时间。如表VI所示,所提出的方法每张图像平均需要0.33秒,优于BiomedParse(0.49秒)、SAMUS(0.67秒)、MedCLIP-SAM(3.05秒)和MedCLIP-SAMv2(2.73秒)。UniverSeg实现了最快的运行时间(0.21秒),这得益于其轻量级、任务特定的设计,无需文本 Prompt 条件;然而,它在性能上表现不佳,并且所有任务(包括未见过的数据集)都需要一个大小为16的支持集。作者的方法在适度的计算成本下提供了更高的灵活性和分割精度。
表VI: 在具有12 GB RAM的NVIDIA TITAN V上,10次运行的平均推理时间每张图像。
04 讨论表II的结果表明,尽管MedSAM [20] 在医学图像上进行了明确的微调,但其核心架构仍然是第一代SAM [56],该架构使用单尺度ViT编码器,因此需要在全局上下文和高频散斑图案之间进行权衡。SAM2用双尺度ViT替换了该 Backbone 网络,该网络并行处理高分辨率的局部 Token 和粗糙的全局 Token 。这种设计同时捕捉了纹理(如边缘和散斑)和长程解剖上下文,这些对于超声分割很重要的特性,在MedSAM中仅部分学习。此外,SAM2使用了显著更大的预训练数据集和改进的 Mask 解码器 [14]。
BiomedParse和SAMUS受益于显著更大的预训练数据集,然而作者的模型在远小得多的数据集上进行微调,始终能够实现最佳的分割结果。此外,还应该注意的是,SAMUS在测试时需要点 Prompt ,在作者的评估中,作者为每个真实 Mask 内部随机选择了一个点。相比之下,作者的方法仅使用文本进行操作,不接收任何空间指导,这使得评估有意地保守,并突显了该方法的有效性。这些发现提供了两个见解:(1)一个几乎完全在自然图像/文本对上预训练的Grounding DINO编码器可以通过少量数据微调到超声领域。换句话说,LoRA微调足以对齐视觉和语言线索。(2)SAM2解码器能够进行高质量的超声分割,但只有在提供准确的空间 Prompt 时才有效;没有这种指导,它的优势就会消失(如表II中Grounding 2的差结果所示)。
为评估泛化能力,作者在三个在微调阶段完全未见过的数据集上测试了模型。具体来说,LoRA微调阶段不包含肌肉骨骼数据,但模型仍然在Luminous multifidus-muscle数据集上生成了准确的 Mask ,显示了其对领域漂移的鲁棒性。这与Chen等人最近提出的多器官基础模型[28]形成鲜明对比,后者必须联合训练多个器官以获取器官不变特征。通过接受自由形式的文本 Prompt ,作者的系统可以在无需任何额外重新训练的情况下分割先前未见过的解剖结构或病理情况,展示了开集、 Prompt 驱动方法在未来临床应用中的实用价值。
将大型基础模型适配到超声领域在计算和内存方面是高强度的,但作者的方法通过LoRA微调来解决这一问题,从而实现高效性。作者不是更新所有模型权重,而是在Grounding DINO流程中仅微调一小部分参数,通过插入轻量级的LoRA模块来实现。据作者所知,这是首次成功使用LoRA将一个视觉语言模型微调到超声领域。
作者方法的一个优势在于其对文本 Prompt 差异的鲁棒性。该模型使用基于视觉语言模型(VLM)的Grounding DINO开集来解释任意文本输入,并在超声图像中定位相应的区域。作者观察到同义词和不同描述提供了相似的分割结果,这表明模型对语言变化具有很高的容忍度。这种灵活性在临床实践中非常重要,因为不同的从业者可能会用不同的术语描述相同的解剖结构。
作者的方法在医学影像领域中,相较于近期的基于SAM(Segment Anything Model)和基础模型具有多个优势。与MedSAM [20]相比,作者的模型避免了昂贵的全模型重新训练,也不依赖于手动点或框空间 Prompt 。与SAMUS [25]相比,后者引入了并行CNN分支和自动 Prompt 生成器以适应超声分割,作者的方法通过简单地搭配文本条件检测器(即DINO)与SAM2,保持了更简单的架构。SAMUS的学习 Prompt 是任务特定的(针对一组固定的超声目标进行训练),但作者的方法可以动态处理任何结构,使其更具可扩展性。最后,与Chen等人 [28]相比,作者的模型不依赖于预定义的器官类别或硬编码先验。作者的模型仅通过描述性文本 Prompt 即可灵活分割结构,这在需要分割模型如Chen等人 [28]从未明确训练过的任意解剖结构的情况下是一个显著优势。
作者方法对文本 Prompt 的理解受限于训练期间学习到的视觉特征与文本之间的对齐。由于文本编码器(来自Grounding DINO)最初是在自然图像和标题上进行训练的,因此一些医学术语或超声图像的细微特征可能无法在模型中表示。尽管作者通过在超声数据上微调Grounding DINO来缓解这一问题,但如果模型没有见过类似的图像,SAM2可能更难精确分割器官的边界。这些挑战表明,虽然语言接地是一种强大的工具,但需要精心策划丰富的超声数据集,以确保模型能够理解超声图像中的医学术语和线索。未来的工作将探索此类数据策划,并将结合 Prompt 调整[57]来进一步提升性能。
05 结论作者提出了一种基于Grounding DINO的视觉语言模型(VLM),集成了SAM2,用于多器官和多种成像场景的超声分割。在18个公共超声数据集上评估,作者的方法在已见和未见数据上均持续优于近期方法,包括MedCLIP-SAM、MedCLIP-SAMv2、SAMUS和UniverSeg。作者的模型完全自动化,无需任何空间 Prompt 。它还在三个未见数据集上表现出强大的泛化性能。最后,它在经济型GPU上实现了每张图像0.33秒的竞争性平均运行时间,使其适用于实时临床应用。
[1]. GroundingDINO-US-SAM: Text-Prompted Multi-Organ Segmentation in Ultrasound with LoRA-Tuned VisionLanguage Models
来源:极市平台