DINO-R1:博世与德州农工大学联手打造视觉基础模型

360影视 日韩动漫 2025-06-05 23:26 2

摘要:近日,来自博世北美研究中心、博世人工智能中心(BCAI)和德州农工大学的研究团队在arXiv上发表了一篇标题为《DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models》的论

近日,来自博世北美研究中心、博世人工智能中心(BCAI)和德州农工大学的研究团队在arXiv上发表了一篇标题为《DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models》的论文。这项研究由Chenbin Pan、Wenbin He、Zhengzhong Tu和Liu Ren共同完成,发表于2025年5月29日,论文编号为arXiv:2505.24025v1。

一、为什么我们需要具备推理能力的视觉模型?

想象一下,你正在使用一个人工智能助手解决数学问题或编写代码。最近,像DeepSeek-R1这样的大型语言模型在这些需要复杂推理的任务上取得了令人瞩目的成功。这些模型之所以能够表现出色,很大程度上归功于一种名为"群组相对策略优化"(Group Relative Policy Optimization,简称GRPO)的强化学习训练方法。通过这种方法,模型能够不断生成合成数据并通过可验证的奖励来优化自身的推理能力。

然而,当我们转向视觉世界时,情况却大不相同。目前的视觉基础模型(如DINO系列)主要依赖于预定义的视觉类别的监督训练或自监督学习目标,缺乏强大的推理机制。这使得它们在面对新颖、模糊或高度变化的场景时表现不佳——而这恰恰是实际应用中经常遇到的情况。

特别是在"视觉提示"(visual prompting)场景中,用户通过视觉示例(而非文本)来指定检测目标。这种方法在自动标注、工业检测和机器人操作等领域有着广泛应用。然而,由于视觉示例之间的多样性和类内变化,训练视觉提示模型面临着巨大挑战。研究团队发现,仅使用监督微调(SFT)方法难以应对这些挑战,常常表现出不稳定的收敛性、对域外数据的有限泛化能力,以及查询预测与视觉提示之间的弱对齐。

二、DINO-R1:视觉模型中的推理能力革命

面对这些挑战,研究团队提出了一种全新的训练范式——"群组相对查询优化"(Group Relative Query Optimization,简称GRQO)。这是第一次尝试使用强化学习来激励视觉基础模型的上下文推理能力。

想象你正在教一群学生解决问题。传统的教学方法可能是为每个学生提供一个标准答案,然后让他们各自对比改进。而GRQO采用的方法则更像是让学生们在小组内相互比较,根据相对表现来调整学习策略。这种方法不仅能让每个学生了解自己在组内的位置,还能通过互相借鉴快速提高整体水平。

具体来说,GRQO针对基于查询的表示模型(如DINO系列)引入了以下创新:

首先,GRQO设计了一个基于群组的相对奖励模块。在传统的目标检测模型(如DETR系列)中,每个查询只有在匹配到真实目标时才能获得监督信号,这导致大部分查询得不到有效的学习信号。而GRQO则计算每个查询与所有可能目标的匹配质量,并相对于组内平均水平赋予奖励值。这意味着即使一个查询没有完全匹配到目标,只要它比其他查询做得更好,就能获得正向学习信号。

其次,研究团队引入了KL散度正则化,用于稳定训练过程中的"目标性"(objectness)分布。由于视觉提示的多样性和结构变化,模型对图像中哪些区域可能包含目标的预测可能会在训练过程中剧烈波动。通过正则化这种分布,模型能够在学习新样本的同时保持对先前获得的知识的记忆,从而减少过拟合和分布偏移。

这种联合优化策略为查询提供了更密集、更有表现力的监督信号,同时提高了训练稳定性和模型泛化能力。研究团队基于Grounding-DINO框架实现了这一方法,并训练了一系列DINO-R1家族模型,这些模型集成了视觉提示编码器和视觉引导的查询选择机制。

三、DINO-R1的技术实现:如何让视觉模型具备推理能力?

要理解DINO-R1的工作原理,我们首先需要了解它的基础——Grounding-DINO(简称G-DINO)模型。G-DINO是一种开放词汇目标检测器,能够通过语言提示来定位图像中的物体。它通过图像骨干网络(如Swin Transformer)提取多尺度视觉特征,通过文本骨干网络(如BERT)提取文本特征,然后通过跨模态特征增强器将它们融合。在检测过程中,G-DINO使用语言引导的查询选择机制,根据跨模态相似性选择最相关的图像位置作为解码器查询的位置部分。

研究团队将G-DINO扩展为支持视觉提示,并将结果模型称为VIS-G-DINO。与依赖自由文本的G-DINO不同,VIS-G-DINO通过用户在参考图像上指定的边界框进行条件检测,实现无需语言描述的开放集检测。参考图像可以是目标图像本身,也可以来自不同的上下文。

为了实现这一点,团队设计了一个视觉提示编码器,将输入边界框转换为局部化的视觉特征。每个框首先使用正弦余弦位置编码进行嵌入,并投影到与transformer输入空间匹配。这些嵌入与可学习的视觉查询一起,通过可变形交叉注意力机制关注多尺度图像特征。自注意力和前馈层进一步将这些特征精炼为紧凑的视觉提示嵌入,捕获区域级语义。

为了增强语义一致性,研究团队在视觉提示和它们对应的文本嵌入之间应用了区域级对比学习。这将视觉提示锚定在与预训练语言模型相同的语义空间中。在训练过程中,每个类别随机采样视觉提示,以提高泛化能力。研究发现,每个类别采样一个提示能够在多样性和稳定性之间取得最佳平衡。

在图像-提示融合和查询选择方面,VIS-G-DINO遵循G-DINO的架构,通过多模态特征增强器融合图像特征和视觉提示。为了引导检测过程,研究团队引入了视觉引导的查询选择机制。给定精炼后的图像令牌和视觉提示特征,模型通过点积计算图像-提示相似度矩阵。对于每个图像令牌,在提示轴上取最大相似度作为其"目标性"分数,表示该位置存在提示目标的可能性。模型选择具有最高目标性分数的图像令牌作为解码器查询的位置嵌入。

四、群组相对查询优化:DINO-R1的核心创新

视觉提示检测要求对象查询能够与共享相同语义但外观高度多样的视觉示例对齐。这种设置引入了比语言提示更大的类内变异,要求模型既能记忆多样的外观,又能泛化到未见过的变化。受GRPO在大型语言模型社区中泛化能力的启发,研究团队提出了群组相对查询优化(GRQO)——一种通过基于群组的奖励建模和分布正则化来增强查询质量和学习稳定性的新型训练范式。

GRQO的第一个关键组件是查询级相对奖励。在DETR风格的架构中,查询通过各层的自注意力和交叉注意力进行交互,作为检测能力的主要载体。然而,标准的一对一二分图匹配提供了稀疏的监督,只更新一小部分查询,让其他查询得不到充分优化。为了解决这个问题,研究团队引入了一种查询级奖励机制,在所有查询中密集化监督。

具体来说,对于每个解码器查询预测,GRQO计算与同一图像中的真实实例的成对匹配成本。匹配成本是分类和定位项的加权和。在真实实例中选择最小总成本作为评估查询质量的指标。查询i的奖励ri被定义为这个最小成本的负值:成本越低意味着对齐越好,因此奖励越高。为了使学习信号更加稳健并利用群组动态,GRQO在同一样本内的所有查询中对奖励进行归一化,计算相对优势:

这种群组归一化的优势提供了稳定的、比较性的梯度,鼓励所有查询相对于动态群组基线进行改进。

GRQO的第二个关键组件是KL散度正则化。为了进一步稳定高变异视觉提示下的训练并防止分布漂移,研究团队在目标性概率分布上引入了基于KL散度的正则化项。在该设置中,目标性分布捕获了模型对图像令牌与提示目标相关性的置信度。由于视觉提示的多样外观和结构,这些目标性预测可能在迭代过程中波动,导致训练不稳定。为了缓解这一点,GRQO通过KL散度项将当前模型的目标性分布与参考模型分布进行正则化。参考模型是早期训练状态的冻结副本。通过将学习动态锚定到稳定的先验,KL正则化帮助模型保留可泛化知识,同时逐步吸收视觉提示的多样性。

这种联合优化策略为DINO-R1提供了两个关键优势:一方面,群组相对奖励密集化了查询级学习信号,鼓励查询之间的竞争和协作;另一方面,KL正则化确保了目标性分布的稳定性,防止了灾难性遗忘。两者结合起来,使DINO-R1能够有效地从多样的视觉提示中学习,同时保持对之前所学知识的记忆。

五、实验结果:DINO-R1的性能表现

研究团队在多个数据集上进行了广泛的实验,以评估DINO-R1的性能。实验设置包括两种主要场景:一是零样本(域外评估),在Objects365上训练模型并在COCO、LVIS-minival、ODinW13和ODinW35上测试;二是微调(域内评估),在COCO训练集上微调模型并在COCO验证集上评估。

在域外检测方面,DINO-R1展示了显著的泛化能力。在COCO数据集上,DINO-R1-T比SFT提高了4.1个mAP点(从19.9提升到24.0)。在更具挑战性的LVIS数据集上,DINO-R1-B在稀有类别上比SFT提高了3.4个mAP点(从12.5提升到15.9),展示了其对多样和稀有类别的更强泛化能力。在ODinW数据集上,DINO-R1-L在13子集和35子集上分别比SFT提高了8.8和4.4个mAP点。这些一致的收益反映了DINO-R1不仅提高了泛化能力,还增强了视觉推理能力。通过使用群组相对奖励和稳定的目标性监督优化查询,DINO-R1学会了更好地在不同场景和物体样式之间对齐高级语义。

在域内检测方面,GRQO在COCO上的封闭集检测设置中也提供了一致的收益。当使用GRQO微调SFT预训练模型时,DINO-R1-L达到了43.5 mAP,比继续SFT训练(39.2 mAP)提高了4.3个点。值得注意的是,使用GRQO预训练模型作为起点会带来更大的改进,DINO-R1比SFT基线提高了4.9个mAP点。这些结果表明,GRQO不仅能更好地泛化,还能提高同一域内的训练效率和有效性。

研究团队还进行了全面的消融研究,以评估DINO-R1各组件的贡献。首先,他们评估了GRQO的两个关键组件:查询级相对奖励和KL散度正则化。结果显示,两个组件单独都能提高性能,但结合起来效果更好。具体来说,奖励模块在零样本和微调设置中分别提供了2.9和3.6个mAP点的增益,而KL正则化分别贡献了1.1和1.7个mAP点的改进。当两个组件结合使用时,完整的GRQO框架在两种设置中分别比SFT基线提高了4.1和4.7个点。

在查询奖励设计方面,研究团队测试了不同的奖励函数组合。结果表明,使用所有三个组件(分类、L1和IoU)的群组相对奖励达到了最佳性能,为23.5和36.8 mAP。值得注意的是,相对奖励比绝对奖励分别高出3.4和5.4个mAP点,强调了群组归一化在提高奖励稳定性方面的作用。此外,层级奖励策略(其中中间解码器层也由奖励函数监督)进一步提高了性能,表明早期查询精炼阶段也能从强化学习式优化中受益。

在损失缩放方面,研究团队探索了GRQO对其两个关键损失组件缩放的敏感性:查询奖励项和KL散度正则化。具体来说,他们在1.0、10.0、10e2、10e3、10e4的范围内改变奖励损失的权重,在0.4、0.04、0.004的范围内改变KL正则化的权重。结果显示,当奖励权重设为10e3且KL权重为0.04时,性能最佳。这表明中等强度的奖励信号鼓励更有效的查询区分,而过大的权重会导致次优优化。同样,KL正则化系数0.04在稳定性和泛化之间取得了良好平衡,帮助模型在训练多样视觉提示过程中抵抗分布漂移。

研究团队还研究了视觉提示的多样性和数量在训练和推理中的作用。他们改变了训练期间每个类别随机采样的提示数量,并进一步评估了具有不同提示数量的模型在推理时的表现。结果显示,每个类别仅使用一个随机提示进行训练显著优于使用更多提示的设置。研究团队推测,这是由于采样提示池中增加的多样性和更高的方差,使模型能够泛化到更广泛的视觉外观。相反,在推理过程中,随着每个类别提示数量的增加,性能提高,表明集成式提示有助于增强物体身份并减少开放集场景中的歧义。

定性比较也显示了GRQO相对于SFT的显著改进。SFT结果表现出假阳性和漏检,反映了查询表达能力有限和与视觉提示的弱对齐。相比之下,GRQO产生更准确和完整的检测,更好地与提示语义对齐。这些结果强调了GRQO在增强查询推理和高变异视觉输入下的鲁棒性方面的能力。

六、DINO-R1的意义与未来展望

DINO-R1代表了视觉基础模型领域的重要突破,首次将强化学习的原理应用于增强视觉模型的推理能力。这种方法不仅改进了开放词汇检测的性能,还为视觉上下文学习、多模态对齐和提示驱动的视觉推理铺平了道路。

研究团队认为,DINO-R1为密集视觉任务中的强化学习训练开辟了一个有前途的方向,并为未来的视觉上下文学习、多模态对齐和提示驱动的视觉推理研究提供了基础。在未来的工作中,他们计划整合更具表现力的视觉提示编码方法,将DINO-R1扩展到更具挑战性和多样性的数据集,并探索它在其他开放世界设置中的应用,如指代表达理解、检索增强检测和多样本视觉推理。

然而,研究团队也承认了当前工作的一些局限性。DINO-R1主要关注优化策略而非架构增强。在DINO-R1中使用的视觉提示编码器采用了相对简单的设计,以隔离和突出GRQO框架的贡献。未来研究可以探索更具表现力和结构化的视觉提示编码方法。

总的来说,DINO-R1代表了视觉基础模型推理能力的重要一步,展示了强化学习策略可以显著改进开放集视觉理解的能力和鲁棒性。随着这一领域的继续发展,我们可以期待看到视觉模型在复杂推理任务上的进一步突破,最终缩小视觉和语言模型之间的能力差距。

来源:至顶网一点号

相关推荐