Vision-R1:激发多模态大模型的推理能力

360影视 日韩动漫 2025-04-17 01:43 3

摘要:Vision-R1 提出了一条“冷启动+强化学习”相结合的训练路径,为多模态大模型(MLLM)注入类人式思维与推理能力。具体而言,先通过“模态桥接(Modality Bridging)”方法大规模生成高质量多模态推理数据并进行冷启动初始化;随后利用渐进式思维抑

作者丨大家好我是爱因@知乎(已授权)

来源丨https://zhuanlan.zhihu.com/p/29618155786

编辑丨极市平台

论文:https://arxiv.org/pdf/2503.06749

GitHub:https://github.com/Osilly/Vision-R1

数据集:https://huggingface.co/datasets/Osilly/Vision-R1-cold

Vision-R1 提出了一条“冷启动+强化学习”相结合的训练路径,为多模态大模型(MLLM)注入类人式思维与推理能力。具体而言,先通过“模态桥接(Modality Bridging)”方法大规模生成高质量多模态推理数据并进行冷启动初始化;随后利用渐进式思维抑制训练(PTST)与强化学习相结合,逐步引导模型掌握正确且复杂的推理过程。实验表明,Vision-R1-7B 参数规模的模型便能在多项数理推理基准上逼近甚至超越 70B+ 大模型的表现

图1。左图:我们的Vision-R1流程。首先利用现有的MLLM和DeepSeek-R1获得高质量的Multimodal CoT数据集,将其作为基础MLLM的冷启动初始化数据,从而得到经过冷启动后的Vision-R1-CI,然后在Vision-R1-CI上进行强化学习(RL)训练,最终获得具备推理能力的MLLM,即Vision-R1。

右图:我们观察到,直接在MLLM上应用RL无法有效地激发出强大的推理能力(参见(C)和(D))。未经初始化直接通过RL训练的Vision-R1-Zero难以从有限的数据中泛化(参见(E)、(F),特别指出Vision-R1-Zero应用了format reward function)。而Vision-R1-CI则面临“过度思考优化问题(Overthinking Optimization Problem)”,偏好较短的CoT推理序列,即正确的推理过程主要集中在较短的CoT推理序列中(参见(A))。在后续的RL训练中,我们观察到推理步骤虽然有所延长,但性能却出现下降(参见(D)和(E)),这使得优化尤为困难。而Vision-R1则首先在RL训练下缩短CoT,以精炼正确的思考过程。PTST使Vision-R1逐步获得更为复杂的推理过程(参见(C)、(D)和(E)),性能得以提升,因此我们的Vision-R1以70亿参数实现了与具有700亿以上参数的最强MLLM相当的性能(参见(B))。注意,Vision-R1使用了不同颜色的线条来表示PTST中的不同阶段。

图2。整体的数据生成流程,融合了我们的模态桥接(Modality Bridging)方法。首先将多模态数据送入MLLM,以获取包含图像描述(caption)和推理过程的“Pseudo-CoT”,并将其与原始的图像-问题对一起作为MLLM的输入,以生成详细的文本描述。通过这种模态桥接方法,文本描述向DeepSeek-R1提供了全面的信息,有助于生成高质量的CoT推理过程。这些推理过程经过后处理,与原始数据整合后,最终形成Vision-R1-cold数据集。

表1。在不同的多模态数学基准上,与当前最先进(SoTA)的MLLM(包括闭源、开源的通用型/数学型/推理型MLLM)进行的综合比较。“Avg.”表示所有基准上的平均表现。对于MathVista基准,我们特别在三个与数学推理密切相关的子任务上对所有模型进行了比较:几何推理(GEO)、代数推理(ARI)、几何问题求解(GPS)和数学文字题(MWP)。“ALL”表示在MathVista基准上的平均得分。在下文所有表格中,最好的结果用粗体标出,次优结果用下划线标出。我们的Vision-R1在数学推理任务中表现出卓越的性能,大幅超越了基线方法。

近两年,大模型(LLM)在各个领域大放异彩,从语言理解到图像识别,都出现了突破性的进展。然而,想要让模型真正地“像人一样”去进行推理、思考与解释,仍是一项极富挑战性的任务。以往我们大多在文本领域探索如何“让模型有自己的思维过程”(如链式思考 Chain-of-Thought),而在多模态领域(尤其是图文结合的情境)——如何把视觉信息与语言信息进行深度融合并激发复杂的推理能力,还远远没有走到头。

为此,本文针对多模态大模型(Multimodal LLM,简称 MLLM)的“推理能力激发”展开研究,并提出了一个全新的解决方案,名为 Vision-R1。它在视觉和语言的结合中,实现了用“强化学习(RL)+ 冷启动(Cold Start)”的方式,去让模型自发地产生更复杂、更类似于人类思考的推理链。

语言大模型的推理火热,但多模态推理仍是短板

近年来,纯文本领域的推理方法(如“链式思考”、Tree-of-Thought 等)发展迅速,证明了在文本任务中,通过显式的多步推理,可以极大提升模型在复杂问题上的表现。然而,这些方法大多只聚焦在文字输入上,很少考虑视觉信息。多模态模型若只停留在“根据图像简单识别+给出答案”,常常难以在高难度推理场景(如数学场景的图文结合推理、几何题带图解等)表现优异。

直接用强化学习在多模态模型上激发“自发思考”并不容易

在纯文本模型上,已有工作(如 DeepSeek-R1)表明,利用强化学习去激发模型自我生成更复杂的推理链,确实有效。但想直接将这种强化学习方法“照搬”到多模态模型,会面临数据稀缺、模型过度胡乱生成长推理链等问题,导致效果不佳。因此,需要一个辅助的冷启动初始化步骤来帮助模型先学会“如何思考”,然后再进行强化学习,以提升推理过程的正确性与稳健性。

缺乏大规模高质量多模态推理数据

人工标注的图文推理数据往往只包含简单的“图像描述+答案”,很少显式写出内在的思考过程,即便有也通常比较“形式化”,缺乏像人类一样的“自我质疑”“多步检验”。如何构建能体现“人类式推理”的多模态数据,是推动 MLLM 学习复杂推理的关键。

直接强化学习难以激发

论文最先尝试了一个直觉做法:在没任何预热的情况下,直接对多模态模型进行强化学习训练,企图让模型自发生成复杂的推理过程。结果发现,模型难以从零开始形成准确且复杂的推理链,往往一味追求“产出长推理”却忽视了正确性,性能反而出现明显下降。

存在“过度思考”优化难题

如果在多模态模型上先通过监督学习学到一些高质量的推理,再做强化学习时,会出现另一类问题:模型往往倾向于生成过长的思考过程,其中充斥着很多错误或冗余的步骤,这种“思考过度”会让训练过程变得不稳定,难以成功优化到正确且高效的推理。

高质量数据匮乏

想让多模态模型学会“像人一样思考”,需要兼具视觉、语言乃至数学场景下的复杂推理示例,但纯人工大规模标注成本非常高。如何在极少或无人工干预的情况下,获得高质量、多样化的“多模态推理数据”,也是一个难题。

论文提出了一个名为 Vision-R1 的多模态推理模型训练流程,其核心包含以下步骤:

冷启动初始化(Cold-start Initialization)

• 首先,作者提出了一个多模态推理数据生成方法,称为“Modality Bridging(模态桥接)”:

先让已有的多模态大模型(MLLM)从图片+文字问题对中,生成一个初步的“伪链式推理”(Pseudo-CoT),即包含图像描述和推理思路的文本,并将其与原始的图像-问题对一起作为MLLM的输入,以生成详细的文本描述。将详细的文本描述输入到一个强大的纯文本推理模型 DeepSeek-R1,进行二次加工和过滤,得到质量更高、更接近人类思维过程的详细推理文本。最终拿到一批既含有图像又配对上“自然思维过程”的高质量多模态推理数据(约 20 万条),称为 Vision-R1-cold dataset

• 接着,把预训练的多模态大模型(比如 Qwen-2.5-VL)用上述数据进行一次监督微调(SFT),让模型先学会自然且复杂的推理格式和思路,得到 Vision-R1-CI(CI 即 Cold-Start Initialization)。

渐进式思维抑制训练(Progressive Thinking Suppression Training, PTST)

• 论文中指出,Vision-R1-CI 虽然在“复杂思维”上有了初步的雏形,但一上来就让它在强化学习时生成非常长的推理,会出现“越思考越出错”的问题,从而损害最终的性能。

• 为此,作者提出 PTST:在强化学习的前期,故意“抑制”推理长度,要求模型产出相对短且正确性较高的思维链,先保证能学到“正确”的思路;在后期再逐渐放松长度限制,让模型有机会学习更复杂、更丰富的思维过程。

• 整个强化学习过程使用 “Group Relative Policy Optimization (GRPO)” 算法进行多次对比采样,并结合“格式 + 答案正确性”两种奖励,来不断优化模型的推理能力。

多阶段训练 + 硬格式-结果奖励 (Hard Formatting Result Reward)

• 文中设计了一个“硬格式-结果奖励”函数:只有在推理输出的格式符合要求,并且最终答案正确时,才给模型高分,否则就是 0 分。这种“高标准奖励”在前期能强制模型集中精力先学好正确答题方式,以减少随机的冗长推理。

• 在多阶段的 PTST 训练后,作者最终得到 Vision-R1。相较于直接用 RL 或者单纯的 SFT,Vision-R1 凭借先冷启动、后渐进强化学习的策略,大幅提升了多模态复杂推理性能。

四、主要成果效果对比

• 在多项数理推理(包含图文几何推理、方程推导等)基准上,Vision-R1-7B 尺度的模型,已经能与一些 70B+ 参数的大模型旗鼓相当。例如,在 MathVista、MathVerse、MM-Math 等基准上,Vision-R1-7B 都取得了显著提升,在MathVista上,Vision-R1-7B 73.5分,接近OpenAI o1的73.9。 某些子任务(如几何推理)甚至逼近或超越现有最优水平。

• 说明只要“冷启动 + 强化学习”得当,中小参数量的多模态模型,也能产生相当强的推理能力。

人类式思维过程的可观测性

• 论文中展示了 Vision-R1 的多步推理示例,能看到模型在回答一个几何题时,会出现类似人类的“嗯?我再检查一下”“好像上一步有点问题,让我再重新推一下”等自我质疑、思考的字句。

• 这表明在训练中确实激发了模型的“自发思考”模式,而不仅仅是机械地输出一长串无效的步骤。

渐进训练的优势

• 实验还对比了如果没有分阶段抑制推理长度,模型要么推理很短(零强化学习),要么推理超长但正确率显著下降(直接用 16K tokens 长度训练)。通过“逐步放宽推理长度”的方式,能帮助 Vision-R1 获得优质的平衡:既能长推理,又不至于陷入胡乱瞎想的陷阱。

五、总结与展望

Vision-R1 的工作提供了一个有意思的思路:

• 首先利用已有多模态模型与高质量文本推理模型,通过“模态桥接”构造大量“人类式思维”的数据,为 MLLM 做一个冷启动;

• 再通过严格的奖励设计和分阶段策略,在强化学习中逐步激发更高级的推理链。

从实验结果看,这样的技术路线能显著提升多模态模型在复杂推理任务(尤其是图文结合数学推理)上的表现,也为后续大模型如何结合视觉、语言并启用更深层次思考提供了新思路。

尽管还有很多问题值得探索,但 Vision-R1 的研究已经为“多模态大模型的深层推理”这条赛道,注入了新的可能性与动力。

来源:极市平台

相关推荐