摘要:随着大型语言模型(LLMs)的快速发展,对这些模型进行后期训练已成为提升其性能的关键步骤。2025年6月,来自比利时鲁汶大学(KU Leuven)、中国科学技术大学、上海Memory Tensor公司以及北京三星研发中心的联合研究团队发布了一项重要研究——《J
想象一下,当你面对一幅被打乱的拼图时,你会如何重组它?你可能会观察每块拼图的图案和边缘,然后逐步尝试把它们拼在一起,形成一幅完整的图像。这个看似简单的任务实际上涉及复杂的视觉理解和空间推理能力。研究团队正是利用这个我们从小就熟悉的游戏,来研究和提升人工智能模型的视觉理解能力。
为什么要选择拼图作为研究对象呢?传统的规则型强化学习在纯文本环境中已经取得了显著成功,特别是DeepSeek-R1模型展示了强大的推理能力和泛化能力。然而,当我们将这种方法应用到多模态环境(即同时处理文本和图像)时,情况变得更加复杂。研究团队认为,拼图游戏是一个理想的测试平台,原因有三:首先,拼图有明确的正确答案,无需人工标注;其次,通过调整拼图块的数量,可以轻松控制任务难度;最后,解决拼图需要模型具备逐步推理和视觉感知能力,与人类解决问题的方式相似。
通过这项研究,团队希望回答几个关键问题:当前的多模态大型语言模型在解决拼图任务时表现如何?这些模型能否通过解决拼图任务学习到可泛化到其他视觉任务的能力?明确的思考过程对于视觉任务是否必要?复杂推理模式是突然出现还是本就存在于模型中?强化学习与监督学习在泛化能力上有何区别?
接下来,让我们一起深入了解这项研究的详细内容,看看研究团队如何通过拼图游戏这个简单而又深奥的任务,揭示多模态大型语言模型的学习与推理能力。
一、研究背景:拼图游戏与强化学习的奇妙结合
拼图游戏与学习的联系由来已久。早在1760年,英国地图制作者约翰·斯皮尔斯伯里(John Spilsbury)创造了第一个"解剖地图"——一种早期的拼图,专门用于教授地理知识。这个传统游戏不仅仅是娱乐,还是一种有效的学习工具。在现代计算机视觉领域,拼图游戏被重新定义为"预训练任务"——一种帮助神经网络学习丰富特征表示的方法。
想象一下,如果你想教一个孩子识别复杂的图案,你可能会先让他们玩拼图游戏,通过重组零散的片段来理解整体图像。类似地,研究人员让神经网络"玩拼图"——学习如何从打乱的图像碎片重建原始图像,这有助于网络在没有明确标签的情况下学习理解图像结构。
与此同时,强化学习领域也取得了重要进展。DeepSeek-R1模型采用了一种简单而有效的规则型强化学习方法,避免了"奖励黑客"问题(即模型找到取巧方式获得高奖励但不真正解决问题),并且无需传统的支架技术(如过程奖励模型或蒙特卡洛树搜索)。这种方法在数学、编程、常识推理和逻辑谜题等多个领域展现了强大的泛化能力。
DeepSeek-R1的一个令人惊讶的发现是"顿悟时刻"(aha moment)——模型在训练过程中突然展现出复杂的推理模式,完成长度增加,类似人类解决问题时的"灵光一现"。然而,这种现象在视觉感知为主的任务中是否也会出现,尚未可知。
视觉任务与纯文本任务有一个关键区别:视觉任务通常可以通过直接的视觉理解得出简洁答案,而不需要像数学或编程那样的详细推理步骤。事实上,在某些视觉任务中,冗长的思考过程可能反而不利于模型表现。
这就是为什么研究团队选择拼图游戏作为研究平台——它同时需要视觉理解和结构化推理,为研究规则型视觉强化学习提供了理想环境。通过这个框架,团队希望探索多模态大型语言模型如何学习解决视觉问题,以及这种学习过程与纯文本领域有何异同。
二、研究设计:如何让AI玩拼图
研究团队精心设计了一套方法,让多模态大型语言模型能够理解并解决拼图任务。这个过程就像设计一款专为AI准备的拼图游戏,包括游戏规则、难度设置和评分标准。
首先,拼图图像的创建过程很直观:从一张输入图像开始,将其分割成m×n网格的小块。通过改变m和n的值,可以轻松调整任务难度——就像给孩子提供4块拼图相对简单,而100块拼图则具有挑战性。为了让网格布局更加明显,有时会在拼图块之间添加蒙版区域。如果图像的高度不能被m整除,或宽度不能被n整除,系统会从底部或右边缘裁剪图像,确保尺寸完全符合要求。然后,这些拼图块被随机打乱,创建拼图图像。为了唯一标识每块拼图在网格中的位置,系统按行优先顺序分配位置索引,从左上角的1到右下角的mn。
基于这些打乱的图像,研究团队设计了不同类型的问题,用于评估模型的能力:
"完整"拼图任务要求模型识别每个打乱拼图块的原始位置索引,从而重建原始图像。答案是一个包含mn个数字的列表,按m×n网格排列,每个数字对应一个打乱的拼图块,并指示其原始位置索引。这个任务的复杂度是mn阶乘,因为这是所有可能排列的数量。
想象一下,如果有一个2×2的拼图(4块),那么模型需要找出每块拼图的正确位置。例如,如果位置2的拼图块应该在位置4,答案的第2个位置就会是数字4。
"配对"拼图任务则随机选择两个拼图块,要求模型确定它们在原始图像中的相对位置。如果图像被分成单行(m=1)或单列(n=1),则只有两种可能的相对位置(例如左/右或上/下)。否则,有八种不同的相对方向(如左上、正上方、右侧、右下等)。这个任务被设计为多项选择题,要求模型输出对应正确相对位置的单个字母。
除了任务类型,研究团队还探索了两种提示模型的方式:
"思考型"指令要求模型先输出思考过程(包含在和标签之间),然后提供最终答案(包含在和标签之间)。这类似于DeepSeek-R1使用的格式,已被证明可以改善模型在各种下游任务上的泛化能力,并有助于提高安全性和透明度。
"非思考型"指令则提示模型直接输出最终答案,不需要详述中间推理过程。考虑到某些高度依赖视觉感知的任务可能不需要详细的逐步推理,这种方式可能更为高效。
在奖励系统设计上,团队采用了两个组成部分:准确性奖励和格式奖励。准确性奖励评估回答的正确性——对于完整拼图,奖励是正确识别的位置索引比例(0到1之间的分数);对于配对拼图,奖励是二元的(正确选择得1分,否则得0分)。格式奖励则确保输出符合规定格式,包括标签使用和答案结构,符合要求得0.5分,否则得0分。总奖励是这两部分的总和。
这套精心设计的任务框架,为研究团队提供了一个可控、可量化的环境,用于探索多模态大型语言模型在视觉推理任务中的表现和学习能力。
三、实验设置:拼图挑战赛的参赛选手与规则
为了全面评估多模态大型语言模型在拼图任务上的表现,研究团队使用了多个数据集和模型,就像举办了一场拼图挑战赛,邀请各种AI模型参与竞赛。
在数据集方面,COCO数据集(通用物体上下文数据集)成为了拼图任务训练和评估的基础。研究人员仅使用其中的图像,并随机生成真实排列。训练使用train2014分割,测试则从test2014分割中随机选择1,000张图像。
为了测试模型学到的能力能否泛化到其他视觉任务,团队还使用了几个额外的数据集:CV-Bench将标准视觉数据集(如COCO)重新调整为多模态环境,提供2,638个测试样例,涵盖空间关系、物体计数、深度顺序和相对距离四种任务;MMVP类似于CV-Bench,将ImageNet等经典视觉数据集改编为300个多模态问题,评估模型在九种基本视觉模式上的表现;SAT数据集包含室内场景,研究团队专门使用其静态分割,将原始问题分类为CV-Bench中定义的四种任务类型;Super-CLEVR数据集则包含各种车辆模型,如汽车和摩托车,被改编为计数问题。
在模型选择上,团队评估了专有模型和开源模型两大类:
专有模型包括GPT-4.1、GPT-4.1-mini和Claude 3.5 Haiku,这些是由大型AI公司开发的先进模型。
开源模型包括Qwen2-VL-2B-Base以及几个经过指令调整的模型:Qwen2.5-VL-72B/7B/3B、Qwen2-VL-2B和InternVL2.5-2B。这些模型代表了当前开源社区中的主流多模态大型语言模型。
在实现细节上,团队使用GRPO(一种强化学习算法)进行训练。思考型模型的训练步数为1,000,非思考型为2,000。每个训练步骤处理64个唯一提示,每个提示采样8次计算优势。采样温度设为1,使用top-k采样(k=50)。学习率从1e-6开始,线性衰减至0。
这些实验设置构成了一个全面的评估框架,使研究团队能够深入了解多模态大型语言模型在拼图任务上的表现,以及通过拼图学习到的能力如何泛化到其他视觉任务。
四、研究发现:拼图游戏揭示的AI学习奥秘
通过一系列精心设计的实验,研究团队发现了多模态大型语言模型在拼图任务和视觉推理方面的一些令人惊讶的特性。这些发现就像探索者揭开了AI学习过程中的神秘面纱,让我们得以一窥这些模型如何理解和解决视觉问题。
### 多模态大型语言模型在拼图任务上的表现
首先,研究团队发现,未经任务特定训练的多模态大型语言模型在最简单的拼图任务(即2×1拼图)上表现不佳,准确率仅相当于随机猜测。这就像让一个从未见过拼图的人突然尝试解决一个拼图游戏,自然会感到困惑。即使是GPT-4.1这样强大的专有模型也无法有效解决这些基本拼图任务,在2×1配对拼图上的准确率仅为54.1%,与随机猜测(50%)相差无几。
然而,经过微调后,这些模型展示了令人印象深刻的学习能力。例如,Qwen2.5-VL-3B在非思考型配对任务上的准确率从52.2%飙升至98.8%。更令人惊讶的是,这些模型能够将学到的能力泛化到训练期间未曾见过的更复杂配置上。具体来说,仅在2×1拼图上训练的模型能够有效解决3×1拼图,尽管准确率有所下降(从98.8%降至66.0%),但仍远高于随机猜测的50%。
这就像一个孩子学会了解决简单的两片拼图后,面对三片拼图时也能应用相同的原理,虽然难度增加了,但基本技能是可迁移的。
### 拼图任务泛化到其他视觉任务的能力
研究的第二个重要发现是,通过解决拼图任务训练的模型能够将这种能力泛化到其他视觉任务上。例如,经过拼图训练的Qwen2.5-VL-3B在CV-Bench上的表现从70.35%提高到73.57%,在MMVP上从66.00%提高到70.00%。
然而,这种泛化能力受到多种因素的影响:
拼图大小:更大、更具挑战性的拼图训练往往导致更好的泛化能力。比如,在非思考型设置下,使用3×1拼图训练的模型在下游任务上表现比使用2×1拼图训练的模型更好(平均准确率74.95%对比73.18%)。更进一步,采用课程学习方法混合不同大小的拼图(如3×1→4×1)比仅使用单一大小更有效,平均准确率达到75.29%。
问题类型:配对拼图任务比完整拼图任务在下游任务泛化上表现更好。例如,配对拼图训练在CV-Bench上达到73.57%的准确率,而完整拼图训练仅达到71.76%。研究团队认为,这是因为配对拼图任务与下游任务更为相似,都需要模型回答多项选择题并推理视觉元素之间的空间关系。
训练数据集:训练数据集与目标领域的一致性也影响泛化能力。直接在SAT数据集上训练可以提高SAT任务的表现(从65.65%提高到67.00%)。由于拼图任务不需要标签,甚至可以在SAT的测试集上训练以进一步提高性能。
这些发现表明,拼图任务不仅是一个有趣的玩具问题,还是培养AI模型视觉推理能力的有效训练场。通过精心设计的拼图训练,可以显著提高模型在各种视觉任务上的表现。
### 思考还是不思考:AI解决视觉问题的策略
研究的第三个关键发现涉及模型的推理方式。研究团队发现,无论是否包含明确的推理过程,多模态大型语言模型都能有效学习解决拼图任务并将这种能力泛化到下游任务。
然而,开源多模态大型语言模型通常在直接回答(非思考型)时表现更好。例如,在拼图任务上,非思考型的Qwen2.5-VL-3B平均准确率为58.70%,而思考型只有55.22%。在下游任务上,非思考型达到73.18%,而思考型仅为60.86%。
相比之下,专有模型(如GPT-4.1和Claude 3.5 Haiku)在包含明确推理过程时往往表现更好,尽管差异较小。这并不意味着专有模型本质上更强——例如,Claude 3.5 Haiku在下游任务上的表现与Qwen2.5-VL-3B相当。
有趣的是,即使经过训练使用逐步推理,模型也可能忽略思考过程。研究团队观察到,InternVL2.5-2B在训练过程中完成长度显著减少,因为模型越来越倾向于绕过逐步推理,通常只在思考过程中包含最终答案。
Qwen模型确实展示了明确的推理步骤,但这些步骤可能与最终答案不一致。研究团队使用GPT-4.1评估Qwen2.5-VL-3B的推理过程与最终答案的一致性,发现尽管模型的最终答案随着训练变得更准确,但其推理链却变得越来越不一致。
这就像一个学生可以正确回答问题,但当被要求解释推理过程时,提供的解释与答案不匹配。这一现象提示我们,模型可能学会了直接从视觉输入中提取答案,而不是真正依赖明确的推理步骤。
### "顿悟时刻"的真相:复杂推理模式的演变
研究的第四个发现挑战了之前在纯文本领域观察到的"顿悟时刻"现象。在拼图任务研究中,团队发现复杂的推理模式(如验证、回溯、设定子目标和反向链接)早已存在于多模态大型语言模型中,而不是在训练过程中突然出现的。
通过追踪指示回溯和反向链接的关键词频率,研究团队发现这些词的出现率在训练过程中稳步显著增加。这表明,这些复杂的推理能力是模型原本就具备的,通过适当的任务激活和强化,而不是从零开始学习的。
此外,这些复杂推理模式与任务难度密切相关。当模型在更具挑战性(即更大)的拼图上训练时,这些关键词的频率更高。例如,在2×2拼图上训练的模型关键词频率明显高于在2×1拼图上训练的模型。
这就像一个解谜高手面对简单谜题时可能直接看出答案,而面对复杂谜题时会调动更多的问题解决策略和推理能力。同样,AI模型也会根据任务难度调整其推理深度和复杂性。
### 监督学习与强化学习的对比
研究的最后一个关键发现涉及训练方法的比较。研究团队发现,强化学习(RL)在泛化能力上表现优于监督微调(SFT)。
例如,在思考型设置下,RL训练使Qwen2.5-VL-3B在下游任务上的平均准确率达到60.86%,而SFT仅达到57.81%。在非思考型设置下,差距更大:RL达到73.18%,而SFT仅为69.48%。
更重要的是,团队发现,在强化学习之前使用监督微调作为"冷启动"阶段可能会阻碍后续的强化学习优化。例如,在思考型设置下,直接使用RL达到60.86%的准确率,而SFT+RL组合仅达到58.91%;在非思考型设置下,RL达到73.18%,而SFT+RL仅为69.92%。
这一发现挑战了常见的训练范式,即先使用监督学习,然后再进行强化学习微调。在拼图任务的背景下,直接应用强化学习似乎是一种更有效的方法。
这些研究发现共同描绘了多模态大型语言模型如何学习和解决视觉推理任务的全景图。它们不仅帮助我们理解这些模型的能力和局限性,还为未来的研究和应用指明了方向。
五、结论与未来展望:拼图游戏之外的世界
通过这项使用拼图游戏作为实验框架的研究,团队揭示了多模态大型语言模型在规则型视觉强化学习中的几个关键特性。就像拼图游戏本身一样,这项研究拼凑出了AI视觉理解和推理能力的一幅更完整图景。
归纳起来,研究的核心发现包括:
第一,当前的多模态大型语言模型在没有特定训练的情况下,甚至无法解决最简单的拼图任务,表现与随机猜测相当。然而,经过微调后,这些模型能够近乎完美地解决这些拼图,并将学到的能力泛化到更复杂的拼图配置上。这表明,虽然基础模型可能缺乏某些视觉推理能力,但它们具有学习这些能力的潜力。
第二,通过拼图任务训练的模型能够将学到的能力泛化到其他视觉任务上,但泛化效果取决于具体的任务配置,包括拼图大小、问题类型和训练数据集。这说明拼图任务不仅是一个有趣的测试平台,还是培养通用视觉推理能力的有效训练工具。
第三,多模态大型语言模型可以有效学习解决视觉任务,无论是否包含明确的推理过程。然而,开源模型通常在直接回答时表现更好,而专有模型则倾向于在包含推理过程时表现更佳。更重要的是,即使经过训练使用逐步推理,模型也可能在得出最终答案时忽略思考过程,这表明视觉任务可能不像数学或编程那样需要详细的推理步骤。
第四,复杂的推理模式(如验证、回溯、设定子目标和反向链接)似乎是预先存在于模型中的,而不是在训练过程中突然出现的。这些模式会随着训练和任务难度的增加而更频繁地出现,表明它们是模型已具备但尚未充分激活的能力。
最后,强化学习在泛化能力上表现优于监督微调,而在强化学习之前使用监督微调作为冷启动阶段可能会阻碍后续的强化学习优化。这一发现挑战了常见的训练范式,提示我们在某些情况下,直接应用强化学习可能更为有效。
尽管这些观察是基于拼图任务的,可能在其他视觉任务中有所不同,但它们为我们理解规则型视觉强化学习及其在多模态学习中的潜力提供了宝贵的见解。正如拼图游戏中每一块拼图都是完整图像的重要组成部分,这项研究也是我们集体理解AI视觉推理能力这一大拼图的重要一块。
研究团队也承认本研究的一些局限性,并指出了几个有前景的未来研究方向:
首先,最近由OpenAI推出的o3和o4-mini等视觉推理模型在利用图像增强感知方面显示出显著潜力。初步实验表明,OpenAI的o3模型能够有效解决2×2拼图,表现远超本研究考虑的其他模型,但在面对更复杂的拼图(如3×3)时仍面临挑战。这一方向值得进一步探索。
其次,研究可以扩展到能够理解和生成多模态内容的模型。让这些模型生成自己的输入可能减少对外部数据集的依赖,创建一个自主环境,使模型从经验中学习。
此外,鉴于拼图任务自然提供可用的标注,它们特别适合测试时训练。探索使用拼图作为测试时训练技术的方法是另一个有前途的研究方向。
最后,虽然本研究主要关注拼图作为预训练任务,但还有许多其他值得探索的替代方案,包括文本、视频、音频、点云和表格数据领域的预训练任务。此外,未来的研究还可以探索PPO、DPO和Reinforce++等其他强化学习算法,以及DAPO、Dr. GRPO、GPG和NoisyRollout等GRPO的最新进展和变体。
总的来说,这项研究不仅揭示了多模态大型语言模型在视觉推理任务上的能力和局限性,还为未来的研究提供了丰富的方向和灵感。就像拼图游戏最终拼出一幅完整的图像,这些研究共同推动我们朝着创建更强大、更通用的AI系统迈进。
来源:至顶网一点号