清华团队深度实证：RL 真能让大模型进化吗？能力边界仍被基座“锁死”！

摘要：强化学习（RL）真的能让大模型获得超越基础模型的新推理能力吗？近日，清华大学LeapLab团队联合上海交大，发布了一篇题为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in

大数据文摘出品

强化学习（RL）真的能让大模型获得超越基础模型的新推理能力吗？近日，清华大学LeapLab团队联合上海交大，发布了一篇题为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新论文，给最近火热的RLVR（带可验证奖励的强化学习）又“泼了一盆冷水”。

论文地址：https://arxiv.org/pdf/2504.13837论文标题翻译过来是：强化学习（RL）真的能让大模型获得推理能力上的跃迁吗？论文结论是：RLVR提升的，其实只是采样效率，而不是让模型学会了真正全新的推理能力。换句话说：RLVR只是把基础模型本来就会的东西，采样采得更有效率了。这份研究直接打破了AI圈子里的“先验知识”，大家都觉得RLVR是让大模型变聪明的“加速器”，特别是在数学、代码等需要推理的任务上。比如OpenAI的o1、DeepSeek-R1、Kimi-1.5，都是靠RLVR后处理，成绩一骑绝尘。原理很简单：先有个基础大模型→用RLVR强化一下→通过自动判分（比如答案对不对、代码测不测得过）给奖励。理论上，它能自我提升，学到以前没见过的新解题套路。于是，这几年，大家都在说，RLVR能让大模型“自我进化”，推理能力突破天花板。清华团队的“灵魂拷问”：RLVR，真能越过基座吗？清华团队这篇论文，直接抛出了“灵魂三问”：RLVR强化训练，究竟有没有让大模型获得“超越基座模型”的全新推理能力？模型的推理边界到底被RLVR拓宽了吗？还是只是换了一种方式采样？我们是否过于高估了RLVR的“自我进化”魔力？对于上述三个问题，作者用pass@k作为研究方法的核心。因为传统的模型评测，大多用“平均准确率”或“单次采样成功率”来衡量模型能否解题。但作者敏锐地意识到，这种评估方式其实低估”了模型的潜力。原因是：有些难题，模型可能前几次都答错，但多采样几次，或许就能“撞”出正确答案。于是，论文采用了pass@k这个指标：对于每道题，采样k次，只要有一次答对，就算成功。k越大，越能“榨干”模型内在的推理极限。核心逻辑是：如果RLVR真能带来新能力，那在k再大时，它也应该比基座模型更能解出难题。实验结果有点颠覆大家认知——RLVR训练的模型，在k小的时候表现更好，但k大了以后，基础模型能超过它！也就是：RLVR训练让模型更高效采样出正确答案，但没有带来全新的推理能力，能力边界始终被基座模型“锁死”。

案例1：数学推理

以AIME24数学竞赛题为例，RLVR模型一开始比基座模型高出30%的准确率，但多采样后，基座模型最终能解出更多题目，RLVR的“能力天花板”反而更低。

案例2：代码生成

在LiveCodeBench等编程基准上，RLVR模型单采样表现亮眼，但当k采样数提升到128时，基座模型解题覆盖率反超RLVR。

案例3：视觉推理

多模态视觉推理同样复现上述现象——RLVR提升了采样效率，却没让模型产生全新的多模态推理路径。

RLVR的“聪明”，其实是把基础模型会的东西，输出概率调高了，真正的新推理路径？并没有，基础模型多采样就能覆盖所有RLVR模型能做的题甚至，RLVR还收窄了模型的探索能力——它会更集中在“能得分的套路”上，但反而失去一些“歪打正着”的能力，导致极限覆盖没基础模型广。无论是代码生成（LiveCodeBench、HumanEval+），还是视觉推理（MathVista、MathVision），趋势都是一样：RLVR提升了单次成功率，但大采样下基础模型能覆盖更多难题。为什么会这样？清华的这篇论文认为有两点原因：一是大模型的“先验”太强了。RLVR本质上是在基础模型原有输出分布里找高分的“套路”，不走新路；RL算法本身不适合探索超大动作空间（语言的组合爆炸），靠奖励信号很难跳出原有思路。二是探索能力反而被抑制。RLVR让模型更“稳”，但也更“保守”，输出熵降低，探索新解法的能力变弱。RLVR在大模型推理这件事上，和AlphaGo那种“纯RL自我进化”完全不是一回事。大模型的RLVR只是“采样分布微调”，不是“能力进化”。怎么解决？论文做了一个实验，把更强的模型的推理链条喂给小模型，小模型能真的学到新花样，推理上限突破原有格局。所以，如果真想让模型能力更进一步，靠RLVR远远不够，得靠知识蒸馏“老师带学生”那一套。即“让模型变聪明”的关键，或许在于“注入新知识”（如蒸馏），而不是单纯靠奖励强化。或者探索“更强的探索范式”，比如结合RL和生成式探索、提升模型对“低概率创新路径”的容忍度等。图源：清华大学LeapLab实验室官网

黑色小圆动图分割线