清华团队深度实证:RL 真能让大模型进化吗?能力边界仍被基座“锁死”!

360影视 欧美动漫 2025-04-23 12:01 2

摘要:强化学习(RL)真的能让大模型获得超越基础模型的新推理能力吗?近日,清华大学LeapLab团队联合上海交大,发布了一篇题为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in

大数据文摘出品

强化学习(RL)真的能让大模型获得超越基础模型的新推理能力吗?近日,清华大学LeapLab团队联合上海交大,发布了一篇题为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新论文,给最近火热的RLVR(带可验证奖励的强化学习)又“泼了一盆冷水”。论文地址:https://arxiv.org/pdf/2504.13837论文标题翻译过来是:强化学习(RL)真的能让大模型获得推理能力上的跃迁吗?论文结论是:RLVR提升的,其实只是采样效率,而不是让模型学会了真正全新的推理能力。换句话说:RLVR只是把基础模型本来就会的东西,采样采得更有效率了。这份研究直接打破了AI圈子里的“先验知识”,大家都觉得RLVR是让大模型变聪明的“加速器”,特别是在数学、代码等需要推理的任务上。比如OpenAI的o1、DeepSeek-R1、Kimi-1.5,都是靠RLVR后处理,成绩一骑绝尘。原理很简单:先有个基础大模型→用RLVR强化一下→通过自动判分(比如答案对不对、代码测不测得过)给奖励。理论上,它能自我提升,学到以前没见过的新解题套路。于是,这几年,大家都在说,RLVR能让大模型“自我进化”,推理能力突破天花板。清华团队的“灵魂拷问”:RLVR,真能越过基座吗?清华团队这篇论文,直接抛出了“灵魂三问”:RLVR强化训练,究竟有没有让大模型获得“超越基座模型”的全新推理能力?模型的推理边界到底被RLVR拓宽了吗?还是只是换了一种方式采样?我们是否过于高估了RLVR的“自我进化”魔力?对于上述三个问题,作者用pass@k作为研究方法的核心。因为传统的模型评测,大多用“平均准确率”或“单次采样成功率”来衡量模型能否解题。但作者敏锐地意识到,这种评估方式其实低估”了模型的潜力。原因是:有些难题,模型可能前几次都答错,但多采样几次,或许就能“撞”出正确答案。于是,论文采用了pass@k这个指标:对于每道题,采样k次,只要有一次答对,就算成功。k越大,越能“榨干”模型内在的推理极限。核心逻辑是:如果RLVR真能带来新能力,那在k再大时,它也应该比基座模型更能解出难题。实验结果有点颠覆大家认知——RLVR训练的模型,在k小的时候表现更好,但k大了以后,基础模型能超过它!也就是:RLVR训练让模型更高效采样出正确答案,但没有带来全新的推理能力,能力边界始终被基座模型“锁死”。

案例1:数学推理

以AIME24数学竞赛题为例,RLVR模型一开始比基座模型高出30%的准确率,但多采样后,基座模型最终能解出更多题目,RLVR的“能力天花板”反而更低。

案例2:代码生成

在LiveCodeBench等编程基准上,RLVR模型单采样表现亮眼,但当k采样数提升到128时,基座模型解题覆盖率反超RLVR。

案例3:视觉推理

多模态视觉推理同样复现上述现象——RLVR提升了采样效率,却没让模型产生全新的多模态推理路径。

RLVR的“聪明”,其实是把基础模型会的东西,输出概率调高了,真正的新推理路径?并没有,基础模型多采样就能覆盖所有RLVR模型能做的题甚至,RLVR还收窄了模型的探索能力——它会更集中在“能得分的套路”上,但反而失去一些“歪打正着”的能力,导致极限覆盖没基础模型广。无论是代码生成(LiveCodeBench、HumanEval+),还是视觉推理(MathVista、MathVision),趋势都是一样:RLVR提升了单次成功率,但大采样下基础模型能覆盖更多难题。为什么会这样?清华的这篇论文认为有两点原因:一是大模型的“先验”太强了。RLVR本质上是在基础模型原有输出分布里找高分的“套路”,不走新路;RL算法本身不适合探索超大动作空间(语言的组合爆炸),靠奖励信号很难跳出原有思路。二是探索能力反而被抑制。RLVR让模型更“稳”,但也更“保守”,输出熵降低,探索新解法的能力变弱。RLVR在大模型推理这件事上,和AlphaGo那种“纯RL自我进化”完全不是一回事。大模型的RLVR只是“采样分布微调”,不是“能力进化”。怎么解决?论文做了一个实验,把更强的模型的推理链条喂给小模型,小模型能真的学到新花样,推理上限突破原有格局。所以,如果真想让模型能力更进一步,靠RLVR远远不够,得靠知识蒸馏“老师带学生”那一套。即“让模型变聪明”的关键,或许在于“注入新知识”(如蒸馏),而不是单纯靠奖励强化。或者探索“更强的探索范式”,比如结合RL和生成式探索、提升模型对“低概率创新路径”的容忍度等。图源:清华大学LeapLab实验室官网

GPU算力按需租用A100/H100 GPU算力按需租用,秒级计费,平均节省开支30%以上!

来源:大数据文摘

相关推荐