强化学习真的能让大模型获得超越基础模型的新推理能力吗?清华大学和上海交大的一项联合研究给出了一个出人意料的答案:RLVR(可验证奖励的强化学习)的潜力可能并不像之前认为的那样强大 —— 它并不能使模型解决基础模型无法解决的问题。 通过数学、代码、视觉推理三大领域的系统性实验,研究团队发现了这一出人意料的现象:引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的基座模型。论文的核心发现是:RLVR模型中的所有推理路径均已存在于基础模型中。 为找到合适的评估指标,研究团队引入pass@k:若模型在k次采样中至少生成一次正确答案,则认为其具备解决该问题的能力。实验结果一致表明:RL模型在小k时占优,然而基座模型在大k时逆袭。在数学题、代码生成和视觉推理等任务中,当采样次数增至数十或数百时,在所有基准测试和LLM模型家族中,基础模型的表现会无一例外地逐渐追平强化学习训练的模型,并最终实现反超。 困惑度分析进一步证实,RLVR训练模型生成的推理路径本就存在于基础模型的输出分布中,这意味着RLVR只是让模型更偏向高奖励解决方案,而非创造新的推理能力。然而,这种对奖励路径的聚焦削弱了模型的探索能力,限制了其在大规模采样时对可解问题的覆盖范围。 这篇工作刷新了AI圈里的「普遍认知」:此前各类基于RLVR做后训练的大模型,如OpenAI的o1、DeepSeek-R1等,在各项评测中成绩显著,似乎它就能让大模型实现「自我进化」,赋予模型超越其基座模型的能力。然而事实可能并非如此。 若将base模型比作一棵树,RLVR只能修剪枝叶使其更整齐,却无法让树长出新的枝干。该研究暗示着,可验证奖励的强化学习更像是一位精于调律的乐师,而非谱写新曲的作曲家。它能将模型已有的潜能雕琢得更加纯熟,却难以赋予其全新的能力维度。 未来的探索之路,或许更需聚焦于基础模型自身的架构革新——在知识表征的广度、认知结构的深度以及推理脉络的构建等方面潜心耕耘,而非仅仅寄望于下游策略的微调润色。基座模型的「原始智慧」很可能被低估,知识蒸馏的思路很可能有更大的用武之地。 论文:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? #AI论文#人工智能摘要:强化学习真的能让大模型获得超越基础模型的新推理能力吗?清华大学和上海交大的一项联合研究给出了一个出人意料的答案:RLVR(可验证奖励的强化学习)的潜力可能并不像之前认为的那样强大 —— 它并不能使模型解决基础模型无法解决的问题。 通过数学、代码、视觉推理三大领
来源:莱娜探长