持久强化学习:NVIDIA研究团队解锁新型推理能力

360影视 动漫周边 2025-06-04 16:47 2

摘要:NVIDIA研究团队的Mingjie Liu、Shizhe Diao、Ximing Lu、Jian Hu、Xin Dong、Yejin Choi、Jan Kautz和Yi Dong在2025年5月30日发表了一篇名为《ProRL: Prolonged Rein

NVIDIA研究团队的Mingjie Liu、Shizhe Diao、Ximing Lu、Jian Hu、Xin Dong、Yejin Choi、Jan Kautz和Yi Dong在2025年5月30日发表了一篇名为《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》的研究论文。这项研究成果已上传至arXiv预印本平台(arXiv:2505.24864v1),并且研究团队已经开源了他们训练的模型,有兴趣的读者可以通过https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B获取。

强化学习是否真能提升语言模型的推理能力?一场学术争论的起源

想象一下:你有一个聪明的助手,他能解决一些复杂问题,但总有些难题让他犯难。你可以通过不断指导和反馈来帮助他进步,但问题是——他真的能学会解决那些原本完全无法应对的难题吗?还是说,他只是变得更擅长解决那些本来就勉强能做的问题?

这个问题映射到人工智能领域,就变成了一个热烈争论的话题:强化学习(RL)到底能不能让大语言模型(LLM)获得新的推理能力?还是说,它只是让模型更有效地利用已有的能力?

近年来,像OpenAI的O1和DeepSeek的R1这样的推理型语言模型通过增加测试时的计算量——比如生成更长的思考链(Chain-of-Thought)和回溯修正——在数学问题解决和代码生成等复杂任务上取得了显著进步。而强化学习已成为培养这些复杂推理能力的关键工具。

然而,一些研究人员对此提出质疑。他们认为,强化学习并没有真正教会模型新的推理技巧,而只是提高了模型从已有能力中抽取正确答案的效率。想象成这样:如果一个学生本来就知道100道题的答案,强化学习可能帮助他更快找到正确答案,但不会教他解决第101道全新类型的题目。

NVIDIA的研究团队不认同这一观点。他们认为,先前的研究之所以得出这样的结论,主要是因为两个限制:一是过度关注特定领域(如数学),这些领域的模型在预训练和后训练阶段已经接触了大量相关内容;二是强化学习训练时间太短,通常不超过几百步,没有给模型足够的时间去探索和发展新的推理能力。

持久强化学习:给模型足够的学习时间

为了验证他们的假设,NVIDIA团队提出了一种名为"持久强化学习"(ProRL)的方法。这就像是给学生提供长期、持续的训练,而不只是短期突击。具体来说,他们的方法包含几个关键创新:

首先,他们显著延长了强化学习的训练时间,从通常的几百步增加到超过2000步。这就像是把短期冲刺训练变成了马拉松式的长期培训,让模型有足够的时间探索和掌握新的解题策略。

其次,他们使用了多样化的训练数据,不仅包括传统的数学和编程问题,还添加了STEM科学推理、逻辑谜题和指令遵循等各种任务类型。这相当于让学生不只学习一门学科,而是接触多种知识领域,培养更全面的思维能力。

第三,他们引入了KL散度控制机制。这有点像给学生设定学习界限——既鼓励他探索新方法,又不让他完全抛弃已学的基础知识。在技术上,这防止了模型输出分布的"熵崩塌"问题,也就是说,防止模型过早地固化在某些特定的解题模式上,失去继续探索的能力。

最后,他们采用了参考策略重置技术。想象一个长跑运动员需要定期补充能量,这项技术就像是让模型在长期训练过程中定期"补充能量",避免训练效果停滞不前。当模型学习曲线趋于平稳时,研究人员会重置参考策略和优化器状态,让模型能够继续有效学习。

通过这些方法,研究团队开发出了名为Nemotron-Research-Reasoning-Qwen-1.5B的模型,这是当前最先进的1.5B参数推理模型。值得注意的是,尽管这个模型参数量不大,但其性能超越了同样参数量的DeepSeek-R1-1.5B基础模型,甚至在多个任务上匹配或超过了更大的DeepSeek-R1-7B模型。

突破性成果:小模型也能获得强大推理能力

那么,持久强化学习的效果如何呢?研究团队的实验结果令人印象深刻。

首先,在数学基准测试上,Nemotron-Research-Reasoning-Qwen-1.5B模型比基础模型平均提高了14.7%的pass@1分数(一次尝试就得到正确答案的比例)。在编程方面,提升了13.9%。在逻辑谜题上,惊人地提高了54.8%。在STEM推理任务上,提升了25.1%。在指令遵循任务上,提高了18.1%。

更重要的是,研究团队发现,随着训练步数的增加,模型的性能持续提升,并没有出现早期饱和现象。这表明,强化学习的确可以随着计算资源的增加而不断提升模型能力,就像持续练习可以不断提高人类的技能一样。

也许最有说服力的证据是,研究人员发现一些任务上,基础模型无论尝试多少次都无法解决(pass@k为0,k代表尝试次数),而经过ProRL训练的模型却能达到100%的通过率。这就像是一个学生原本完全不会某类型的题目,经过特殊训练后却能够熟练掌握。

研究人员还分析了模型解题过程的创新性。他们使用"创造力指数"(Creativity Index)来衡量模型输出与预训练语料库的重叠程度。结果表明,经过持久强化学习训练的模型生成的解题路径具有更高的创新性,这意味着模型确实学会了新的解题策略,而不仅仅是重复预训练中看到的模式。

越是挑战,提升越大:模型能力扩展的规律

研究团队进一步分析发现,强化学习对模型能力的提升遵循一个有趣的规律:基础模型表现越弱的任务,通过ProRL获得的提升就越大。

想象一个学生在不同科目上的表现:数学很擅长(90分),物理一般(70分),化学很差(40分)。如果给这个学生提供全面的辅导,他在化学上的进步可能会最显著,因为这里有最大的提升空间。

研究结果也证实了这一点。在那些基础模型已经表现不错的任务上(如某些数学问题),ProRL的提升相对较小;而在基础模型原本表现很差的任务上(如某些逻辑谜题),ProRL带来的改进则非常显著。研究人员将任务分为三类:

1. 边界缩小型任务:在这些任务上,模型的pass@1(一次尝试正确率)提高了,但pass@128(尝试128次的正确率)反而下降或持平。这通常发生在基础模型已经很擅长的任务上,相当于模型变得更"自信"但不一定更"聪明"。

2. 边界平稳型任务:在这些任务上,模型在早期训练阶段就实现了pass@1和pass@128的显著提升,但后续训练效果增长不明显。这意味着模型很快就掌握了解决这类问题的能力,额外的训练帮助有限。

3. 边界持续扩展型任务:最有趣的是这类任务,模型的推理能力随着ProRL训练的持续进行而不断提升。这表明长期的强化学习确实能够帮助模型持续发展新的解题能力。

超越训练范围:模型的泛化能力

研究团队还测试了模型在处理分布外任务和增加难度任务时的表现。

分布外任务是指模型在训练中从未见过的全新类型问题。研究人员使用了名为"boxnet"的任务,这是一个在训练中完全没有出现过的推理谜题。结果显示,基础模型完全无法解决这个任务(pass@k为0),而ProRL训练的模型却能够很好地应对,表明模型确实学会了可泛化的抽象推理模式。

对于难度增加的任务,研究人员测试了"graph_color"(图着色)问题,通过增加图中节点数量来提高难度。虽然模型只在含有10个节点的图上训练,但测试时使用了更多节点的图。结果表明,随着难度增加,所有模型的表现都会下降,但ProRL训练的模型在各种难度级别上都保持了明显的优势,表明它学到的能力具有很好的可扩展性。

持久强化学习的实用价值与挑战

NVIDIA团队的研究不仅在学术上具有重要意义,也有巨大的实用价值。

首先,这项研究证明,即使是相对小型的模型(1.5B参数),通过适当的训练方法也能获得强大的推理能力。这对于资源有限的研究者和组织来说是个好消息,因为他们可以用更少的计算资源获得优秀的模型。

其次,研究表明,强化学习可以帮助模型在没有额外训练数据的情况下提升能力。这在数据获取困难的情况下尤其有价值。

然而,持久强化学习也面临一些挑战。首先是计算资源需求大。ProRL方法需要长时间训练,这对于小型组织或研究者可能是一个障碍。其次是可扩展性问题。虽然研究证明了1.5B参数模型的有效性,但尚不清楚这种方法是否同样适用于更大规模的模型。第三是训练过程的复杂性。需要定期重置参考策略和优化器参数以保持训练稳定性,这增加了训练过程的复杂度。

尽管如此,ProRL方法提供的强大推理能力提升仍然使得这些挑战值得克服。正如研究人员所说,持久强化学习真正打开了扩展语言模型推理边界的大门。

结论:耐心的训练带来智能的飞跃

回到我们开始的比喻:如果一个学生在特定领域表现不佳,是否意味着他永远无法掌握这个领域的知识?NVIDIA的研究告诉我们,答案是否定的。只要给予足够的时间和适当的训练方法,即使是能力有限的模型也能在原本薄弱的领域取得显著进步。

这项研究的核心发现是,强化学习不仅能提高模型利用现有知识的效率,还能真正帮助模型探索和发现全新的解题策略。关键在于给模型足够的学习时间(持久强化学习),提供多样化的任务(跨领域训练),以及使用合适的学习控制机制(KL散度控制和参考策略重置)。

对于人工智能研究社区来说,这项工作挑战了之前关于强化学习局限性的假设,为未来更强大、更通用的推理模型的发展提供了新方向。对于普通用户来说,这意味着我们可能很快就能看到更小、更高效但同时也更聪明的AI系统,它们能够处理各种复杂的推理任务,从数学问题到编程挑战,再到科学推理和逻辑谜题。

如果这项研究让你感兴趣,不妨访问研究团队的GitHub页面或Hugging Face模型库,亲自尝试一下Nemotron-Research-Reasoning-Qwen-1.5B模型的能力。正如研究者们展示的那样,有时候,耐心的训练比模型的原始能力更重要,这不仅适用于AI,也许对我们人类自身的学习也是一种启示。

来源:至顶网一点号

相关推荐