万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

360影视 国产动漫 2025-03-10 11:02 2

摘要:在 DeepSeek 能够破圈而出的一众原因中,完全摒弃传统的监督微调(SFT)、转而采用大规模强化学习(RL)的创新之处是关键所在,这使得模型推理能力在质上取得显著突破,更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。

作者:王悦

编辑:陈彩娴

Transformer架构的非递归设计阻碍了跨层的记忆共享,或限制模型泛化能力。

在 DeepSeek 能够破圈而出的一众原因中,完全摒弃传统的监督微调(SFT)、转而采用大规模强化学习(RL)的创新之处是关键所在,这使得模型推理能力在质上取得显著突破,更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。

近几年,学界和业界关于 RL 和 LLM 也涌现出了颇多具备开创性意义的研究成果。在 AI 智能体推理与决策研讨会(AIR 2025)上,来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华为等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论,回答了诸多问题,例如:

AI 系统如何模拟类人推理和决策过程?

最新的算法、框架和工具如何支持在不确定性下进行稳健的决策?

如何确保 AI 的决策过程是道德的、透明的且公正的?

……

从一系列前沿的推理决策研究中,可以看到 DeepSeek 的影子。2023 年,来自华盛顿大学的 Hanna Hajishirai 教授团队发布了一项关于大语言模型推理的开放训练方法的工作,研究强调,为了从预训练模型发展到最终模型,需要经历了三个阶段:指令微调、偏好微调以及具有可验证奖励的强化学习。而这一方法也是 DeepSeek 所采用的推理开放训练方法。

Meta GenAI 的田渊栋教授系统总结了当下应对大语言模型局限的解决方式,除了 Scaling Law 之外还有Test-time Scaling(测试时扩展),即使用更大的模型加工具或思维链,使用不同的策略,最终可能会找到一个比单纯的大型模型更好的解决方案。田渊栋教授也分享了通过使用梯度上升(gradient ascent)对神经网络进行训练的方式,从而试图将符号结构与神经网络表示统一起来,但这一方法还处于非常初级的阶段,并不确定未来是否能成为主流。

俄亥俄州立大学的 Huan Sun 教授从隐式推理出发,探讨了数据集中的两种事实:原子事实与推断事实,并提出了一个与主流不相同的研究发现:泛化速度与绝对数据量并没有关系,而是与关键数据分布、特别是推断事实与原子事实的比例密切相关,且比例越高,泛化速度就越快。

同时,也有研究围绕 AI for Math 这一主流的推理能力应用领域。普林斯顿大学的金驰教授团队开发了Goedel-Prover 这一开源的大模型,通过将自然语言数学问题翻译成形式语言(如Lean 4),并生成形式化证明,从而解决形式化数学陈述和证明稀缺的问题,这一模型在自动定理证明方面达到了当前世界范围内的最佳性能水平。

更有实用性较强的 AI 智能体研究。卡内基梅隆大学的 Graham Neubig 教授团队提出了一个混合 Agents 方案,这种 Agents 能够交替执行浏览和 API 调用操作,并且在每一步中,它会选择与人类沟通、生成自然语言、执行Python代码(包括API调用)以及执行网页浏览操作。

AIR2025 由伦敦大学学院汪军、Meta GenAI 田渊栋等教授联合主办,致力于推动智能系统的发展,使其能够自主、适应性强且负责任地运行(会议详情及注册可访问官网:https://ai-agent-reasoning.com)。本次会议特别鸣谢来自加州大学伯克利分校的博士后研究员顾尚定。

这是一篇围绕 DeepSeek 的过去、当下与未来所展开的对人工智能的精彩讨论。AI 科技评论截取会议部分精彩内进行编译,以下为核心内容的演讲实录:

1 DeepSeek 的语言模型推理开放训练方法

华盛顿大学的 Hanna Hajishirai 教授做了主题为“Open Training Recipes for Reasoning in Language Models”的演讲,探讨了语言模型推理的开放训练方法。

为了从预训练模型发展到最终模型,我们经历了三个阶段:指令微调、偏好微调以及具有可验证奖励的强化学习。这是我们 2023 年论文中引入的新内容。这基本上也是 DeepSeek 所采用的方法,后来我们发现 DeepSeek 也引入了同样的方法。

我们先来谈谈指令微调。指令微调中,人们也把它称为 SFT,即监督式微调。其核心思想是,你拿一个预训练的语言模型,然后向模型输入各种不同类型的任务指令,接着对模型进行微调,教会它如何遵循这些指令。

我们团队在这个方向上已经投入了很长时间。我们在 2022 年开始专注于语言模型的指令微调,当时主要关注的是自然语言处理(NLP)标签等语言测试。

2023 年,我们引入了一个自我指导框架(self-instruct framework),在这个框架下,我们教会模型合成生成越来越多的数据,以便我们能够获得更好的、更多的数据用于监督式微调。

这种范式在 2023 年得到了广泛的关注,我们看到在工业界和学术界都有很多工作基于自我指导框架展开,并设计了像 Alpaca、Vicuna 等模型。这些模型都大量使用了合成生成的指令数据进行训练。

下一步就是在监督式微调中进行偏好微调。这里有一个非常重要的步骤,就是数据整理。这和我刚才提到的合成数据生成是一样的,但同时也是一个很好的数据混合设置,因为当我们关注一组任务和我们试图优化的目标技能时,当我们增加一组任务的提示和完成内容时,我们可能会在其他组上失去准确性和改进。

比如,如果你在监督式微调中添加了大量数学提示和数学类型的数据,你可能会在知识回忆方面表现下降,因为你总是希望生成越来越长的思考链。所以,数据混合是构建一个好的微调模型中非常重要的一步。

刚才我们一直在讲数据,但现在我想聚焦于什么样的数据才真正有助于推理。这里所说的“推理”,举个例子,比如一个数学问题:一家商店正在进行衬衫促销,每件衬衫售价 25 美元,现在我们想买 7 件衬衫,总共要花多少钱?我们可以很容易地标注出答案是 125 美元,但仅仅用这种问题和金额答案作为监督式微调数据是不够的。

大家已经认识到,真正重要的是处理这种逐步推理的输出,它能一步步告诉我们发生了什么。这种数据可以成为监督式微调的优质来源。

这其实并不是一个新想法,它在自然语言处理(NLP)领域的语义解析、语义理解和推理方面已经被研究很久了。但现在它又在语言模型中重新受到关注,因为如今我们可以处理这种既包含语言又包含形式化表达的推理链。

在早期的研究中,我们只能依赖于形式化的推理图或推理思路。但现在面临的巨大挑战是:

这种逐步推理的标注虽然很好,能够帮助模型处理复杂的多步骤问题,也能揭示模型在预训练过程中所获得的推理过程,甚至因为有了这些标注,我们还能发现推理链中间可能出现的错误,比如答案是125,但推理过程中可能有错误,这有点类似于人类的思维过程。标注这种类型的推理提示非常困难。它成本高昂、耗时费力,而且不够多样化。

我们的方法是做混合数据策划,即:查看现有的资源,然后将其与合成数据生成相结合。事实上,我们采用了这篇非常有趣的论文中介绍的方法,用于合成地生成数据,但针对不同的用户角色。这为什么重要呢?因为它增加了生成提示的多样性。而且,它还使我们能够不断扩大这种思维链条以及这种很难收集的推理数据的规模。

论文链接:https://arxiv.org/abs/2406.20094

这是如何运作的呢?我们会给模型设定不同的用户角色,比如“这是一个化学动力学研究人员”,然后让模型以这个角色生成数据和数学问题。接下来,我们再给它设定一个不同的角色,让它

来源:人工智能学家

相关推荐