摘要:DeepSeek-R1如同一颗重磅炸弹在全球引起了强烈的反响,,DeepSeek贡献的不仅仅是开源推理模型,同时它的论文如同AI大模型领域的一颗璀璨的宝石,吸引了很多业界大咖的关注,是什么引发AI领域强烈反响?我们有幸通过DeepSeek-R1的论文得到了一些
DeepSeek-R1如同一颗重磅炸弹在全球引起了强烈的反响,,DeepSeek贡献的不仅仅是开源推理模型,同时它的论文如同AI大模型领域的一颗璀璨的宝石,吸引了很多业界大咖的关注,是什么引发AI领域强烈反响?我们有幸通过DeepSeek-R1的论文得到了一些启发,这篇论文详细阐述了使用大规模强化学习RL技术训练此类模型的方案。
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
翻译:《DeepSeek-R1:通过强化学习激励大型语言模型的推理能力》
先简单回顾一下大模型的训练过程,大模型的训练通常分为三个阶段:
1. 预训练:在这个阶段,大模型通过大量的文本和代码进行预训练,以学习通用知识。这一步骤帮助模型熟练掌握预测序列中的下一个词(token)。例如,给定输入“写一个童话_”,模型可以合理地补全为“故事”。然而,预训练后,模型仍然难以遵循人类指令。下一阶段将解决这一问题。
2. 监督微调:在这个阶段,模型在指令数据集上进行微调。数据集中的每个样本由“指令Q-响应A”对组成,其中响应被用作标签。经过此阶段后,模型在遵循指令方面表现更好。
3. 强化学习:大模型通过反馈进一步改进。一种强大的方法是基于人类反馈的强化学习(RLHF),即根据人类反馈训练模型。然而,收集大规模、高质量的人类反馈,尤其是针对复杂任务,具有挑战性。因此,另一种常见方法是基于AI反馈的强化学习(RLAIF),即由AI模型提供反馈。为了使RLAIF有效,需要一个能力极强的模型来提供准确的反馈。
RLHF:Reinforcement learning from human feedback
RLAIF:Reinforcement Learning from AI Feedback
从DeepSeek-R1-Zero 模型说起
DeepSeek在训练 DeepSeek-R1-Zero 时,仅使用强化学习进行后期训练,跳过了监督微调阶段。
为了训练DeepSeek-R1-Zero,从拥有6710亿参数的预训练模型DeepSeek-V3-Base开始,监督微调阶段被完全省略。为了大规模运行强化学习,没有使用标准的人类或AI反馈强化学习,而是采用了一种基于规则的强化学习方法。
基于规则的强化学习Rule-based Reinforcement Learning
DeepSeek使用的独创的强化学习方法被称为组相对策略优化(GRPO,Group Relative Policy Optimization )。一个问题和一个待训练的模型,把输入问题给到模型,并采样一组输出。每个输出包含一个推理过程和一个答案。GRPO方法观察这些采样输出,并为每个输出计算奖励得分训练模型生成优选的选择,根据预定义规则:
准确性:一组规则计算准确性奖励。例如,在具有确定性结果的数学问题中,我们可以可靠地检查模型提供的最终答案是否正确。对于具有预定义测试用例的代码问题,编译器会根据测试用例生成反馈。
格式:另一类规则创建格式奖励。在论文的下图中,我们可以看到模型被提示如何输出,推理过程放在“”标签内,答案放在“”标签内。格式奖励确保模型遵循这种格式。
这种基于规则的机制不使用神经网络模型生成奖励,简化并降低了训练过程的成本,使训练能够大规模进行。此外,研究人员发现,奖励模型可能会受到奖励攻击的影响,即模型发现一种漏洞或意外方式来最大化奖励,引发与预期目标不符。
DeepSeek-R1-Zero 性能洞察
下图是论文中DeepSeek-R1-Zero 与 OpenAI o1 的性能对比
在上面的论文表格中,我们看到了DeepSeek-R1-Zero与OpenAI的o1在推理相关基准测试中的对比。简直不可思议,DeepSeek-R1-Zero与o1相当,甚至在某些情况下超越了o1。下图展示了模型在AIME数据集上的训练进展。值得注意的是,AIME上的平均pass@1分数显著增加,从最初的15.6%跃升至令人印象深刻的71.0%,达到了与OpenAI的o1相当的水平!
AIME(Advanced Inference and Mathematical Evaluation)是一个用于评估模型推理和数学能力的基准数据集。它包含复杂的数学问题和推理任务,要求模型不仅能够生成答案,还需要展示详细的推理过程。
AIME 数据集被广泛用于评估LLM在复杂任务上的表现,尤其是在数学推理和逻辑推理领域。通过AIME,研究人员可以评估模型的多步推理能力、问题分解能力以及最终答案的准确性。
pass@1:
表示模型生成的第一响应的准确率。这是评估模型性能的常用指标,反映了模型在单次生成中的表现。
DeepSeek-R1-Zero 的自进化过程Self-evolution Process
自进化是指模型在训练过程中通过强化学习(RL)自主提升其推理能力的过程。DeepSeek-R1-Zero 的自进化过程展示了模型如何在没有外部干预的情况下,逐步优化其推理策略和响应生成能力。通过强化学习,模型自然地学会了在解决推理任务时分配更多的思考时间。令人惊讶的是,这一过程无需任何外部调整。
图片中的纵轴表示模型生成响应的平均长度(以token数量衡量)。响应长度的增加反映了模型在推理任务中分配更多“思考时间”的能力。
更长的响应通常意味着模型进行了更深入的推理和更详细的解释。
随着训练的进行,模型逐渐学会生成更长的响应,以解决更复杂的任务。
论文中的一个关键洞察是模型的自进化过程,如上图所示。x轴表示训练步数,即模型在训练过程中经历的迭代次数。随着训练步骤的增加,模型的响应长度逐步增加,表明模型在推理任务中分配了更多的计算资源,y轴表示响应长度,随着训练的进行,模型的响应长度增加。可以看出,DeepSeek-R1-Zero的响应长度随着训练步骤的增加显著增加。表现为:
初始阶段:响应长度较短,表明模型尚未掌握复杂的推理任务。
中期阶段:响应长度逐步增加,表明模型通过强化学习优化了推理能力。
最终阶段:响应长度达到较高水平,表明模型能够生成详细的推理过程,解决复杂的任务。
这些数据证实了自进化的关键特点:
自主性:模型的改进是内在的,而非通过外部调整或监督微调实现。
复杂性处理:随着训练的进行,模型能够处理越来越复杂的推理任务。
行为涌现:模型在训练过程中自发地展现出复杂行为,如反思(reflection)和探索替代解决方案。
顿悟时刻(Aha Moment)现象
论文中还提到一个非常有趣的现象,称为DeepSeek-R1-Zero的“顿悟时刻”。
顿悟时刻是指模型在解决复杂问题时,突然意识到需要重新评估和修正其初始方法的关键时刻。这种行为类似于人类在解决问题时的“灵光一现”。
在DeepSeek-R1-Zero中的表现:
模型在解决方程 反思和重新推理,逐步优化其解决方案,展现出类似人类的复杂推理能力。
在这里说一下反思(Reflection),这个问题有不少朋友问过我“大模型的反思是不是与人类一样?”
在人工智能领域,模型的“反思”(Reflection)与人类的反思虽然表面上都涉及对自身推理过程的重新评估,但其本质机制、驱动因素和表现形式还是很大差异的。DeepSeek-R1-Zero的“反思”仍是基于规则和数据的计算优化,是指模型在生成响应过程中重新评估和修正其推理步骤的能力。这种行为使模型能够发现并纠正错误,从而提高推理的准确性。在DeepSeek-R1-Zero中,模型在解决方程时,最初的方法导致了一个复杂的多项式方程,但在某一刻意识到需要重新评估其方法。
人类的反思是主动的、有意识的心理活动,涉及对自身思考过程的觉察和批判性分析。反思常伴随情感因素(如挫败感、好奇心),驱动个体调整策略。模型的“反思”是通过算法(如强化学习)自动触发的,没有自我意识。人类通过积累经验调整认知框架,神经网络的物理结构(突触连接)随学习动态变化。模型的调整依赖训练数据分布和预设的优化目标(如GRPO中的规则)。
接下来,问题又来了:DeepSeek-R1-Zero这么强,为什么我们还需要为什么需要 DeepSeek-R1?
尽管 DeepSeek-R1-Zero 在推理能力上表现出色,但其在 可读性 和语言一致性方面的缺陷限制了实际应用场景的拓展。
一、可读性问题
由于DeepSeek-R1-Zero 采用基于规则的强化学习(GRPO)的奖励函数主要关注 答案准确性和格式正确性,未直接优化文本可读性。例如,在数学问题中,模型可能因过度追求答案正确性而忽略推理步骤的清晰表达。另外,基础模型(DeepSeek-V3-Base)的预训练数据可能包含大量非结构化文本(如论坛讨论、多语言混合内容),导致模型生成时倾向于模仿此类风格。
因带来了以下问题:文本结构松散,生成的响应可能包含冗余步骤或不必要的细节,例如重复推导同一公式;逻辑连贯性不足,推理链可能断裂,导致用户难以追踪模型思路(如突然切换解题方法);符号与自然语言混杂:在数学或代码生成任务中,符号与自然语言未合理分隔,降低可读性。
二、语言一致性问题
DeepSeek-V3-Base 的预训练数据可能包含多语言平行语料,导致模型隐式学习到语言混合模式。GRPO 的规则未明确限制语言选择,模型可能通过混合语言最大化奖励(如使用英文术语提高代码生成准确性)。例如,在中文输入下生成包含英文术语或代码片段的混合文本(如:“这个方程的 solution 是 x=1”)。在多轮对话中,模型可能无征兆切换语言(如用户用中文提问,模型部分用英文回答)。
这些问题使得DeepSeek-R1-Zero对用户不够友好。有趣的是,一项研究表明,引导模型使用单一语言会略微损害其性能。令人着迷的是,大语言模型通过使用多种语言学会了更好地表达自己,而人类通常只使用一种语言。
DeepSeek-R1 的训练流程
DeepSeek-R1训练流程分为四个阶段。
阶段1:冷启动(Cold Start)
解决可读性问题,从 DeepSeek-R1-Zero 的输出中筛选出高可读性、高准确性的样本(数构成冷启动数据集。通过小规模高质量监督微调(SFT),改善预训练模型(DeepSeek-V3-Base)的初始生成质量。在这个小型高质量数据集上加入监督微调阶段有助于 DeepSeek-R1 缓解在初始模型中观察到的可读性问题。
目标是增强推理能力,通过强化学习(RL)优化模型在数学、代码、科学和逻辑推理任务中的表现。针对明确答案的任务(如数学问题),设计基于规则的奖励函数(如答案正确性、步骤完整性)。例如,在数学任务中,若模型生成答案正确且包含完整推导步骤,则给予高奖励值。
GRPO(组相对策略优化):DeepSeek 自研的强化学习算法,通过采样多组响应并基于规则计算奖励,驱动模型偏好高质量输出。
聚焦于封闭式问题(如代码生成、方程求解),因其奖励规则易于定义。
阶段3:拒绝采样与监督微调(Rejection Sampling SFT)
目标是扩展通用能力,通过筛选高质量样本并混合多领域数据,提升模型在非推理任务(如对话、摘要)中的表现。
拒绝采样Rejection Sampling从阶段2的模型生成大量候选响应,仅保留符合以下条件的样本:
正确性:答案通过自动化测试(如代码编译通过、数学答案匹配标准解)。
可读性:由生成奖励模型(DeepSeek-V3)评分高于阈值。
在监督微调阶段,同时使用推理任务样本和通用任务样本(如对话、文本生成),增强模型的多任务适应性。
阶段4:多样化强化学习(Diverse RL)
这个阶段的目标是对齐人类偏好,在开放域任务(如创意写作、多轮对话)中,使模型输出符合人类价值观和场景需求。
针对封闭式任务(如数学),继续使用阶段2的规则奖励。针对开放式任务(如故事生成),使用另一个大模型(如Claude、GPT)评估生成文本的流畅性、创造性和价值观对齐性。
蒸馏小型模型,利用阶段3构建的高质量数据集,训练轻量级模型(如7B参数版本),使其在资源受限场景(如移动端)中仍具备高推理能力。
总结与启发
DeepSeek-R1 的训练流程体现了 “垂直能力强化”与“横向场景扩展”的协同优化,垂直能力:通过推理RL和规则奖励,在数学、代码等任务中达到甚至超越闭源模型(如GPT-4)的性能。横向扩展:借助混合数据训练和多样化RL,使模型适应教育、创意写作、专业咨询等多元场景。
通过论文的学习,让我们对DeepSeek-R1 核心创新点有了更深刻的理解:
分阶段渐进优化:通过冷启动解决可读性、推理RL提升核心能力、拒绝采样扩展通用性、多样化RL对齐人类偏好,实现性能与用户体验的平衡。
混合奖励设计:结合规则奖励(高确定性)与LLM反馈奖励(高灵活性),兼顾封闭式与开放式任务需求。
轻量级模型蒸馏:通过高质量数据集生成小型高能模型,推动LLM在边缘计算场景的落地。
通过蒸馏(Distillation)将大型模型(如DeepSeek-R1)的知识迁移到较小模型(如Qwen2.5–32B),比直接在小型模型上应用强化学习(RL)更高效且效果更优。换句话说,为了改进较小、较弱的模型,你不应该采用与构建较大模型相同的方法,而应该使用较大的模型作为老师。
总之,这是 优秀的基础模型 + 强化学习+ 蒸馏 的胜利!
虽然提炼策略既经济又有效,但超越智能的界限可能仍然需要更强大的基础模型和更大规模的强化学习。
带来的成果:DeepSeek-R1 成绩卓越
感谢DeepSeek的开源精神和论文中的所有研究人员。
由于作者水平有限,论文的分析和画的图难免有不正确不准确之处,欢迎各位批评指正。
祝DeepSeek和中国AI越来越好!
来源:opendotnet