摘要:近年来,大型语言模型 (Large Language Models, LLMs) 正经历着快速的迭代与演进 (Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐步缩小与通用人工智能 (Artificial Gener
引言
1.1 贡献
1.2 评估结果摘要
方法
2.1 概述
2.2 DeepSeek-R1-Zero:基于基础模型的强化学习
2.2.1 强化学习算法
2.2.2 奖励建模
2.2.3 训练模板
2.2.4 DeepSeek-R1-Zero的性能、自进化过程与顿悟时刻
2.3 DeepSeek-R1:基于冷启动的强化学习
2.3.1 冷启动
2.3.2 面向推理的强化学习
2.3.3 拒绝采样与监督微调
2.3.4 全场景强化学习
2.4 蒸馏:为小模型赋能推理能力
实验
3.1 DeepSeek-R1评估
3.2 蒸馏模型评估
讨论
4.1 蒸馏 vs. 强化学习
4.2 失败的尝试
结论、局限性与未来工作附录A 贡献与致谢
近年来,大型语言模型 (Large Language Models, LLMs) 正经历着快速的迭代与演进 (Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐步缩小与通用人工智能 (Artificial General Intelligence, AGI) 之间的差距。
最近,后训练 (post-training) 已成为完整训练流程中的重要组成部分。研究表明,这一阶段能够在推理任务上提升模型准确性,使其符合社会价值观并适应用户偏好,同时所需的计算资源相较于预训练 (pre-training) 较少。在推理能力的研究背景下,OpenAI 的 o1 系列 (OpenAI, 2024b) 模型率先通过扩展推理链 (Chain of Thought, CoT) 的长度引入了推断时 (inference-time) 扩展技术。这一方法在诸如数学、编程、科学推理等任务上取得了显著进展。然而,有效的测试时扩展 (test-time scaling) 依然是研究界尚未解决的开放性问题。
一些先前的研究探索了不同的解决方案,包括基于过程的奖励模型 (process-based reward models) (Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023)、强化学习 (Kumar et al., 2024) 以及搜索算法,如蒙特卡罗树搜索 (Monte Carlo Tree Search) 和束搜索 (Beam Search) (Feng et al., 2024; Trinh et al., 2024; Xin et al., 2024)。然而,这些方法都未能达到与 OpenAI 的 o1 系列模型在通用推理能力上的同等水平。
在本研究中,我们首次尝试使用纯强化学习 (Reinforcement Learning, RL) 来提升语言模型的推理能力。我们的目标是探索 LLM 在没有任何监督数据的情况下开发推理能力的潜力,重点关注其通过纯 RL 流程实现的自我演化 (self-evolution)。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO (Shao et al., 2024) 强化学习框架来提升模型在推理任务中的性能。
在训练过程中,DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。经过数千步强化学习后,DeepSeek-R1-Zero 在推理基准测试中的表现大幅提升。例如,在 AIME 2024 基准测试中,其 pass@1 得分从 15.6% 提升至 71.0%,并在使用多数投票法后进一步提升至 86.7%,达到 OpenAI-o1-0912 的性能水平。
然而,DeepSeek-R1-Zero 也面临着可读性差和语言混杂等问题。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1。该模型在强化学习之前加入了少量冷启动数据 (cold-start data) 和多阶段训练管道。具体而言,我们首先收集了数千条冷启动数据对 DeepSeek-V3-Base 模型进行微调,随后与 DeepSeek-R1-Zero 类似,执行以推理为导向的强化学习。在强化学习过程接近收敛时,我们通过在 RL 检查点 (checkpoint) 上进行拒绝采样 (rejection sampling),结合 DeepSeek-V3 的监督数据(包括写作、事实问答、以及自我认知等领域),生成新的监督微调 (SFT) 数据并重新训练模型。在微调完成后,该检查点继续进行强化学习,以涵盖所有场景的提示 (prompt)。经过这些步骤后,我们得到了名为 DeepSeek-R1 的检查点,其在推理任务上的表现与 OpenAI-o1-1217 相当。
我们进一步探索了将 DeepSeek-R1 的能力蒸馏 (distillation) 到小型密集模型 (dense models) 的可能性。以 Qwen2.5-32B (Qwen, 2024b) 作为基础模型,直接从 DeepSeek-R1 进行蒸馏的效果优于在该模型上应用强化学习的结果。这表明,大型基础模型中发现的推理模式对于提升推理能力至关重要。我们开源了蒸馏后的 Qwen 和 Llama (Dubey et al., 2024) 系列模型。值得注意的是,我们蒸馏的 14B 模型在推理基准测试中远超现有的开源模型 QwQ-32B-Preview (Qwen, 2024a),而蒸馏的 32B 和 70B 模型在密集模型的推理基准测试中创下了新的纪录。
我们直接在基础模型上应用强化学习 (RL),不依赖于监督微调 (Supervised Fine-Tuning, SFT) 作为初始步骤。这一方法使模型能够通过链式推理 (Chain-of-Thought, CoT) 探索复杂问题的解决方案,从而开发出 DeepSeek-R1-Zero。
DeepSeek-R1-Zero 展示了诸如自我验证 (self-verification)、反思 (reflection) 以及生成长推理链等能力,标志着推理模型研究领域的重要里程碑。值得注意的是,这是首次公开研究验证了通过纯强化学习即可激励大型语言模型 (LLM) 的推理能力,而无需依赖 SFT。这一突破为未来的发展铺平了道路。
我们引入了开发 DeepSeek-R1 的训练管道,该管道包括两个强化学习阶段,旨在发现改进的推理模式并与人类偏好对齐。此外,该管道还包含两个监督微调阶段,为模型的推理和非推理能力提供基础种子。我们相信,这一管道将有助于行业开发更优质的模型。
蒸馏:小型模型也能具备强大能力 (Distillation: Smaller Models Can Be Powerful Too)
我们证明了可以将大型模型的推理模式蒸馏到小型模型中,从而使小型模型的性能优于直接在小模型上通过强化学习获得的推理模式。开源的 DeepSeek-R1 及其 API 将为研究社区提供支持,帮助开发出性能更佳的小型模型。
基于 DeepSeek-R1 生成的推理数据,我们对多个在研究界广泛使用的密集模型进行了微调。评估结果表明,蒸馏后的小型密集模型在基准测试中表现出色。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩,超越了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分为 72.6%,在 MATH-500 上为 94.3%,在 LiveCodeBench 上为 57.2%。这些结果显著优于之前的开源模型,并且与 o1-mini 性能相当。
我们向社区开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 蒸馏模型检查点 (checkpoints)。
1.2 评估结果概述 (Summary of Evaluation Results)
推理任务 (Reasoning tasks)
DeepSeek-R1 在 AIME 2024 基准测试中取得了 79.8% 的 pass@1 得分,略微超过了 OpenAI-o1-1217。在 MATH-500 测试中,该模型取得了 97.3% 的出色成绩,与 OpenAI-o1-1217 的表现相当,且远超其他模型。
在编程相关任务中,DeepSeek-R1 在代码竞赛任务中展现了专家级水平,Elo 评分在 Codeforces 平台上达到了 2029,超越了 96.3% 的人类参赛者。对于工程相关任务,DeepSeek-R1 的表现略优于 DeepSeek-V3,这对开发人员在实际任务中有潜在帮助。
知识类任务 (Knowledge)
在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 表现出色,其成绩显著优于 DeepSeek-V3:
虽然在这些基准测试中其成绩略低于 OpenAI-o1-1217,但 DeepSeek-R1 超越了其他闭源模型,展示出在教育类任务中的竞争优势。在事实问答基准测试 SimpleQA 上,DeepSeek-R1 的表现优于 DeepSeek-V3,显示出其在处理基于事实的查询方面的能力。类似趋势也在 OpenAI-o1 超越 GPT-4o 的测试中有所体现。
MMLU:90.8%
MMLU-Pro:84.0%
GPQA Diamond:71.5%
其他任务表现 (Others)
DeepSeek-R1 在广泛的任务中也表现优异,包括创意写作、通用问答、编辑、摘要等。在 AlpacaEval 2.0 上,其长度控制 (length-controlled) 胜率达到了 87.6%,在 ArenaHard 上的胜率达到了 92.3%,展示出其在非考试类查询中智能处理的强大能力。此外,DeepSeek-R1 在需要长上下文理解的任务中表现突出,远超 DeepSeek-V3 在长上下文基准测试中的表现。
2.1 概述 (Overview)以往的研究通常依赖大量监督数据来提升模型性能。在本研究中,我们证明了即使不使用监督微调 (Supervised Fine-Tuning, SFT) 作为冷启动,通过大规模强化学习 (Reinforcement Learning, RL) 依然可以显著提升模型的推理能力。此外,适量冷启动数据的引入可以进一步提高性能。在接下来的章节中,我们将介绍:
DeepSeek-R1-Zero:直接在基础模型上应用 RL,而无需任何 SFT 数据。
DeepSeek-R1:从经过数千条长推理链 (Chain-of-Thought, CoT) 样本微调的检查点开始进行 RL。
推理能力蒸馏 (Distillation):将 DeepSeek-R1 的推理能力转移到小型密集模型中。
2.2 DeepSeek-R1-Zero:在基础模型上的强化学习强化学习在推理任务中表现出了显著的效果,这在我们之前的研究 (Shao et al., 2024;Wang et al., 2023) 中得到了验证。然而,这些研究依赖于监督数据,而这些数据的收集通常耗时费力。在本节中,我们探索大型语言模型 (LLM) 在没有任何监督数据的情况下发展推理能力的潜力,重点关注其通过纯强化学习过程实现的自我演化 (self-evolution)。我们首先简要概述了我们的 RL 算法,然后展示了一些令人兴奋的结果,希望这些内容能为研究社区提供有价值的见解。
2.2.1 强化学习算法 (Reinforcement Learning Algorithm)
群相对策略优化 (Group Relative Policy Optimization, GRPO)
为了降低强化学习的训练成本,我们采用了群相对策略优化 (GRPO) (Shao et al., 2024)。这种方法放弃了通常与策略模型 (policy model) 大小相同的评价模型 (critic model),而是通过群体得分来估计基线。具体而言,对于每个问题 ,GRPO 从旧策略 中采样一组输出
来源:人工智能学家