万字长文详解DeepSeek-R1模型工作原理

摘要：DeepSeek的发布震撼了整个科技行业，它迅速超越了OpenAI的ChatGPT，成为苹果美国地区和中国地区应用商店免费APP下载排行榜第一位，并且导致芯片制造商英伟达单日市值蒸发近6000亿美元，创下了美国股市的新纪录。

作者｜沙丘智库研究团队

来源｜沙丘社区（www.shaqiu.cn）

DeepSeek的发布震撼了整个科技行业，它迅速超越了OpenAI的ChatGPT，成为苹果美国地区和中国地区应用商店免费APP下载排行榜第一位，并且导致芯片制造商英伟达单日市值蒸发近6000亿美元，创下了美国股市的新纪录。

DeepSeek的第一代推理模型DeepSeek-R1-Zero是一种通过大规模强化学习(Reinforcement Learning, RL)训练的模型，在初始阶段未依赖监督微调(Supervised Fine-Tuning, SFT)，但表现出卓越的推理能力。在强化学习过程中，DeepSeek-R1-Zero展现出多种强大的推理行为，但该模型面临诸如可读性差和语言混杂等挑战。

为了解决这些问题并进一步提升推理性能，DeepSeek进一步开发了DeepSeek-R1。该模型在强化学习之前加入了多阶段训练流程和冷启动数据，在推理任务中的性能已达到与OpenAI-o1-1217相当的水平。

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

不同于OpenAI的大模型，DeepSeek R1模型的开发过程全公开，并发布了技术论文，以便其他团队更全面地理解和复现该模型。这种相对开放的做法使得全球的研究人员能够打开模型的“黑盒”，去探究模型的内部工作机制，从而将模型适应到其他任务中。

以下为沙丘智库对DeepSeek发布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》的深度解读，旨在为业界同仁提供参考，更好地理解DeepSeek-R1模型的工作原理。

01 引言

后训练(post-training)已成为大模型完整训练流程中的重要组成部分。研究表明，这一阶段能够在推理任务上提升模型准确性，使其符合社会价值观并适应用户偏好，同时所需的计算资源相较于预训练(pre-training)较少。在推理能力的研究背景下，OpenAI 的 o1 系列模型率先通过CoT的长度引入了推断时扩展(inference-time scaling)技术，这一方法在诸如数学、编程、科学推理等任务上取得了显著进展。然而，有效的测试时扩展 (test-time scaling) 依然是研究界尚未解决的开放性问题。

一些先前的研究探索了不同的解决方案，包括基于过程的奖励模型、强化学习以及搜索算法，如蒙特卡罗树搜索和束搜索。然而，这些方法都未能达到与 OpenAI 的 o1 系列模型在通用推理能力上的同等水平。

DeepSeek首次尝试使用纯强化学习来提升语言模型的推理能力，旨在探索大语言模型在没有任何监督数据的情况下开发推理能力的潜力，重点关注其通过纯 RL 流程实现的自我演化。

具体来说，DeepSeek使用 DeepSeek-V3-Base作为基础模型，并采用 GRPO强化学习框架来提升模型在推理任务中的性能。

在训练过程中，DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。经过数千步强化学习后，DeepSeek-R1-Zero 在推理基准测试中的表现大幅提升。例如，在 AIME 2024 基准测试中，pass@1得分从15.6% 提升至 71.0%，并在使用多数投票法后进一步提升至 86.7%，达到 OpenAI-o1-0912 的性能水平。

然而，DeepSeek-R1-Zero也面临着可读性差和语言混杂等问题。为了解决这些问题并进一步提升推理性能，DeepSeek引入了 DeepSeek-R1。该模型在强化学习之前加入了少量冷启动数据和多阶段训练管道。

具体而言，DeepSeek首先收集了数千条冷启动数据对 DeepSeek-V3-Base 模型进行微调，随后与 DeepSeek-R1-Zero 类似，执行以推理为导向的强化学习。在强化学习过程接近收敛时，通过在 RL 检查点上进行拒绝采样，结合 DeepSeek-V3 的监督数据（包括写作、事实问答、以及自我认知等领域），生成新的SFT数据并重新训练模型。在微调完成后，该检查点继续进行强化学习，以涵盖所有场景的prompt。经过这些步骤后，得到了名为 DeepSeek-R1 的检查点，其在推理任务上的表现与 OpenAI-o1-1217 相当。

DeepSeek进一步探索了将 DeepSeek-R1 的能力蒸馏到小型密集模型的可能性。以 Qwen2.5-32B作为基础模型，直接从 DeepSeek-R1 进行蒸馏的效果优于在该模型上应用强化学习的结果。这表明，基础模型中发现的推理模式对于提升推理能力至关重要。

1.1 贡献

（1）后训练：在基础模型上进行大规模强化学习

DeepSeek直接在基础模型上应用强化学习，不依赖于监督微调作为初始步骤。这一方法使模型能够通过链式推理探索复杂问题的解决方案，从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了诸如自我验证、反思以及生成长推理链等能力，标志着推理模型研究领域的重要里程碑。值得注意的是，这是首次公开研究验证了通过纯强化学习即可激励大语言模型的推理能力，而无需依赖SFT。这一突破为未来的发展铺平了道路。

DeepSeek引入了开发 DeepSeek-R1 的训练管道，该管道包括两个强化学习阶段，旨在发现改进的推理模式并与人类偏好对齐。此外，该管道还包含两个监督微调阶段，为模型的推理和非推理能力提供基础种子。

（2）蒸馏：小型模型也能具备强大能力

DeepSeek证明了可以将大型模型的推理模式蒸馏到小型模型中，从而使小型模型的性能优于直接在小模型上通过强化学习获得的推理模式。开源的 DeepSeek-R1 及其 API 将为研究社区提供支持，帮助开发出性能更佳的小型模型。

基于 DeepSeek-R1 生成的推理数据，DeepSeek对多个在研究界广泛使用的密集模型进行了微调。评估结果表明，蒸馏后的小型密集模型在基准测试中表现出色。例如，DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩，超越了 QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分为 72.6%，在 MATH-500 上为 94.3%，在 LiveCodeBench 上为 57.2%。这些结果显著优于之前的开源模型，并且与 o1-mini 性能相当。

1.2 模型评估结果

（1）推理任务

DeepSeek-R1 在 AIME 2024 基准测试中取得了 79.8% 的 pass@1 得分，略微超过了 OpenAI-o1-1217。在 MATH-500 测试中，该模型取得了 97.3% 的出色成绩，与 OpenAI-o1-1217 的表现相当，且远超其他模型。

在编程相关任务中，DeepSeek-R1 在代码竞赛任务中展现了专家级水平，Elo 评分在 Codeforces 平台上达到了 2029，超越了 96.3% 的人类参赛者。对于工程相关任务，DeepSeek-R1 的表现略优于 DeepSeek-V3，这对开发人员在实际任务中有潜在帮助。

（2）知识类任务

在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中，DeepSeek-R1 表现出色，其成绩显著优于 DeepSeek-V3。

虽然在这些基准测试中其成绩略低于 OpenAI-o1-1217，但 DeepSeek-R1 超越了其他闭源模型，展示出在教育类任务中的竞争优势。在事实问答基准测试 SimpleQA 上，DeepSeek-R1 的表现优于 DeepSeek-V3，显示出其在处理基于事实的查询方面的能力。类似趋势也在 OpenAI-o1 超越 GPT-4o 的测试中有所体现。

（3）其他任务表现

DeepSeek-R1 在广泛的任务中也表现优异，包括创意写作、通用问答、编辑、摘要等。在 AlpacaEval 2.0 上，其长度控制胜率达到了 87.6%，在 ArenaHard 上的胜率达到了 92.3%，展示出其在非考试类查询中智能处理的强大能力。此外，DeepSeek-R1 在需要长上下文理解的任务中表现突出，远超 DeepSeek-V3 在长上下文基准测试中的表现。

02 模型训练方法

2.1 概述

以往的研究通常依赖大量监督数据来提升模型性能。DeepSeek证明了即使不使用监督微调作为冷启动，通过大规模强化学习依然可以显著提升模型的推理能力。此外，适量冷启动数据的引入可以进一步提高性能。接下来的部分将介绍：

（1）DeepSeek-R1-Zero：直接在基础模型上应用 RL，而无需任何 SFT 数据；

（2）DeepSeek-R1：从经过数千条长推理链样本微调的检查点开始进行 RL；

（3）推理能力蒸馏：将 DeepSeek-R1 的推理能力转移到小型密集模型中。

2.2 DeepSeek-R1-Zero：在基础模型上的强化学习

DeepSeek探索了大语言模型在没有任何监督数据的情况下发展推理能力的潜力，重点关注其通过纯强化学习过程实现的自我演化。

2.2.1 强化学习算法

为了降低强化学习的训练成本，DeepSeek采用了群相对策略优化 (GRPO)。这种方法放弃了通常与策略模型大小相同的评价模型，而是通过群体得分来估计基线。具体而言，对于每个问题，GRPO 从旧策略中采样一组输出，然后通过最大化目标来优化策略模型。

2.2.2 奖励建模

奖励是训练信号的来源，决定了强化学习的优化方向。为了训练 DeepSeek-R1-Zero，DeepSeek采用了基于规则的奖励系统，该系统主要包括两种类型的奖励：

准确性奖励：准确性奖励模型用于评估模型响应是否正确。例如，对于具有确定性结果的数学问题，模型需要在指定格式（例如，在一个框内）中提供最终答案，从而实现基于规则的正确性验证。同样地，对于编程问题（如 LeetCode 题目），可以使用编译器基于预定义的测试用例生成反馈。

格式奖励：除了准确性奖励模型之外，格式奖励模型要求模型将推理过程包含在和标签之间。

DeepSeek-R1-Zero没有应用基于结果或过程的神经奖励模型，因为神经奖励模型在大规模强化学习过程中可能会出现奖励黑客的问题。此外，重新训练奖励模型需要额外的训练资源，增加了训练管道的复杂性。

2.2.3 训练模板

为了训练 DeepSeek-R1-Zero，首先设计了一个简单的模板，引导基础模型遵循指定的指令。如表 1 所示，该模板要求 DeepSeek-R1-Zero 先生成推理过程，然后给出最终答案。通过有意将约束限制在这一结构化格式内，避免内容上的特定偏向（例如，要求反思性推理或推广特定问题解决策略），以便准确观察模型在强化学习过程中的自然发展。

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

2.2.4 性能表现、自我演化过程与“顿悟时刻”

（1）性能表现

DeepSeek-R1-Zero 在 AIME 2024 基准测试中的平均 pass@1 得分显著提高，从最初的 15.6% 上升至 71.0%，达到了与 OpenAI-o1-0912 相当的水平，突显了强化学习算法在优化模型性能方面的有效性。

DeepSeek-R1-Zero 与OpenAI-o1-0912模型在多种推理相关基准测试中的表现结果显示，强化学习使 DeepSeek-R1-Zero 在没有任何监督微调数据的情况下，依然具备了强大的推理能力。这一成果突显了模型仅通过强化学习即可有效学习和泛化的能力。

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

此外，通过多数投票法，DeepSeek-R1-Zero的性能可以进一步提升。例如，在 AIME 基准测试中，应用多数投票后，DeepSeek-R1-Zero 的性能从 71.0% 提升至 86.7%，超越了 OpenAI-o1-0912 的表现。DeepSeek-R1-Zero 在有无多数投票的情况下都能取得竞争性表现，这一能力彰显了其强大的基础能力以及在推理任务中进一步发展的潜力。

（2）自我演化过程

DeepSeek-R1-Zero 的自我演化过程展示了强化学习如何推动模型自主提升推理能力的过程。通过直接从基础模型开始进行强化学习训练，能够在没有监督微调阶段影响的情况下，密切观察模型的进展。

此方法提供了模型随时间演化的清晰视图，特别是在其处理复杂推理任务能力方面的提升。这种观察方式有利于更全面地理解模型在强化学习过程中的自然发展轨迹和性能改进机制。

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

如图 3 所示，DeepSeek-R1-Zero 的“思考时间”在整个训练过程中持续改善。这种改善并非外部调整的结果，而是模型内部能力的自然发展。通过延长测试时的计算时间，DeepSeek-R1-Zero 自主获得了处理越来越复杂推理任务的能力。这些计算过程涵盖了从生成数百到数千个推理标记的范围，使模型能够更深入地探索和完善其思考过程。

在自我演化过程中，随着测试时计算量的增加，模型逐渐表现出复杂的行为。例如，模型会进行反思——重新审视并评估之前的步骤；此外，模型还会自发地探索不同的解决方案。这些行为并非通过显式编程实现，而是在模型与强化学习环境交互中自然产生的。这种自发性发展大大增强了 DeepSeek-R1-Zero 的推理能力，使其能够更高效、更准确地处理更具挑战性的任务。

（3）“顿悟时刻”

如表 3 所示，“顿悟时刻”出现在模型的某个中间版本。在此阶段，DeepSeek-R1-Zero 学会了通过重新评估其初始方法，为问题分配更多的思考时间。这一行为不仅展示了模型日益增长的推理能力，也说明了强化学习如何能够产生意想不到的复杂结果。

“顿悟时刻”不仅是模型的顿悟，也是观察其行为的研究人员的顿悟。它突显了强化学习的力量与美妙之处：我们无需显式地教导模型如何解决问题，只需为其提供适当的激励，就能自主发展出高级的解决策略。

强化学习具备解锁人工系统新智能水平的潜力，为未来更多自主且适应性强的模型铺平了道路。这一现象为推进 AI 系统的自主性和智能化提供了宝贵的启示。

（4）DeepSeek-R1-Zero 的局限性

虽然 DeepSeek-R1-Zero 展示了强大的推理能力，并能自主发展出意想不到且强大的推理行为，但仍面临一些问题。例如，DeepSeek-R1-Zero 在可读性和语言混杂等方面存在挑战。为了让推理过程更加易读并与研究社区共享，DeepSeek开发了 DeepSeek-R1，这种方法结合了具有用户友好特性的冷启动数据和强化学习。

2.3 DeepSeek-R1：具有冷启动的强化学习

DeepSeek-R1 是在 DeepSeek-R1-Zero 基础上改进的模型，旨在解决DeepSeek-R1-Zero存在的问题并进一步提升性能，具有冷启动的强化学习分为多个阶段，每个阶段都有特定的目标和方法。

2.3.1 冷启动阶段

与 DeepSeek-R1-Zero 不同，为了避免强化学习在基础模型上的早期不稳定阶段，DeepSeek-R1 使用了一小部分长推理链数据进行微调作为初始强化学习模型的基础。收集数据的方式包括：使用带有长推理链示例的少样本提示，直接提示模型生成带有反思和验证步骤的详细答案，收集 DeepSeek-R1-Zero 输出的内容并通过人工标注员进行后期处理。

在这项研究中，DeepSeek收集了数千条冷启动数据对DeepSeek-V3-Base 模型进行微调，作为强化学习的起点。与 DeepSeek-R1-Zero 相比，冷启动数据具有以下优势：

可读性：DeepSeek-R1-Zero 的内容通常不易阅读，可能会混合多种语言，或缺乏用户友好的格式。例如，缺少 Markdown 格式的答案标注。而在为 DeepSeek-R1 创建冷启动数据时，DeepSeek设计了一种可读性较高的输出格式，包括在每个响应末尾添加总结部分，并过滤掉不适合阅读的响应。输出格式定义为：|special_token||special_token|。其中，推理过程是查询的推理链，摘要部分用于总结推理结果。

潜在的推理引导能力：通过以人类偏好设计冷启动数据格式，DeepSeek-R1 相较于 DeepSeek-R1-Zero性能明显提升，因此采用迭代训练是改进推理模型的更优策略。

2.3.2 面向推理的强化学习阶段

在使用冷启动数据对 DeepSeek-V3-Base 进行微调后进行大规模强化学习训练。此阶段专注于提升模型在推理密集型任务（如编程、数学、科学和逻辑推理）中的能力，这些任务通常涉及明确的问题和清晰的解决方案。

由于推理链中经常出现语言混杂现象，尤其是在 RL 提示涉及多种语言时，DeepSeek在强化学习中引入了语言一致性奖励，该奖励根据推理链中目标语言词汇的占比进行计算。尽管消融实验表明，这种对齐会导致模型性能略微下降，但它使输出更加符合用户的阅读偏好。最终，DeepSeek将推理任务的准确性奖励与语言一致性奖励相结合，通过直接求和形成最终奖励信号，持续进行强化学习，直到模型在推理任务上达到收敛。

2.3.3 拒绝采样与监督微调阶段

当面向推理的强化学习达到收敛时，DeepSeek利用生成的检查点收集用于下一轮训练的SFT数据。与初始冷启动数据不同，此阶段的数据涵盖了更多领域，包括写作、角色扮演和其他通用任务。具体来说包括：

推理数据：从上述强化学习检查点中进行拒绝采样，生成推理提示和推理过程。在之前的阶段中，仅包含基于规则奖励验证的数据。此阶段扩展了数据集，部分数据使用生成式奖励模型进行评估，将真实答案和模型预测输入到 DeepSeek-V3 进行判断。此外，由于模型输出有时较为混乱，过滤掉了语言混杂、段落过长以及代码块过多的推理链。对于每个提示，DeepSeek采样多个响应，仅保留正确的答案。最终收集了约 60 万条与推理相关的训练样本。

非推理数据：对于非推理数据（如写作、事实问答、自我认知和翻译等任务），采用 DeepSeek-V3 的数据处理管道，并复用了部分 DeepSeek-V3 的 SFT 数据集。在某些非推理任务中，通过提示让 DeepSeek-V3 生成潜在的推理链，然后再回答问题。最终收集了大约 20 万条与推理无关的训练样本。

DeepSeek使用上述大约 80 万条样本对 DeepSeek-V3-Base 进行了两轮微调训练，有效增强了模型在多种任务上的通用能力。

2.3.4 面向所有场景的强化学习阶段

为了进一步使模型符合人类偏好，实施了第二阶段的强化学习，旨在改进模型的有用性和无害性，同时进一步优化其推理能力。

具体来说，通过结合多种奖励信号和多样化的提示分布来训练模型：

对于推理数据，遵循 DeepSeek-R1-Zero 的方法，使用基于规则的奖励来指导模型在数学、编程和逻辑推理领域的学习。

对于通用数据，采用奖励模型捕捉人类在复杂和细微场景中的偏好。基于 DeepSeek-V3 管道构建了偏好对和训练提示的分布。

在评估有用性时，专注于最终的摘要部分，确保评估重点关注响应对用户的实用性和相关性，同时尽量减少对底层推理过程的干扰。在评估无害性时，对模型的整个输出进行评估，包括推理过程和摘要，以识别并减轻生成过程中可能出现的风险、偏见或有害内容。

通过将奖励信号和多样化的数据分布相结合，DeepSeek成功训练出了一种既在推理任务中表现卓越，又能优先保证有用性和无害性的模型。

2.4 蒸馏：赋予小型模型推理能力

为了让更高效的小型模型具备与 DeepSeek-R1 类似的推理能力，DeepSeek使用上述的80 万条DeepSeek-R1数据集，对开源模型进行了直接微调。研究结果表明，这种简单的蒸馏方法显著增强了小型模型的推理能力。

DeepSeek选择了多个开源模型作为蒸馏的目标模型，包括Qwen 系列（Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B）和Llama 系列（Llama-3.1-8B 和 Llama-3.3-70B-Instruct）。

对于蒸馏模型，仅应用了监督微调，并未引入强化学习阶段。尽管引入强化学习可能会显著提升模型性能，但本研究的主要目标是验证蒸馏技术的有效性，进一步探索强化学习阶段的潜力则留给更广泛的研究社区。

03 实验设置

基准测试：DeepSeek对模型在多个基准测试中进行了评估，包括：MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider 1、LiveCodeBench、Codeforces、中国全国高中数学奥林匹克竞赛 (CNMO 2024)、美国数学邀请赛 (AIME 2024)。除了标准基准测试之外，还在开放式生成任务中使用 LLM 作为评审员进行评估。为避免因输出长度导致的偏差，仅向评审员提供最终的摘要部分。

评估提示：评估提示遵循DeepSeek-V3 的设置，对于不同的基准测试采用不同的提示方式。MMLU、DROP、GPQA Diamond 和 SimpleQA 等标准基准测试使用 simple-evals 框架中的提示进行评估；对于 MMLU-Redux，在零样本设置中采用了 Zero-Eval 提示格式；在 MMLU-Pro、C-Eval 和 CLUE-WSC 中，由于原始提示是少样本，DeepSeek将其稍作修改为零样本设置，因为少样本提示中的推理链可能会降低 DeepSeek-R1 的性能。其他数据集则遵循其创建者提供的原始评估协议和默认提示。对于代码和数学基准测试，HumanEval-Mul数据集涵盖了八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash），LiveCodeBench 使用 CoT 格式评估模型性能，Codeforces 数据集通过特定竞赛题目和专家设计的测试用例进行评估，SWE-Bench Verified 通过 agentless 框架获得结果，AIDER 相关基准测试使用 “diff” 格式测量。同时，DeepSeek-R1 输出在每个基准测试中被限制在最大32,768个token。

基线模型：DeepSeek选择了多个强基线模型进行了全面比较，包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 存在困难，其性能数据基于官方报告。对于蒸馏模型，还与开源模型 QwQ-32B-Preview进行了对比。

评估设置：模型的最大生成长度设置为32,768个token。考虑到使用贪婪解码评估长输出推理模型会导致较高的重复率和不同检查点间的显著差异，DeepSeek默认使用pass@k评估方法，并在非零温度报告pass@1。具体来说，使用采样温度 0.6、top-P 值 0.95 为每个问题生成 k 个响应（根据测试集大小，通常在 4 到 64 之间），pass@1 通过公式计算，这种方法能提供更可靠的性能估计。在 AIME 2024 测试中，还报告了共识结果，使用 64 个样本进行多数投票评估。

3.1 DeepSeek-R1 评估结果

在面向教育的知识基准测试（如MMLU、MMLU-Pro和GPQA Diamond）中，DeepSeek-R1 的表现优于 DeepSeek-V3。这一提升主要归功于在 STEM 相关问题上的准确性增强，这些进步通过大规模强化学习实现。此外，DeepSeek-R1 在FRAMES（依赖长上下文的问答任务）中表现出色，展示了其在文档分析任务中的强大能力，表明推理模型在 AI 驱动的搜索和数据分析任务中具有巨大潜力。

在事实类基准测试SimpleQA上，DeepSeek-R1 的表现优于 DeepSeek-V3，展示了其处理基于事实查询的能力。类似的趋势也出现在 OpenAI-o1 超越 GPT-4o的测试中。然而，在中文SimpleQA基准测试上，DeepSeek-R1 的表现不如 DeepSeek-V3，这主要是因为模型在安全性强化学习后倾向于拒绝回答某些查询。如果不应用安全性强化学习，DeepSeek-R1 的准确率可超过 70%。

DeepSeek-R1在IF-Eval（用于评估模型遵循格式指令能力的基准测试）上也取得了出色的结果。这一改进与在监督微调和强化学习最终阶段中引入的指令遵循数据有关。此外，在AlpacaEval 2.0和ArenaHard上的表现表明了 DeepSeek-R1 在写作任务和开放领域问答中具有优势。

DeepSeek-R1 生成的摘要长度较为简洁：在ArenaHard上平均为689个token，在AlpacaEval 2.0上平均为2,218个字符。这表明 DeepSeek-R1 在基于 GPT 的评估中避免了长度偏差，从而进一步巩固了其在多任务中的稳健性。

在数学任务中，DeepSeek-R1 的表现与OpenAI-o1-1217相当，并远超其他模型。在编程算法任务（如LiveCodeBench和Codeforces）中，推理导向的模型在基准测试中占据主导地位。在面向工程的编程任务上，OpenAI-o1-1217 在Aider中表现优于 DeepSeek-R1，但在SWE Verified上表现相当。DeepSeek-R1 的工程类任务表现将在下一版本中进一步提升，因为目前相关的强化学习训练数据仍较为有限。

3.2 蒸馏模型评估结果

如表 5 所示，仅通过蒸馏 DeepSeek-R1 的输出，就使得高效的DeepSeek-R1-7B（即DeepSeek-R1-Distill-Qwen-7B，下文使用类似缩写）在各个方面都优于非推理优化模型（如 GPT-4o-0513）。DeepSeek-R1-14B在所有评估指标上都超过了QwQ-32B-Preview，而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著优于o1-mini。这些结果表明蒸馏技术具有很大的潜力。

此外，对这些蒸馏模型应用强化学习可以进一步显著提高性能，在此仅展示了基于简单监督微调的蒸馏模型的结果。

04 讨论

4.1 蒸馏与强化学习的比较

以上的实验结果表明，通过对 DeepSeek-R1 进行蒸馏，小型模型能够取得强大的推理能力。但仍然存在一个问题：模型是否可以通过文中讨论的大规模强化学习（而不依赖蒸馏）达到类似的性能？

为了解答这一问题，DeepSeek在Qwen-32B-Base模型上进行了大规模强化学习，使用数学、代码和 STEM数据进行了超过10,000步的训练，生成了DeepSeek-R1-Zero-Qwen-32B。实验结果（见表 6）表明，该模型经过大规模 RL 训练后，其性能与QwQ-32B-Preview相当。然而，从 DeepSeek-R1 蒸馏得到的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中都明显优于。

因此可以得出两个结论：

第一，将强大的模型能力蒸馏到小型模型中是一个高效且效果显著的方法，而小型模型依赖于文中提到的大规模 RL 训练可能需要巨大的计算资源，且其性能可能难以达到蒸馏模型的水平。

第二，尽管蒸馏策略既经济又有效，但要突破智能边界，可能仍需依赖更强大的基础模型和更大规模的强化学习。

4.2 一些不成功的尝试

在开发 DeepSeek-R1 过程中，DeepSeek尝试了过程奖励模型（PRM）和蒙特卡罗树搜索（MCTS），但均未成功。

过程奖励模型难以明确定义细粒度推理步骤，判断中间步骤正确性困难，自动标注效果差且手动标注难以扩展，还容易出现奖励作弊，增加训练成本，限制了其在大规模强化学习中的应用。

蒙特卡罗树搜索用于提升测试时计算可扩展性时，因大语言模型的token生成搜索空间远大于棋类游戏，虽设置最大扩展限制仍易陷入局部最优，且模型训练困难，影响生成质量，导致模型难以迭代改进。

05 未来工作

未来，DeepSeek计划在以下方向上进一步研究 DeepSeek-R1：

通用能力：目前，DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务中的能力不及 DeepSeek-V3。未来，DeepSeek计划探索如何利用长推理链来增强在这些任务的表现。

语言混杂：DeepSeek-R1 当前针对中文和英文进行了优化，这可能在处理其他语言的查询时导致语言混杂问题。例如，即使查询使用的是非中英文，DeepSeek-R1 也可能在推理和响应中使用英语。DeepSeek计划在未来的更新中解决这一局限。

提示工程：目前模型对提示较为敏感，少样本提示会持续降低其性能。因此，建议用户使用零样本设置，直接描述问题并指定输出格式，以获得最佳效果。

软件工程任务：由于评估时间较长影响了强化学习过程的效率，大规模强化学习尚未广泛应用于软件工程任务。因此，DeepSeek-R1 在软件工程基准测试中的表现未能显著超越 DeepSeek-V3。未来版本将通过在软件工程数据上实施拒绝采样或在强化学习过程中引入异步评估来提高效率。

来源：人工智能学家

标签：模型长文万字

本文地址：https://news.43u.com.cn/a/605537.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐