国外一博士解释DeepSeek R1背后的逻辑

摘要：在2024年，LLM领域看到了越来越多的专业化。除了预培训和微调外，我们还目睹了专业应用的兴起，从破布到代码助手。我希望这一趋势在2025年会加速，更加重视域和应用特定的优化（即“专业”）。

在2024年，LLM领域看到了越来越多的专业化。除了预培训和微调外，我们还目睹了专业应用的兴起，从破布到代码助手。我希望这一趋势在2025年会加速，更加重视域和应用特定的优化（即“专业”）。

第1-3阶段是开发LLM的常见步骤。第4阶段专门针对特定用例的LLM。

推理模型的发展是这些专业之一。这意味着我们会完善LLM，以在最适合通过中间步骤（例如难题，高级数学和编码挑战）解决的复杂任务中表现出色。但是，此专业不取代其他LLM应用程序。因为将LLM转换为推理模型也引入了某些缺点，我将在后面讨论。

为了简要了解以下内容，在本文中，我将：

解释“推理模型”的含义讨论推理模型的优势和缺点概述DeepSeek R1背后的方法论描述建立和改进推理模型的四种主要方法在DeepSeek V3和R1发行后分享有关LLM景观的想法提供了在预算紧张的情况下开发推理模型的提示

希望您发现这篇文章有用，因为AI今年继续其快速发展！

如果您在AI（或一般的机器学习）中工作，那么您可能熟悉模糊而热烈的辩论定义。 “推理模型”一词也不例外。最终，有人将在纸上正式定义它，只是要在下一个中重新定义它，依此类推。

在本文中，我将“推理”定义为回答需要使用中间步骤复杂的多步生成问题的问题的过程。例如，事实提问，例如“法国的首都是什么？”不涉及推理。相比之下，一个问题“如果火车以60英里 /小时的速度行驶3个小时，它走了多远？”需要一些简单的推理。例如，它需要识别到达答案之前的距离，速度和时间之间的关系。

常规LLM只能提供一个简短的答案（如左图所示），而推理模型通常包括揭示部分思维过程的中间步骤。（请注意，许多尚未专门为推理任务而开发的LLM也可以在答案中提供中间的推理步骤。）

大多数现代LLM都有基本的推理，并且可以回答诸如“火车以60 mph的速度移动，并且行驶3个小时，它走了多远？”因此，今天，当我们指的是推理模型时，通常是指在更复杂的推理任务（例如解决难题，谜语和数学证明）上表现出色的LLM。

此外，当今以推理模型为推理模型的大多数LLM都包括“思想”或“思考”过程，作为其响应的一部分。 LLM是否以及如何实际“思考”是一个单独的讨论。

推理模型中的中间步骤可以通过两种方式出现。首先，可以明确包含在响应中，如上图所示。其次，某些推理LLM，例如OpenAI的O1，运行多个迭代，并使用未向用户显示的中间步骤进行多个迭代。

“推理”在两个不同的层面上使用：1）通过多个中间步骤处理输入并生成2）作为对用户响应的一部分，提供某种推理。

既然我们已经定义了推理模型，我们可以继续转移到更有趣的部分：如何构建和改善推理任务的LLM。但是，在研究技术细节之前，重要的是要考虑实际需要推理模型。

我们什么时候需要推理模型？推理模型旨在擅长复杂的任务，例如解决难题，高级数学问题和具有挑战性的编码任务。但是，对于更简单的任务，诸如摘要，翻译或基于知识的问题回答之类的更简单任务并不是必需的。实际上，将所有事物的推理模型使用效率低下和昂贵。例如，推理模型通常更昂贵，更多的冗长，有时由于“过度思考”而容易出现错误。另外，简单规则适用：将任务使用正确的工具（或LLM类型）。

以下图中总结了推理模型的关键优势和局限性。

推理模型的关键优势和劣势。

在讨论下一部分中建立和改进推理模型的四种主要方法之前，我想简要概述DeepSeek R1管道，如DeepSeek R1技术报告所述。该报告既是一个有趣的案例研究，也是开发推理LLM的蓝图。

请注意，DeepSeek没有发布单个R1推理模型，而是引入了三种不同的变体：DeepSeek-R1-zero，DeepSeek-R1和DeepSeek-R1-Distill。

根据技术报告中的描述，我在以下图中总结了这些模型的开发过程。

DeepSeeks的开发过程在DeepSeek R1技术报告中讨论了三种不同的推理模型。

接下来，让我们简要介绍上图中显示的过程。下一节将介绍更多详细信息，我们将讨论建立和改进推理模型的四种主要方法。

（1）DeepSeek-R1-Zero：该模型基于2024年12月发布的671B预培训的DeepSeek-V3基本模型。研究团队使用强化学习（RL）培训了两种类型的奖励。这种方法被称为“冷启动”培训，因为它不包括监督的微调（SFT）步骤，这通常是通过人类反馈（RLHF）进行增强学习的一部分。

（2）DeepSeek-R1：这是DeepSeek的旗舰推理模型，建立在DeepSeek-R1-Zero上。该团队通过额外的SFT阶段和进一步的RL培训进一步完善了它，从而改善了“冷启动” R1-Zero型号。

（3）DeepSeek-R1-Distill*：使用前一步中生成的SFT数据，DeepSeek团队微调QWEN和LLAMA模型来增强其推理能力。尽管从传统意义上讲不是蒸馏，但此过程涉及培训较小的型号（Llama 8b和70b和Qwen 1.5b-30b）的较小型号的较大型号的模型。

在本节中，我将概述当前用于增强LLM的推理功能的关键技术，并构建专门的推理模型，例如DeepSeek-R1，OpenAI的O1和O3等。

注意：O1和O3的确切工作原理在Openai以外的境外仍然未知。但是，有传言说他们利用推理和训练技术的结合。

1）推理时间缩放

提高LLM推理功能（或一般任何功能）的一种方法是推理时间缩放。该术语可以具有多种含义，但是在这种情况下，它是指在推断过程中增加计算资源以提高输出质量。

一个粗略的类比是，当人类给出更多时间思考复杂问题时，人类倾向于产生更好的反应。同样，我们可以应用鼓励LLM在产生答案时“思考”的技术。（尽管LLM实际上“思考”是否是一个不同的讨论。）

推理时间缩放的一种直接方法是巧妙的及时工程。一个经典的示例是经过思考链（COT）提示，其中输入提示符中包含“逐步思考”之类的短语。这鼓励模型生成中间的推理步骤，而不是直接跳入最终答案，这通常可以（但并非总是）导致更复杂的问题的更准确的结果。（请注意，将此策略用于简单基于知识的问题，例如“法国的首都”，这再次是一个很好的经验法则是没有意义的输入查询。）

来自2022大语言模型的经典COT的一个示例是零拍纸纸

上述COT方法可以看作是推理时间缩放，因为它通过产生更多的输出令牌使推理更加昂贵。

推理时间扩展的另一种方法是使用投票和搜索策略。一个简单的例子是多数投票，我们让LLM生成多个答案，我们以多数票选择了正确的答案。同样，我们可以使用Beam搜索和其他搜索算法来产生更好的响应。

我强烈建议您最佳地缩放LLM测试时间计算可以比我在2024年的AI研究论文（第二部分）文章（https://magazine.sebastianraschka.com/p/中描述的比例模型参数纸更有效，这比缩放模型参数纸更有效。有关这些不同策略的更多详细信息，A-Research Papers-2024-Part-2）。

不同的基于搜索的方法依靠基于过程奖励的模型来选择最佳答案。 LLM测试时间计算纸的注释图

DeepSeek R1技术报告指出，其模型不使用推理时间缩放。但是，该技术通常是在LLM顶部的应用层实现的，因此DeepSeek可能将其应用于其应用程序。

我怀疑OpenAI的O1和O3模型使用推理时间缩放，这可以解释为什么与GPT-4O这样的型号相比，它们相对昂贵。除了推理时间缩放外，O1和O3可能还使用与DeepSeek R1相似的RL管道训练。在下面的接下来的两个部分中，有关强化学习的更多信息。

我从DeepSeek R1论文中的个人亮点之一是，他们发现推理是从纯强化学习（RL）中出现的。让我们探索这意味着什么。

如前所述，DeepSeek开发了三种类型的R1模型。第一个DeepSeek-R1-Zero建造在DeepSeek-V3基本型号的顶部，这些基本型号是他们于2024年12月发布的标准预培训的LLM。与典型的RL管道不同，在RL之前使用监督的微调（SFT），DeepSeek-R1-Zero仅通过强化学习而没有初始SFT阶段进行培训，如下图所示。

DeepSeek-R1-Zero模型的开发过程。

尽管如此，此RL过程还是类似于常用的RLHF方法，该方法通常应用于首选定LLMS。（我在我的文章《 LLM培训：RLHF及其替代方案》的文章中更详细地介绍了RLHF 。）但是，如上所述，DeepSeek-R1-Zero的主要区别在于他们跳过了监督的微调（SFT）阶段调谐。这就是为什么他们将其称为“纯” RL的原因。（尽管在LLM的背景下，RL与传统RL显着不同，这是另一个话题。）

为了获得奖励，他们没有使用接受人类偏好训练的奖励模型，而是采用了两种类型的奖励：准确性奖励和格式奖励。

准确性奖励使用LeetCode编译器来验证编码答案和确定性系统以评估数学响应。格式奖励依赖于LLM法官来确保响应遵循预期的格式，例如在标签中放置推理步骤。

令人惊讶的是，这种方法足以让LLM发展基本推理技能。研究人员观察到了一个“啊哈！”如下图所示，尽管没有明确训练，但该模型开始生成推理痕迹作为其响应的一部分，如下图所示。

DeepSeek R1技术报告的数字显示了“ aha”时刻的出现。

虽然R1-Zero并不是表现最佳的推理模型，但它确实通过生成中间“思考”步骤来证明推理能力，如上图所示。这证实可以使用Pure RL开发推理模型，而DeepSeek团队是第一个证明（或至少发布）此方法的团队。

接下来，让我们看一下DeepSeek-R1的开发，DeepSeek-R1是DeepSeek的旗舰推理模型，该模型是建立推理模型的蓝图。该模型通过合并其他监督微调（SFT）和增强学习（RL）来改善其推理性能，从而改善了DeepSeek-R1-Zero。

请注意，如标准RLHF管道中所示，实际上通常在RL之前包含SFT阶段。 Openai的O1可能是使用类似方法开发的。

DeepSeek-R1模型的开发过程。

如上图所示，DeepSeek团队使用DeepSeek-R1-Zero来生成他们所谓的“冷启动” SFT数据。 “冷启动”一词是指此数据是由DeepSeek-R1-Zero产生的，该数据本身并未接受过任何受监督的微调（SFT）数据的培训。

使用此冷启动的SFT数据，DeepSeek然后通过指令进行微调训练了该模型，然后是另一个增强学习（RL）阶段。该RL阶段保留了在DeepSeek-R1-Zero的RL过程中使用的准确性和格式奖励。但是，他们增加了一致性的奖励，以防止语言混合，这是当模型在响应中的多种语言之间切换时发生的。

RL阶段之后是另一轮SFT数据收集。在此阶段，最新的模型检查点用于生成600K的三链（COT）SFT示例，而使用DeepSeek-V3基本模型创建了另一个基于200K知识的SFT示例。

然后将这些600K + 200K SFT样品用于另一轮RL。在此阶段，他们再次使用基于规则的方法来获得数学和编码问题的准确性奖励，而人类偏好标签则用于其他问题类型。

最终模型DeepSeek-R1得益于额外的SFT和RL阶段，deepSeek-r1比DeepSeek-R1-Zero具有明显的性能提升，如下表所示。

OpenAI A1和DeepSeek R1模型的基准比较。 DeepSeek-R1技术报告的注释图

到目前为止，我们涵盖了建立和改进推理模型的三种关键方法：

1。推理时间缩放，这种技术可以提高推理功能而无需训练或其他修改基础模型。

2。纯钢筋学习（RL）如DeepSeek-R1-Zero中，这表明推理可以作为学习的行为而不受监督的微调。

3。监督的微调（SFT）加RL，导致DeepSeek-R1（DeepSeek-R1），DeepSeek的旗舰推理模型。

那么，还有什么？模型“蒸馏”。

令人惊讶的是，DeepSeek还发布了通过称为蒸馏的过程训练的较小型号。但是，在LLM的背景下，蒸馏不一定遵循深度学习中使用的经典知识蒸馏方法。传统上，在知识蒸馏中（如我的机器学习Q和AI书的第6章所述），对较小的学生模型进行了较小的学生模型的培训。

取而代之的是，在这里，蒸馏是指较小的LLM，例如在较大的LLMS生成的SFT数据集上进行微调较小的LLM，例如Llama 8b和70b和Qwen 2.5型号（0.5B至32B）。具体而言，这些较大的LLM是DeepSeek-V3和DeepSeek-R1的中间检查点。实际上，如上一节所述，用于此蒸馏过程的SFT数据与用于训练DeepSeek-R1的数据集相同。

为了澄清这一过程，我在下图中强调了蒸馏部分。

DeepSeek-R1-Distill模型的开发过程。

他们为什么要开发这些蒸馏型？我认为，有两个关键原因：

1。较小的型号更有效。这意味着它们运行便宜，但是它们也可以使用低端硬件运行，这对于像我这样的许多研究人员和修补匠来说特别有趣。

2。纯SFT中的案例研究。这些蒸馏模型是一个有趣的基准，表明纯监督的微调（SFT）可以在不加强学习的情况下采用模型。

下表将这些蒸馏模型与其他流行模型以及DeepSeek-R1-Zero和DeepSeek-R1进行了比较。

蒸馏与非底漆模型的基准比较。 DeepSeek-R1技术报告的注释图

如我们所见，蒸馏模型明显比DeepSeek-R1弱，但相对于DeepSeek-R1-Zero的强度非常强，尽管较小的数量级。有趣的是，这些模型与O1 mini相比的性能（我怀疑O1-Mini本身可能是O1的类似蒸馏版本）。

在结论结束本节之前，还有一个值得一提的更有趣的比较。 DeepSeek团队测试了DeepSeek-R1-Zero中看到的紧急推理行为是否也可能出现在较小的型号中。为了调查这一点，他们将相同的纯RL方法直接应用于QWEN-32B。

该实验的结果总结在下表中，其中QWQ-32B-Preiview用作基于QWEN团队开发的QWEN 2.5 32B的参考推理模型（我认为培训细节从未透露）。这种比较提供了一些其他见解，即单独使用纯RL是否可以在比DeepSeek-R1-Zero小得多的模型中诱导推理能力。

基准比较蒸馏和RL在较小的32B模型上。 DeepSeek-R1技术报告的注释图

有趣的是，结果表明，对于较小的模型，蒸馏比纯RL有效得多。这与这样的想法相吻合，即单独使用RL可能不足以在此规模的模型中诱导强大的推理能力，而在使用小型模型时，SFT上的SFT在高质量的推理数据上可能是更有效的策略。

为了完整性，在表中看到其他比较是很有用的：

1。QWEN-32B接受了SFT + RL培训，类似于DeepSeek-R1的开发方式。与纯RL和纯SFT相比，当RL与SFT结合时，这将有助于确定可以进行多少改进。

2。深v3经过纯SFT训练，类似于蒸馏模型的创建方式。这将允许直接比较RL + SFT与纯SFT相比的有效性。

在本节中，我们探讨了建立和改善推理模型的四种不同策略：

1。推理时间缩放不需要额外的培训，而需要增加推理成本，从而使大规模部署随着数量或用户或查询量的增长而变得更加昂贵。尽管如此，它仍然是提高已经强大模型的性能的不费吹灰之力。我强烈怀疑O1利用推理时间缩放，这有助于解释为什么与DeepSeek-R1相比，它在the的基础上更昂贵。

2。纯RL对于研究目的而言是有趣的，因为它为推理提供了作为新兴行为的见解。但是，在实际模型开发中，RL + SFT是首选方法，因为它导致了更强的推理模型。我强烈怀疑使用RL + SFT训练O1。更确切地说，我认为O1从比DeepSeek-R1弱，更小的基础模型开始，但通过RL + SFT和推理时间缩放来补偿。

3。如上所述，RL + SFT是构建高性能推理模型的关键方法。 DeepSeek-R1是一个很好的蓝图，显示了如何完成。

4。蒸馏是一种有吸引力的方法，尤其是用于创建较小，更高效的模型。但是，限制是蒸馏不会驱动创新或产生下一代推理模型。例如，蒸馏始终取决于现有，更强大的模型来生成监督的微调（SFT）数据。

我希望接下来看到的一个有趣的方面是将RL + SFT（方法3）与推理时间缩放（方法1）相结合。这可能是Openai O1所做的，除了它可能基于较弱的基本模型，而DeepSeek-R1可以解释为什么DeepSeek-R1在推理时表现如此出色，同时保持相对便宜。

最近几周，许多人都要求我对DeepSeek-R1模型的想法。简而言之，我认为它们是一个很棒的成就。作为一名研究工程师，我特别感谢详细的技术报告，该报告提供了我可以从中学到的方法的见解。

最令人着迷的收获之一是推理如何成为纯RL的行为。令人印象深刻的是，DeepSeek在宽松的开源MIT许可下开源的模型，其限制甚至比Meta的Llama模型更少。

与O1相比如何？

DeepSeek-R1比O1好吗？我会说它大致在同一球场上。但是，引人注目的是，DeepSeek-R1在推理时间更有效。这表明DeepSeek可能在培训过程中投入了更多的投资，而OpenAI可能更多地依赖于O1的推理时间扩展。

也就是说，很难直接比较O1和DeepSeek-R1，因为Openai对O1没有太多披露。例如，我们不知道：

O1也是专家的混合物（MOE）吗？O1有多大？O1是否可以是略微精制的GPT-4O版本，而RL + SFT最少，并且仅是广泛的推理时间缩放？

在不了解这些细节的情况下，直接比较仍然是苹果与轨道的比较。

培训DeepSeek-R1的成本

讨论的另一个讨论是开发DeepSeek-R1的成本。一些人提到了约600万美元的培训成本，但他们可能将DeepSeek-V3（去年12月发布的基本模型）和DeepSeek-R1混为一谈。

这项耗资600万美元的估计基于假定的每GPU小时2美元以及DeepSeek-V3的最终培训运行所需的GPU小时数，该运行最初是在2024年12月进行的。

但是，DeepSeek团队从未透露R1的确切GPU小时或开发成本，因此任何成本估计仍然是纯粹的猜测。

无论哪种方式，最终，DeepSeek-R1都是开放重量推理模型的主要里程碑，其推理时间效率使其成为OpenAI O1的有趣替代方案。

即使从DeepSeek-V3（例如DeepSeek-v3）开始，开发DeepSeek-R1级推理模型也可能需要数十万到数百万美元。对于预算有限的研究人员或工程师来说，这可能会令人沮丧。

好消息：蒸馏可以走很长一段路

幸运的是，模型蒸馏提供了更具成本效益的替代方案。 DeepSeek团队通过其R1延伸模型证明了这一点，尽管它比DeepSeek-R1要小得多，但其推理性能令人惊讶。但是，即使是这种方法也不是完全便宜的。他们的蒸馏过程使用了800K SFT样品，需要大量计算。

有趣的是，在DeepSeek-R1发布前几天，我遇到了一篇有关Sky-T1的文章，Sky-T1是一个引人入胜的项目，一支小型团队仅使用17K SFT样品培训了一个开放式32B型号。总成本？仅$ 450，比大多数AI会议的注册费少。

这个例子强调，尽管大规模培训仍然昂贵，较小，有针对性的微调工作仍然可以以一小部分成本产生令人印象深刻的结果。

从“ Sky-t1：在$ 450中训练自己的O1预览型号”的图

根据他们的基准，Sky-T1与O1的表现大致相当，鉴于其训练成本较低，这是令人印象深刻的。

纯RL预算：tinyzero

虽然Sky-T1专注于模型蒸馏，但我也遇到了一些有趣的作品“ Pure RL”空间。一个值得注意的例子是Tinyzero ，这是一个3B参数模型，它复制了DeepSeek-R1-Zero方法（旁注：训练的成本低于30美元）。

令人惊讶的是，即使仅在3B参数下，TinyZero也表现出一些新兴的自我验证能力，这支持了这样的想法，即即使在小型模型中，推理也可以通过纯RL出现。

TinyZero存储库提到研究报告仍在进行中，我肯定会注意更多细节。

表明该模型能够进行自我验证。（相比之下，看到基本模型的响应很有趣。）

上面提到的两个项目表明，即使预算有限，推理模型上的有趣工作也是可能的。尽管这两种方法均复制DeepSeek-R1的方法，但一种侧重于纯RL（TinyZero），另一种专注于纯SFT（SKY-T1），但探索如何进一步扩展这些想法将很有趣。

超越传统的SFT：旅程学习

去年我遇到的一种特别有趣的方法是在O1复制之旅中描述的：一份战略进度报告 - 第1部分。尽管有标题，该论文实际上并未复制O1。相反，它引入了改善蒸馏（纯SFT）过程的另一种方法。

本文中的关键思想是“旅程学习”作为“快捷方式学习”的替代方法。

这种方法与在Tinyzero的纯RL训练中观察到的自我验证能力有关，但它的重点是通过SFT完全改进模型。通过将模型暴露于不正确的推理路径及其更正，旅程学习也可能会增强自我纠正能力，从而使推理模型以这种方式更可靠。

战略进度报告 - 第1部分

与传统快捷方式学习相反，旅程学习在SFT数据中包含错误的解决方案路径。 O1复制旅程的注释图

这可能是未来工作的令人兴奋的方向，特别是对于低预算推理模型开发，基于RL的方法在计算上可能是不切实际的。

无论如何，当前在推理模型方面正在进行许多有趣的工作，我敢肯定，在接下来的几个月中，我们会看到更多令人兴奋的工作！

来源：澎湃品读

标签： llm deepseek deepseekr1

本文地址：https://news.43u.com.cn/a/605428.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐