摘要:「Z计划」是智谱面向未上市初创企业与优秀独立开发者/团队,提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划。是智谱联合生态伙伴设立的大模型生态投资基金,侧重早期,管理规模 15 亿元人民币。
「Z计划」是智谱面向未上市初创企业与优秀独立开发者/团队,提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划。是智谱联合生态伙伴设立的大模型生态投资基金,侧重早期,管理规模 15 亿元人民币。
有些人认为推理类模型代表着新的 scaling law 范式(inference-time scaling,scale test time compute)。有人则认为现阶段 R1 还没办法很好地接入 Agent 框架中,做出固定路径的长链路任务,只能回答一些谜题、高级数学和编码挑战这种“问题短,需要的长下文短,处理的不同步骤少”问题。要回答推理模型的上两种观点,要先理解推理模型是什么,其优缺点和改进方法,还要了解其中使用的 inference time 改进及RL等方法。因此本文编译了Sebastian Raschka 的 Ahead of AI 博客中的一篇。文章的主要观点摘要: 1.“推理”定义为回答需要复杂、多步骤生成并包含中间步骤的问题的过程。因此推理模型在这上面做了不同于传统模型“推理能力”的优化,比如思考 input 的真正意图和指令,并一步步给出答案,COT(思维链本身就是回复给用户的回复)2.推理模型旨在擅长解决复杂任务,如解谜、高级数学问题和具有挑战性的编码任务。然而,对于摘要、翻译或基于知识的问答等简单任务,它们并非必需。推理模型通常使用成本更高,更冗长,有时由于“过度思考”而更容易出错。3.DeepSeek 没有发布单个 R1 推理模型,而是引入了三个不同的变体:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。他们的继承关系和适用。4.推理时间 scaling 不需要额外的训练,但会增加推理成本,随着用户数量或查询量的增加,大规模部署变得更加昂贵。纯粹的强化学习对研究目的来说很有趣,因为它提供了对推理作为涌现行为的见解。然而,在实际模型开发中,RL + SFT 是首选方法,因为它导致更强的推理模型。R1 是一个良好范本。 蒸馏是一种有吸引力的方法,尤其是在创建更小、更高效的模型方面。然而,其局限性在于蒸馏并不能推动创新或产生下一代推理模型。5.将 RL + SFT 与推理时 scaling 相结合。这很可能是 OpenAI o1 所做的事情,但它可能基于比 DeepSeek-R1 更弱的基模型,这解释了为什么 DeepSeek-R1 在推理时表现良好同时相对便宜。同时一个专注于纯强化学习(TinyZero),另一个专注于纯SFT(Sky-T1)新模型都带来很多这条道路上的启发。6.有待思考的问题:什么场景是适合推理模型企业级试水的呢?推理模型放在我们过往的 Agent 框架里面效果如何?似乎联网搜索+深度思考是一个更迫近日常生活用途的搜索方式。但搜索场景里:机器思维链代替人的思维链这个过程还需要时间去验证。(同时 r1 级别的模型更容易产生人类无法甄别的幻觉信息,这会让学会“say no”之前的机器思维链更不可信)2024 年,LLM领域出现了越来越多的“专业化”。除了预训练和微调之外,我们还见证了从 RAG 到代码助手的专用应用兴起。我预计这一趋势将在 2025 年加速,对领域和应用特定优化的重视程度将更高(即“专业化”)。
阶段 1-3 是开发 LLMs 的常见步骤。阶段 4 专门针对特定用例进行 LLMs的落地
推理模型的开发是这些专业化之一。这意味着我们改进 LLMs 以擅长通过中间步骤解决的最佳复杂任务,例如谜题、高级数学和编码挑战。然而,这种专业化并不取代其他 LLM 应用。因为将LLM转化为推理模型也引入了某些缺点,我将在稍后讨论。#1.我们如何定义推理模型?我们可以把“推理”定义为回答需要复杂、多步骤生成并包含中间步骤的问题的过程。例如,“法国的首都是什么?”这样的事实性问题不涉及推理。相反,像“如果一列火车以每小时 60 英里的速度行驶 3 小时,它会行驶多远?”这样的问题则需要一些简单的推理。例如,它需要识别距离、速度和时间之间的关系,才能得出答案。
我们应该何时使用推理模型?
何时需要推理模型?
推理模型旨在擅长解决复杂任务,如解谜、高级数学问题和具有挑战性的编码任务。然而,对于摘要、翻译或基于知识的问答等简单任务,它们并非必需。实际上,将推理模型用于一切可能会低效且昂贵。例如,推理模型通常使用成本更高,更冗长,有时由于“过度思考”而更容易出错。此外,这里也适用简单规则:为任务使用正确的工具(或类型)。DeepSeek 没有发布单个 R1 推理模型,而是引入了三个不同的变体:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。
Development process of DeepSeeks three different reasoning models that arediscussed in the DeepSeek R1 technical report.DeepSeeks 三种不同推理模型的开发过程,在 DeepSeekR1技术报告中进行了讨论。
DeepSeek-R1-Zero:该模型基于 2024 年 12 月发布的 671B 预训练 DeepSeek-V3 基础模型。研究团队使用两种类型的奖励,通过强化学习(RL)对其进行训练。这种方法被称为“冷启动”训练,因为它不包括监督微调(SFT)步骤,而监督微调通常是包含人类反馈的强化学习(RLHF)的一部分。DeepSeek-R1:这是 DeepSeek 的旗舰推理模型,基于 DeepSeek-R1-Zero 构建。团队通过额外的 SFT 阶段和进一步的 RL 训练进一步优化了它,改进了“冷启动”的 R1-Zero 模型。DeepSeek-R1-Distill*:使用前一步骤生成的 SFT 数据,DeepSeek 团队微调了 Qwen 和 Llama 模型以增强其推理能力。虽然不是传统意义上的蒸馏,但这个过程涉及在更大的 DeepSeek-R1 671B 模型输出上训练较小的模型(Llama 8B 和 70B,以及 Qwen 1.5B–30B。值得注意的是:Distill版本既没有大家说的那么强——部署后发现满血和蒸馏版效果差异较大;也没有大家讲的那么弱,比如有一些版本:30B表现出在coding领域的某些任务很强高于满血版的效果。#4.具体指的是在推理过程中增加计算资源以提高输出质量。人类在思考复杂问题时,如果给予更多时间,往往能产生更好的回应。同样,我们可以应用一些技术,鼓励 LLM 在生成答案时“思考”更多。(尽管,LLMs是否真的“思考”是另一个话题。)
一种简单直观的推理时间Scaling方法是巧妙的提示工程。一个经典的例子是思维链(CoT)提示,其中在输入提示中包含诸如“逐步思考”之类的短语。这鼓励模型生成中间推理步骤,而不是直接跳到最终答案,这在更复杂的问题上往往能导致更准确的结果,但也不一定总是成功。(对于像“法国的首都是什么”这样的简单基于知识的问题,采用这种策略是没有意义的,这又是一个很好的经验法则,用来判断推理模型是否适用于你的给定输入查询。)回答最一开始的问题:Inference-time scaling、scale test time compute目前来讲都是在讲一件事。不同的基于搜索的方法依赖于基于过程-奖励的模型来选择最佳答案。来自LLM 测试时计算论文的注释图,https://arxiv.org/abs/2408.03314
《DeepSeek R1 技术报告》指出,其模型不使用推理时缩放。然而,这项技术通常在LLM的应用层实现,因此 DeepSeek 可能在他们的应用中应用了这项技术。我怀疑 OpenAI 的 o1 和 o3 模型使用了推理时scaling,这可以解释为什么它们相对于 GPT-4o 等模型来说相对昂贵。除了推理时scaling之外,o1 和 o3 可能还使用了类似于 DeepSeek R1 的 RL 管道进行训练。下两节将详细介绍强化学习。4.2 纯强化学习(RL)如前所述,DeepSeek 开发了三种类型的 R1 模型。第一种,DeepSeek-R1-Zero,建立在 DeepSeek-V3 基础模型之上,这是他们在 2024 年 12 月发布的标准预训练LLM。与典型的 RL 流水线不同,其中在 RL 之前应用了监督微调(SFT),DeepSeek-R1-Zero 完全使用强化学习进行训练,没有初始 SFT 阶段,如图下所示。虽然 R1-Zero 不是一个表现最出色的推理模型,但它通过生成中间的“思考”步骤来展示推理能力,如图所示。这证实了使用纯强化学习开发推理模型是可能的,DeepSeek 团队是第一个(至少是第一个公开)展示这种方法的团队。
4.3 监督微调和强化学习(SFT + RL)2.使用纯 SFT 训练的 DeepSeek-V3,类似于蒸馏模型创建的方式。这样就可以直接比较 RL + SFT 与纯 SFT 的有效性。
#5.
Sky-T1 :一个小团队仅使用 17K SFT 样本训练了一个开放权重 32B 模型。总成本?只需 450 美元。根据他们的基准测试,Sky-T1 的表现与 o1 大致相当,考虑到其低廉的训练成本,这很令人印象深刻。
#6.
现在推理模型应用需要我们去探索的
编者按:
推理模型放在我们过往的 Agent 框架里面效果如何(据传很多公司工程师去年搭建了一年的 Agent 春节期间被老板 push 换成 deepseek—R1,这样做很容易让之前的努力全部白费,因为 input/output 和评价标准、路由体系都要 update。
企业级客户虽然会更加谨慎选择,但什么场景是适合推理模型企业级试水的呢?(除了 R1 的写作能力)(毕竟解密、Leetcode 解题并不是 2B 的刚需、在一些传统任务上大家还是在 Sonnet+4o )o3 的第一个 PMF 或者说 MMF(model marketing fit)在哪里?时延要求高的肯定不是,COT 过程中出现一些问题会导致结果受影响的肯定不是。会是大家近期在讲的搜索嘛?似乎联网搜索+深度思考是一个更迫近日常生活用途的搜索方式。但机器思维链代替人的思维链这个过程还需要时间去验证(同时 r1 级别的模型更容易产生人类无法甄别的幻觉信息,这会让学会“say no”之前的机器思维链更不可信)。来源:一叶舟