Long-CoT 后,推理模型的「思维模板」有哪些新玩法?

360影视 日韩动漫 2025-03-18 18:57 4

摘要:基于思维链(Chain-of-Thought)的推理模型正经历从"短程启发"到"长程规划"的范式跃迁。OpenAI o1、DeepSeek R1、Kimi K1.5 等基于「长链思维」的推理模型在数学证明、复杂决策等复杂场景中展现出接近人类的分层推理能力。「长

基于思维链(Chain-of-Thought)的推理模型正经历从"短程启发"到"长程规划"的范式跃迁。OpenAI o1、DeepSeek R1、Kimi K1.5 等基于「长链思维」的推理模型在数学证明、复杂决策等复杂场景中展现出接近人类的分层推理能力。「长链思维」的「模板」怎么魔改更高效?哪些「模板」能带来更高的推理能力上限?

目录

01. 推理模型后训练效果好,「思维模板」少不了??

「思维模板」可用在哪些后训练环节?近期有哪些新的模板设计?...

02. 提高推理效率,「思维模板」是如何工作的?

长链思维的模板怎么改更高效?...

03. 哪些「思维模板」能提高模型的推理能力上限?

CoT 怎么设计能让LLM的推理效果更好?把代码改成CoT会更强吗?

04. 多模态推理模型的「思维模板」应如何构建?

多模态推理有哪些思维模板?现有的模板哪些更强?

01 推理模型后训练效果好,「思维模板」少不了?

在 LLMs 中的「推理」仍然是一个有争议的话题,现有的许多模型可以产生看起来逻辑连贯的回应,但它们的推理方式与人类的逻辑推理截然不同。而近期许多推理模型在 test-time Scaling 中取得突破,通过让模型产生更长的 CoT 来实现更强的推理能力,也引发了许多对该技术的深入研究。CoT 如同推理模型提供了一套套「思维模板」,在后训练的多个环节里扮演着重要角色。

1、在推理模型的后训练中,以思维链(CoT)为代表的推理策略的核心在于类似提供一套「思维模板(Template)」,让模型将问题分解为逐步的中间推理步骤,逐步阐述解法,从而提升模型的推理能力。[1-1]

① 让模型按照思维模板进行推理为研究者提供了观察模型为何会犯错的窗口,从而为优化和 debug 提供了更多机会。

② 让模型按照模板思考适用于数学应用题、常识推理和符号操作,也允许用在其他能用人类通过语言解决的问题,从而加强 few-shot 样例的效果,同时增强准确性和可解释性。

2、 在「思维模板」的探索和优化中,近期如 OpenAI o1、DeepSeek R1 和 Kimi 1.5 等工作证明了将长链思考(Long-CoT)形式的模板用作推理模型后训练,可以有效提高其性能上限,进而带来了更多有关这种推理策略的研究。

① 通过思维模板学会长链思考的模型不仅具有更长的符号长度,还具备「分支和回溯」即「错误验证和纠正」等复杂能力。[1-3]

② 以 DeepSeek 团队为例,其为 R1-Zero 设计了一个简单的模板来引导模型在强化学习中遵循指令,确保模型在生成答案之前先进行逐步推理,更清晰地表达其思考过程,减少直接跳跃到错误答案的可能性。[1-2]

③ 仅通过简单的模板,R1-Zero 在训练过程中自然学到了 Long-CoT(长链推理)的能力,即通过生成较长的推理步骤来逐步解决问题,取得了更优的推理效果。[1-2]

3、当模型遵照「思维模板」学会分步骤推理后,其生成的 CoT 数据,尤其是 Long-CoT 数据能够进一步用作 SFT 和和强化学习中奖励模型或奖励机制的一部分,进一步用作推理模型的训练。[1-2]

① 在 DeepSeek R1 的训练过程中,研究者通过收集数千条 Long-CoT 数据用作 R1 的冷启动微调,为后续强化学习训练打下基础。

② 在 R1 的推理导向的 RL 训练中,DeepSeek 团队通过语言一致性奖励机制对模型在推理时生成的 CoT 进行评估,从而确保 R1 在处理多语言混合问题时推理过程的可读性。

③ 此外,在训练生成的 checkpoint 通过拒绝采样收集高质量的的推理(Long-CoT)数据可用作新一阶段或新模型的 SFT。DeepSeek 团队用这种方法,通过 R1 训练得到了一系列蒸馏模型。

4、除了 DeepSeek 和 Kimi,近期有许多工作尝试翻新「思维模板」设计,进而带来 许多「XoT」「CoX」等 CoT 的优化或变体,分别针对不同场景的推理任务提供适配的「模板」以加强模型的推理性能、效率或节省预算。

02 提高推理效率,「思维模板」是如何工作的?

在追求高效推理的过程中,研究者们提出了多种创新的 CoT 模板,旨在减少计算资源的浪费,同时保持模型的准确性和推理能力。这些模板通过优化推理过程、动态调整计算量等方式,实现了在不同场景下的高效推理。近期出现的 Dynasor、LCPO 和 CoD 均尝试设计独特的机制在保证推理质量的同时显著降低计算成本。类应用,另一类是代码工具类应用,包括针对于开发者的 Agentic IDE 应用和文本到网络应用平台......

来源:晚晚的星河日记

相关推荐