摘要:例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调(Reinforcement Fine-Tuning,RFT),进一步推动了 AI 定制化的发展[1]。RFT/ReFT[2] 的一个关键组成部分是使
基于逐步生成解决方案的大语言模型(LLMs)训练范式在人工智能领域获得了广泛关注,并已发展成为行业内的主流方法之一。
例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调(Reinforcement Fine-Tuning,RFT),进一步推动了 AI 定制化的发展[1]。RFT/ReFT[2] 的一个关键组成部分是使用思维链(Chain-of-Thought,CoT)注释[3] 进行监督微调(Supervised Fine-Tuning,SFT)。在 DeepSeek-R1 模型[4] 中,引入了少量长 CoT 冷启动数据,以调整模型作为初始强化学习的代理。
然而,为了全面理解采用 CoT 训练的策略,需要解决两个关键问题:
Q1:与无 CoT 训练相比,采用 CoT 训练有哪些优势?Q2:如果存在优势,显式 CoT 训练的潜在机制是什么?由于实际训练过程中涉及众多因素,分析显式 CoT 训练的优势及其潜在机制面临显著挑战。为此,我们利用清晰且可控的数据分布进行了详细分析,并揭示了以下有趣现象:
CoT 训练的优势(i)与无 CoT 训练相比,CoT 训练显著增强了推理泛化能力,将其从仅适用于分布内(in-distribution, ID)场景扩展到 ID 和分布外(out-of-distribution, OOD)场景(表明系统性泛化),同时加速了收敛速度(图 1)。
图表 1: 模型在优化过程中对训练和测试两跳推理事实的准确率。
(ii)即使 CoT 训练中包含一定范围的错误推理步骤,它仍能使模型学习推理模式,从而实现系统性泛化(图 4 和图 5)。这表明数据质量比方法本身更为重要。训练的主要瓶颈在于收集复杂的长 CoT 解决方案,而推理步骤中存在少量的错误是可以接受的。
CoT 训练的内部机制(i)数据分布的关键因素(如比例 λ 和模式 pattern)在形成模型的系统性泛化中起着决定性作用。换句话说,在 CoT 训练中仅接触过两跳数据的模型无法直接泛化到三跳情况,它需要接触过相关模式。
(ii)通过 logit lens 和 causal tracing 实验,我们发现 CoT 训练(基于两跳事实)将推理步骤内化到模型中,形成一个两阶段的泛化电路。推理电路的阶段数量与训练过程中显式推理步骤的数量相匹配。
我们进一步将分析扩展到推理过程中存在错误的训练数据分布,并验证了这些见解在现实数据上对更复杂架构仍然有效。
据我们所知,我们的研究首次在可控制的实验中探索了 CoT 训练的优势,并提供了基于电路的 CoT 训练机制解释。这些发现为 CoT 以及 LLMs 实现稳健泛化的调优策略提供了宝贵的见解。
一、预备知识与定义
本部分介绍研究使用的符号定义,具体如下:
原子与多跳事实:研究使用三元组来表示原子(一跳)事实,并基于原子事实和连接规则来表示两跳事实以及多跳事实。
二、系统性组合泛化
本研究聚焦于模型的组合能力,即模型需要将不同事实片段「串联」起来的能力。尽管显式的推理步骤表述(如思维链推理)能够提升任务表现 [4-8],但这些方法在大规模(预)训练阶段并不可行,而该阶段正是模型核心能力形成的关键时期 [9-10]。已有研究对基于 Transformer 的语言模型是否能够执行隐式组合进行了广泛探讨,但均得出了否定结论 [11-12]。
具体而言,存在显著的「组合性鸿沟」[11],即模型虽然掌握了所有基础事实却无法进行有效组合的情况,这种现象在不同大语言模型中普遍存在,且不会随模型规模扩大而减弱。
更准确地说,Wang 等人 [13] 的研究表明,Transformer 模型能够在同分布泛化中学习隐式推理,但在跨分布泛化中则表现欠佳(如图 1 左所示)。
这自然引出一个问题:如果在训练过程中使用显式推理步骤,模型的泛化能力将受到何种影响?(即回答 Q1:与无思维链训练相比,基于思维链的训练具有哪些优势?)
思维链训练显著提升推理泛化能力
如图 1 所示,我们展示了模型在训练和测试两跳事实上的准确率随优化过程的变化,其中 λ = 7.2。
关键影响因素探究
研究进一步开展了消融实验,以评估不同因素在思维链训练中的影响。
图表 2: 分布外测试集上的推理泛化速度。
适当的 λ 值能够加速模型收敛。图 2(左)展示了不同 λ 值下的分布外测试准确率。可以看出,λ 值与泛化速度存在强相关性。更有趣的是,较小的 λ 值能够加速由思维链训练带来的分布外泛化能力提升,从而减少对长时间训练的需求。然而,λ 值并非越小越好,因为过小的 λ 值可能导致模型无法学习相关规则。
不同模型规模 / 层数和训练集大小的影响。我们在模型层数∈{2,4,8} 和 λ∈{3.6,7.2,12.6} 的条件下进行实验。总体而言,可以观察到扩大模型规模并不会从根本上改变其泛化行为,主要趋势是较大的模型能够在更少的优化步骤中收敛。关于训练集大小(|E|)的影响,我们的结果与 [13] 一致:当固定 λ 值时,训练集大小不会对模型的泛化能力产生本质影响。
两跳到多跳分析
总结:至此,我们已经证明在受控实验中引入显式思维链训练能够显著提升推理泛化能力,使其从仅限分布内泛化扩展到同时涵盖分布内和分布外泛化。数据分布的关键因素(如比例和模式)在形成模型的系统性泛化能力中起着重要作用。然而,驱动这些改进的内部机制仍不明确,我们将进一步探讨(回答 Q2:如果存在优势,显式思维链训练的潜在机制是什么?)。
图表 3: 两跳事实训练对应的两阶段泛化电路(模型层数:8)。
三、两阶段泛化电路
研究通过两种主流方法分析模型在泛化过程中的内部工作机制:logit lens [16] 和 causal tracing [17],本部分研究使用表示两跳推理。
系统性泛化解释
(1)两阶段泛化电路表明,使用思维链训练可以将推理步骤内化到模型中。这也解释了为什么模型在思维链训练下能够在跨分布测试数据上表现出良好的泛化能力。
(2)该电路由两个阶段组成,与训练期间模型中的显式推理步骤相一致。因此,模型在思维链训练期间仅接触两跳数据时无法在测试阶段直接泛化到三跳场景。
四、更普适的分析
总体而言,我们目前的研究为通过受控数据分布上的思维链训练来深入理解和增强 Transformer 的泛化能力铺平了道路。然而,现实世界中的训练数据分布往往更为复杂。在本部分中,我们将分析扩展到推理过程中存在错误的分布,并展示思维链训练能提高模型的泛化能力的结论在更复杂的场景中仍然成立。
数据分布带噪
方法:我们旨在分析通过思维链训练获得的系统性泛化能力在噪声训练数据下的鲁棒性。我们通过随机选择一个有效实体向引入噪声(真实训练目标为):
需要注意的是,噪声比例用 ξ 表示,我们将探讨不同 ξ 值的影响。
图表 4: 仅第二跳噪声对分布内和分布外的影响。
图表 5: 模型在不同噪声比例(两跳均有噪声)下对训练和测试两跳推理事实的准确率。
结果:我们针对两种情况分析了不同的 ξ(噪声比例)候选集:仅第二跳有噪声时为 {0.05, 0.2, 0.4, 0.6, 0.8},两跳均有噪声时为 {0.05, 0.1, 0.2, 0.4}。比较结果如下:
(1)图 4 清晰地展示了仅第二跳噪声对分布内和分布外泛化的影响。总体而言,在思维链训练条件下,模型仍能够从噪声训练数据中实现系统性泛化,但其泛化能力随着噪声比例的增加而降低。
更具体地说,随着训练的进行,分布外泛化最初保持不变,然后增加,而分布内泛化先增加后减少。分布内泛化的减少与分布外泛化的增加相对应。
然而,随着噪声比例的增加,分布内和分布外泛化的最终性能都会下降。特别是当噪声比例(ξ
此外,我们同样检查了泛化电路。由于我们仅在第二跳添加噪声,第一跳阶段的电路学习得相对较好,而第二跳阶段的电路受噪声影响更大。
(2)图 5 展示了在两跳噪声 ξ 值为 0.05、0.1、0.2 和 0.4 时的结果比较。与仅在第二跳添加噪声相比,在两跳都添加噪声对模型泛化的抑制效果要强得多。大于 0.2 的噪声比例足以几乎消除分布内和分布外泛化能力。
总而言之,即使在训练数据存在噪声的情况下,当噪声在一定范围内时,思维链训练仍能使模型实现系统性泛化。特别是当噪声比例较小时,这些噪声数据仍能帮助模型学习泛化电路。
五、讨论
总结
本文通过在受控和可解释的环境中展示系统性组合泛化如何通过显式思维链(CoT)训练在 Transformer 中产生,揭示了思维链训练的核心机制。具体而言:
(1)与无思维链训练相比,思维链训练显著增强了推理泛化能力,使其从仅限分布内(ID)泛化扩展到同时涵盖分布内和分布外(OOD)场景。
(2)通过 logit lens 和 causal tracing 实验,我们发现思维链训练(使用两跳事实)将推理步骤内化到 Transformer 中,形成了一个两阶段泛化电路。然而,模型的推理能力受训练数据复杂性的限制,因为它难以从两跳情况泛化到三跳情况。这表明思维链推理主要是重现了训练集中存在的推理模式。
(3)我们进一步将分析扩展到推理过程中存在错误的训练数据分布,证明当噪声保持在一定范围内时,思维链训练仍能使模型实现系统性泛化,此类噪声数据的结构或许有助于泛化电路的形成。
有趣的是,我们的工作还突出了思维链训练的瓶颈:训练数据分布(比例 λ 和模式)在引导模型实现泛化电路方面起着关键作用。模型需要在训练过程中接触过相关模式(特别是思维链步骤的数量)。
这可能解释了为什么 DeepSeek-R1 [4] 在冷启动阶段构建和收集少量长思维链数据来微调模型。我们的发现为调整大语言模型(LLMs)以实现稳健泛化的策略提供了关键见解。
不足与未来展望
(1)尽管我们的自下而上的研究为实际应用提供了宝贵的见解,但我们工作的一个关键局限是实验和分析基于合成数据,这可能无法完全捕捉现实世界数据集和任务的复杂性。虽然我们的一些结论也在 Llama2-7B [18] 等模型中得到了验证,但有必要在更广泛的模型上进行进一步验证,以弥合我们的理论理解与实际应用之间的差距。
(2)我们的分析目前仅限于使用自然语言。未来,我们旨在探索大型语言模型在无限制潜在空间中的推理潜力,特别是通过训练大型语言模型在连续潜在空间中进行推理 [19] 等方法。
(3)最近的一种方法,「backward lens」[20],将语言模型的梯度投影到词汇空间,以捕捉反向信息流。这为我们完善思维链训练的潜在机制分析提供了一个新的视角。
作者介绍
刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文 100 余篇,其中以第一作者 / 通讯作者发表顶级期刊和会议论文近 50 篇,涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和顶级会议 ICML、NeurIPS 等。获中国人民大学「杰出学者」、中国科学院「青年创新促进会」成员、中国科学院信息工程研究所「引进优青」等称号。主持国家自然科学面上 / 基金青年、北京市面上项目、中科院基础前沿科学研究计划、腾讯犀牛鸟基金、CCF - 华为胡杨林基金等项目。
姚鑫浩,中国人民大学高瓴人工智能学院博士研究生,本科毕业于中国人民大学高瓴人工智能学院。当前主要研究方向包括大模型推理与机器学习理论。
参考文献
[1] OpenAI. 12 days of openai. https://openai.com/ 12-days/, 2024a.
[2] Trung, L., Zhang, X., Jie, Z., Sun, P., Jin, X., and Li, H. ReFT: Reasoning with reinforced fine-tuning. In Ku, L.-W., Martins, A., and Srikumar, V. (eds.), Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.7601–7614, 2024.
[3] Wei, J., Wang, X., Schuurmans, D., Bosma, M., brian ichter, Xia, F., Chi, E. H., Le, Q. V., and Zhou, D. Chain of thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing Systems, 2022.
[4] DeepSeek-AI, Guo, D., Yang, D., Zhang, H., et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025. URL https://arxiv.org/abs/2501.12948.
[5] Lake, B. and Baroni, M. Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. In Proceedings of the International Conference on Machine Learning, pp. 2873–2882, 2018a.
[6] Wang, B., Deng, X., and Sun, H. Iteratively prompt pretrained language models for chain of thought. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 2714–2730, 2022.
[7] Zelikman, E., Wu, Y., Mu, J., and Goodman, N. STar: Bootstrapping reasoning with reasoning. In Advances in Neural Information Processing Systems, 2022.
[8] Liu, J., Pasunuru, R., Hajishirzi, H., Choi, Y., and Celikyilmaz, A. Crystal: Introspective reasoners reinforced with self-feedback. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 11557–11572, 2023.
[9] Li, Z., Wallace, E., Shen, S., Lin, K., Keutzer, K., Klein, D., and Gonzalez, J. Train big, then compress: Rethinking model size for efficient training and inference of transformers. In Proceedings of the 37th International Conference on Machine Learning, pp. 5958–5968, 2020.
[10] Zhou, C., Liu, P., Xu, P., Iyer, S., Sun, J., Mao, Y., Ma, X., Efrat, A., Yu, P., YU, L., Zhang, S., Ghosh, G., Lewis, M., Zettlemoyer, L., and Levy, O. Lima: Less is more for alignment. In Advances in Neural Information Processing Systems, 2023a.
[11] Press, O., Zhang, M., Min, S., Schmidt, L., Smith, N., and Lewis, M. Measuring and narrowing the compositionality gap in language models. In Findings of the Association for Computational Linguistics: EMNLP 2023, pp. 5687– 5711, 2023.
[12] Yang, S., Gribovskaya, E., Kassner, N., Geva, M., and Riedel, S. Do large language models latently perform multi-hop reasoning?, 2024. URL https://arxiv. org/abs/2402.16837.
[13] Wang, B., Yue, X., Su, Y., and Sun, H. Grokking of implicit reasoning in transformers: A mechanistic journey to the edge of generalization. In Advances in Neural Information Processing Systems, 2024a.
[14] Power, A., Burda, Y., Edwards, H., Babuschkin, I., and Misra, V. Grokking: Generalization beyond overfitting on small algorithmic datasets, 2022. URL https:// arxiv.org/abs/2201.02177.
[15] Cabannes, V., Arnal, C., Bouaziz, W., Yang, X. A., Charton, F., and Kempe, J. Iteration head: A mechanistic study of chain-of-thought. In Advances in Neural Information Processing Systems, 2024.
[16] Nostalgebraist. Interpreting gpt: The logit lens, 2020.
[17] Pearl, J. Causality: Models, Reasoning, and Inference. Cambridge University Press, Cambridge, 2009. ISBN 9780521426085.
[18] Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Roziere, B., Goyal, N., Hambro, E., ` Azhar, F., et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
[19] Hao, S., Sukhbaatar, S., Su, D., Li, X., Hu, Z., Weston, J., and Tian, Y. Training large language models to reason in a continuous latent space, 2024b. URL https:// arxiv.org/abs/2412.06769.
[20] Katz, S., Belinkov, Y., Geva, M., and Wolf, L. Backward lens: Projecting language model gradients into the vocabulary space. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pp. 2390–2422, 2024.
来源:机器之心Pro