LLM可以在没有采用强化学习或大型数据集的情况下学习推理吗？

摘要：针对提升LLM推理能力面临的挑战，斯坦福大学研究人员提出了“思考、修剪、训练”（TPT）框架，让LLM利用自生成且验证正确的数据迭代优化。研究表明，无需强化学习、大型数据集或外部教师模型，TPT可以使较小模型推理性能媲美甚至超越大模型，凸显了TPT框架在提升模

针对提升LLM推理能力面临的挑战，斯坦福大学研究人员提出了“思考、修剪、训练”（TPT）框架，让LLM利用自生成且验证正确的数据迭代优化。研究表明，无需强化学习、大型数据集或外部教师模型，TPT可以使较小模型推理性能媲美甚至超越大模型，凸显了TPT框架在提升模型推理能力和准确性的潜力。

目前，缺乏高质量的训练数据仍然是提高大型语言模型（LLM）推理能力的主要障碍之一。

斯坦福大学研究人员最近进行的一项研究探索了一个颇具吸引力的替代方案：LLM能否通过学习自己生成的推理痕迹来提高推理能力？他们提出了“思考、修剪、训练”（TPT）框架，允许LLM使用精心选择的自生成数据迭代地改进它们的推理能力。

这种方法可能是朝着创造更智能、更高效的人工智能模型迈出的一步，而不是简单地构建更大的模型和数据集。

在LLM进行初始训练之后，提升其推理能力目前主要有两种策略。一种方法是“监督微调”（SFT），即LLM从精心整理的问题数据集及其逐步解决方案中学习。另一种流行的方法是“蒸馏”，即一个规模较小的LLM通过模仿一个能力更强、规模更大的“教师”模型的输出进行学习。

而这两种方法都有局限性。SFT需要大量高质量的推理示例数据集，创建这些数据集通常成本昂贵又耗时。另一方面，“蒸馏”完全依赖于获得强大的、通常是专有的“教师”模型。

这就提出了一个令人信服的问题：LLM能否通过对自己生成的数据进行递归微调来改进？早期的尝试面临着一个被称为“模式崩溃”（Mode Collapse）的重大障碍。当LLM在未经过滤的输出上迭代训练时，它们的性能往往会随着时间的推移而下降，可能会开始产生幻觉，忘记以前学到的知识，并生成质量较低的文本，从而陷入恶性循环。

在迭代训练中，一个相关但不同的风险是“模式崩溃”。当一个模型开始收敛于一组狭窄的高概率输出时，就会发生这种情况，其响应变得不那么多样化和具有探索性。虽然之前关于模式崩溃的研究主要集中于没有明确正确或错误答案的一般文本生成上，但对于可以验证正确性的推理任务进行递归微调，则带来了模式崩溃的可能性，即模型局限于非常具体的答案，失去了探索替代推理路径的能力。

斯坦福大学研究人员希望探究，在不采用其他方法带来的复杂性的情况下，模型推理能力的自我提升是否可行。尽管此前许多研究将自我提升视为强化学习（RL）问题，但TPT采取了更为直接的路径。

它采用标准的SFT，但有一个关键转折：模型仅在经过验证的正确推理尝试中进行微调。研究人员探索了是否可以通过仔细选择这种自生成的数据来实现有效的迭代细化。

以下是思考、修剪、训练（TPT）框架的工作原理：

·思考（Think）：提示当前版本的模型为一组问题生成逐步解决方案（推理痕迹或“思维链”）。

·修剪（Prune）：这是一种过滤解决方案，通过检查已知的基本事实答案，只保留那些明显正确的解决方案。这种基于正确性的修剪是避免早期递归训练尝试中出现的模式崩溃的关键。

·训练（Train）：使用SFT在其自身经过验证的正确推理轨迹集上对模型进行微调。

然后重复这个循环，新改进的模型为下一轮TPT生成数据。

图1 思考、修剪、训练（TPT）框架的工作原理

至关重要的是，与DeepSeek-R1或LLaMA 3.1的后训练（Post-training）等模型中使用的基于强化学习（RL）的方法不同，TPT只关注这种递归的、基于正确性的SFT。它表明，不需要强化学习、学习奖励函数或外部“教师”模型，而是依靠结构化提示和基础事实验证，就可以实现自我完善。

为了严格测试这些改进是否来自真正的自我完善，而不仅仅是接触更多的数据，研究人员仔细设计了实验。在每一轮TPT中，他们保持训练数据集大小不变，每个问题只使用一个唯一的正确解决方案。

此外，他们并没有在各轮TPT流程中积累数据，而是采用最新模型版本中新生成的解决方案取代了训练集。这确保了任何性能提升都真正归功于迭代改进过程。

正如斯坦福大学研究人员在论文所指出的那样，“研究表明，在严格的数据约束下，迭代微调可以带来有意义的收益，这表明模型改进不仅仅是数据集的扩展。”

研究人员在谷歌公司的Gemma模型（gemma2-2b-it, gemma2-9b-it）和Meta公司的Llama模型（Llama-3.1-1B-Instruct, Llama-3.1-70B-Instruc）的指令调优版本上测试了TPT，主要在GSM8K数学单词问题基准和CodeContests编程挑战数据集上对它们进行了评估。

其结果令人瞩目。通过TPT流程，相对较小的模型实现了与更大的模型相当甚至更优的推理性能。例如，在GSM8K上，Gemma2-2B模型的准确率（Pass@1，意味着首次尝试就获得正确结果）从41.9%跃升至57.6%。Gemma2-9B模型超过了规模更大的LLaMA-3.1-70B-Instruct的基准性能。相应地，使用TPT的LLaMA-3.1-70B将Pass@1分数从78.6%提升至91.5%，甚至超过了当时GPT-4o在该基准上的报告得分。

有趣的是，这些模型性能提升的速度各不相同。规模较小的Gemma-2-2B模型的性能需要四轮TPT才能达到峰值，而中等规模的Gemma-2-9B模型在三轮TPT内提升更快。大型LLaMA-70B模型的性能仅在一轮TPT之后就得到显著提升，这表明较大模型可能更快地整合了自生成推理的学习内容。

图2 Gemma2-2B模型和Gemma2-9B模型在四轮TPT中的性能表现

研究人员还研究了模式崩溃的可能性。虽然模型在第一次尝试（Pass@1）时的准确性不断提高，但它们在多次尝试（通过Pass@20或Pass@50测量）中生成多种正确答案的能力在第一轮TPT之后趋于平稳。这表明，TPT流程确实引导这些模型优先考虑高可信度、正确的解决方案，而不是探索不同的推理路径。然而，研究人员认为，这并不一定对数学和编程等任务有害，在这些任务中，正确性和效率往往是最重要的。通过将模型集中在经过验证的推理上，TPT甚至可以帮助减少幻觉，并提高对准确性敏感的应用程序的可靠性。

“思考、修剪、训练”（TPT）框架有力地论证了大型语言模型（LLM）能够进行自我训练成为更优秀的推理者。正如研究人员在论文中所写的那样，“结构化推理提示、基于正确性的修剪，以及对经过验证的解决方案的监督微调，可以在没有外部监督的情况下实现推理能力的自我提升，凸显了简化框架在LLM推理和准确性方面进一步发展的潜力。”

来源：51CTO一点号

标签：学习推理 llm 数据集 tpt

本文地址：https://news.43u.com.cn/a/1854298.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!