大模型军备竞赛--如何跨过数学和代码实现通用推理？

摘要：强化学习在构建具备强推理能力的大模型上扮演着越来越重要的作用。然而，大多数模型（OpenAI-o1, OpenAI-o3, DeepSeek-R1, and Qwen-QwQ）仅关心数学和代码任务上的表现，这也对后续小模型的继续开发起到了引导作用，越来越多的开

强化学习在构建具备强推理能力的大模型上扮演着越来越重要的作用。然而，大多数模型（OpenAI-o1, OpenAI-o3, DeepSeek-R1, and Qwen-QwQ）仅关心数学和代码任务上的表现，这也对后续小模型的继续开发起到了引导作用，越来越多的开发者关注于数学（如AIME）和代码（如LiveBench）数据集上的表现。本文将简要分析如何使得模型具备在数学和推理任务之外的通用推理能力，并讨论奖励信号的构建。

除了数学和代码外，我们关心模型在通用场景下的语言推理能力，包括逻辑推理(Verbal Logic Reasoning)，因果推理(Causal Reasoning)，和科学探索(AI Discorvery)等任务。

近年来，大型语言模型（LLM）的推理能力评测主要局限在数学问题求解和代码生成这两类任务上。这主要有以下几类原因：

缺乏明确的客观奖励：数学和编程任务通常有唯一正确的答案或可验证的结果，方便构建规则奖励函数(Rule-based Reward)。例如，数学题有标准数值答案，代码任务则可通过运行单元测试来验证正确性。这种明确的正确性标准使得评测更可靠，作为奖励信号效果更优，例如Deepseek-R1采用规则奖励函数和格式奖励函数来优化基座模型Deepseek-V3。进一步的实验也证明了仅依赖于规则奖励函数进行端到端强化学习可以有效提升模型在数学数据集（AIME&Math-500）上的表现。Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.

2. 需要多步推理：数学题（如文字应用题）和编程题通常需要模型进行连贯的多步推理才能得出答案。例如，求解数学题需要逐步演算，编写程序需要逻辑推演和规划。这样的任务非常契合“链式思考（Chain-of-Thought）”推理过程，能够测试模型逐步推理的能力。事实上，引入链式思考提示显著提升了模型在数学推理上的表现，凸显了这些任务对推理能力的要求

Scheherazade: Evaluating Chain-of-Thought Math Reasoning in LLMs with Chain-of-Problemsarxiv.org

3. 现有数据集资源：学术界已经构建了大量数学和编程领域的公开数据集作为评测基准。如数学方面有GSM8K（小学算术到初中数学）、MATH（高中奥赛和大学数学题）、AIME（美国数学奥林匹克竞赛）等；代码方面有HumanEval、MBPP等。这些数据集为评测提供了统一标准，使不同模型的对比成为可能。

研究进展:

下面，我们基于这三方面分析如何将大模型推理能力推广至通用任务上。

明确的奖励函数设计：对于没有标准答案的通用推理任务，例如智能体（agent），无需手动标注即可自动标注过程监督的数据。这里又包含两种方案：

1）蒙特卡洛模拟：过程奖励模型（PRM）来近似策略的状态-动作价值函数Qπ(s,a)，即从某状态采取某动作后最终成功的期望回报。通过让策略最大化该Q函数的估计值，智能体能够依据中间步骤的反馈来改进行为，而不仅依赖最终结果奖励。这一框架无需人工标注每步奖励：它利用蒙特卡洛回合模拟自动生成PRM的训练信号，并采用强化学习迭代优化策略，使PRM和策略相互提升。这种轻量级actor-critic范式与现有RLHF流程高度兼容；除了用蒙特卡洛回报代替人工偏好外，其余部分（监督训练奖励模型，KL正则的RL微调策略）均与标准RLHF相同。为了增加强化学习训练的稳定性和降低Reward Hacking出现的概率，需要在策略更新中引入KL散度正则，约束新旧策略分布差异。

2）缺乏明确定义的环境奖励信号时，直接利用专家示范数据来学习过程奖励模型。现实中设计良好的奖励函数往往困难且易出错，需要穷举成功和失败的条件。假设我们只拥有一批专家演示，（对Agent任务来说，是成功完成任务的交互序列；对因果任务来说，是成功完成一次事件级别的因果推理；对于ARC任务来说，是一次完整的逻辑推理链条）。这类任务没有明确的终态奖惩反馈。在这种情况下，模型需要从示范行为中反推奖励函数，使得该奖励函数在专家策略下取得高回报、在非专家策略下回报较低。问题定义：可以用逆向强化学习（IRL）的问题设定，找到一个奖励函数，使专家策略相对于任何其他策略具有最大优势。而形式上，可构造一个Two-player Game（两玩家博弈）：奖励函数作为判别者，试图赋予专家演示更高的累积奖励；策略作为生成者，试图最大化该奖励。利用这一思想，通过学习一个过程奖励模型Q(s,a)（对应隐含的即时奖励函数），可以使得专家行为序列获得的累计价值高于其它行为序列。直观地，让PRM去辨别“专家行为”和“非专家行为”，从而在没有终态奖励的情况下自动构建出能够评价中间步骤好坏的模型。

2. 通用文本多步推理任务提升：对于通用任务来讲，脱离规则化的奖励，一个潜在的方向是将问题建模成文字多智能体游戏。这篇文章提出了一种“自然语言强化学习（NLRL）”的新范式，其核心思想是将传统强化学习中定义的任务目标、策略、价值函数、贝尔曼方程等关键概念转换为自然语言描述，借助大语言模型（如GPT-4）的语言理解和生成能力来实现决策制定。通过这种方式，NLRL能够利用语言中蕴含的丰富先验知识和高信息密度，显著提高样本效率和可解释性，同时让策略推理过程更加直观。这种方式也可以用来产生通用多步推理任务的可靠合成数据。

还有另外一种非常有趣的方法，这篇文章探讨了如何通过自我博弈（Self-Play）对抗性语言游戏（Adversarial Language Game）来提升大语言模型（LLMs）的推理能力。研究者设计了一种名为Adversarial Taboo的对抗性语言游戏，其中攻击者（Attacker）试图诱导防守者（Defender）无意间说出目标词，而防守者则试图从对话中推理出目标词，同时避免直接说出它。Adversarial Taboo游戏的设计迫使LLMs在信息受限的条件下进行高层次推理，提高了其表达能力、理解能力和逻辑推理能力。游戏规则简单且自动化，避免了对人类标注数据的依赖，提高了训练效率。经过多轮自我博弈训练（SPAG），LLMs在多个推理基准（如MMLU、BBH、ARC、WinoGrande等）上的表现持续提升。该方法比传统的链式思维（Chain-of-Thought, CoT）方法更有效，且比单纯的监督微调（SFT）方法泛化能力更强。研究还表明，对抗性游戏比一般的语言游戏（如20-Questions或Guess-My-City）对推理能力的提升更显著。

3. 数学和代码任务之外的推理数据集：280万个问题的综合推理数据集NATURALREASONING。超越数学和编程等传统领域的推理能力扩展受到缺乏多样化、高质量问题的限制。为克服这一局限性，研究人员提出了一种可扩展的方法，用于生成多样且具有挑战性的推理问题，并附带参考答案。这是一个涵盖 280 万个问题的综合数据集，涉及多个领域，包括 STEM 领域（如物理学、计算机科学）、经济学、社会科学等。知识蒸馏实验证明了 NATURALREASONING 问题的实用性，实验表明该数据集能够有效地从强大的教师模型中提取并传递推理能力。此外还证明 NATURALREASONING 在无监督自训练中同样有效，可结合外部奖励模型或自奖励机制进行优化。

NATURALREASONING 允许使用外部奖励模型或自奖励机制进行自训练，无需人工监督标注。基于自训练的方法可获得比外部奖励模型更优的性能，提升模型推理能力。问题具有更高的复杂性和多样性，平均问题长度为 55 词，长于其他推理数据集，显示其更具挑战性。参考答案覆盖率达 81.68%，大部分问题的参考答案为详细的长文本，有助于模型的推理训练。

总结与展望：

多智能体强化学习迎来新的机遇，但也有很多问题亟待解决。比如，传统利用没有权重的多智能体协作框架时除Multi-agent Debate的方法外有没有更为智能达到纳什均衡的训练方法，进而实现推理过程语义与文字表达解耦的目的，从而达到摆脱传统后训练(post-training)数据依赖的目的。再比如，基于Leader-Follower框架的Prove-Verifier Game 完成 Stackelberg Game，即斯塔克伯格博弈，一个两阶段的完全信息动态博弈,双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化，从而达到纳什均衡。虽然理论完美，但实验结果依旧不如人意。这些开放问题都很有趣，有待继续探索。