层次化多步奖励模型：增强大模型推理能力的新探索

摘要：随着大模型在各类生成任务中的表现不断提升，如何进一步改进它们在多步推理任务中的能力，特别是数学和逻辑推理方面，已成为大家的关注点。本文通过引入层次化评估和高效的数据增强策略，有效提升了模型在多步推理任务中的表现，尤其在模型需要识别并纠正前序错误的场景中表现突出

本文共3400字，建议阅读10+分钟

本文通过引入层次化评估和高效的数据增强策略，有效提升了模型在多步推理任务中的表现，尤其在模型需要识别并纠正前序错误的场景中表现突出。

随着大模型在各类生成任务中的表现不断提升，如何进一步改进它们在多步推理任务中的能力，特别是数学和逻辑推理方面，已成为大家的关注点。本文通过引入层次化评估和高效的数据增强策略，有效提升了模型在多步推理任务中的表现，尤其在模型需要识别并纠正前序错误的场景中表现突出。

作者：Teng Wang（香港大学），Zhangyi Jiang（北京大学），Zhenqi He（香港大学），Wenhan Yang（香港大学），Yanan Zheng（新加坡国立大学），Zeyu Li（佐治亚理工学院），Zifan He（北京大学），Shenyang Tong（北京大学），Hailei Gong（清华大学）

发表时间：2025年3月19日（预印本）

arXiv链接：https://www.arxiv.org/pdf/2503.13551

随着大模型参数规模不断扩大，它们在文本理解和数据生成等任务中的能力显著提升，甚至超越了人类水平。但在数学和逻辑推理等需要严密思考的任务中，大模型的能力上限和内在局限性仍是一个开放性问题。虽然近期的方法如思维链（Chain-of-Thought, CoT）和思维树（Tree-of-Thought, ToT）大幅提升了推理性能，但它们各有不足：CoT缺乏在中间步骤出错时暂停推理的机制，导致错误传播；而ToT不能内在地验证每个中间步骤，也无法保证找到最优的推理路径，这在复杂问题解决场景中限制了其可靠性。

目前大模型推理能力增强的奖励机制主要有两种：结果奖励模型（Outcome Reward Model, ORM）和过程奖励模型（Process Reward Model, PRM）。ORM存在反馈延迟和信用分配问题，难以确定哪些推理步骤对最终答案有贡献；PRM提供更细粒度的监督，但容易受到奖励黑客（reward hacking）的影响，模型可能会利用奖励信号而非真正提升推理能力，降低了在复杂任务中的可靠性。此外，PRM的高注释成本也使大规模部署面临挑战。

本研究聚焦于解决PRM中的局限性，特别是如何减轻奖励黑客对PRM的影响。传统PRM会在推理步骤出错时直接惩罚，而不考虑后续步骤可能的纠正。相比之下，本文提出的层次化奖励模型（HRM）评估多个步骤间的推理连贯性，能够识别并整合后续对早期错误的修正，从而实现更稳健可靠的评估。

现有的奖励建模方法各有优缺点：PRM专注于细粒度、逐步推理评估，而ORM则评估整体推理过程。为整合两者优势，作者提出了层次化奖励模型（HRM），该模型不仅评估单个推理步骤，还通过分析连续步骤确保多步推理的连贯性。

HRM的训练数据集由从第1步到第N步的连续推理序列组成，是PRM训练数据的超集。具体来说，HRM训练数据在PRM单步数据的基础上，额外合并了连续的推理步骤对，以增强推理连贯性并改进错误纠正中的自我反思能力。形式上，若以表示训练数据集，表示推理序列中的总步骤数，表示第个推理步骤，表示为步骤分配分数的奖励函数，则PRM和HRM的训练数据集定义为：

HRM设计有两个主要目标：(1) 同时捕捉细粒度和粗粒度的推理一致性；(2) 实现自我反思和错误纠正。与PRM在遇到错误时终止评估不同，HRM会评估后续步骤是否纠正了早期错误，将它们视为一个整体而非孤立的错误。

值得注意的是，虽然HRM训练数据包含合并的推理步骤，但在推理阶段，该模型仍然像PRM一样逐步评估，仅基于当前步骤分配奖励。

尽管过程监督能够增强政策模型的推理能力，但人工注释的成本极高。为解决这一问题，已有研究提出基于蒙特卡洛树搜索（MCTS）的自动注释方法。在此基础上，作者提出了层次化节点压缩（HNC）数据增强方法，最大程度地利用MCTS生成的数据。

HNC的核心思想是将两个连续的节点（每个对应一个推理步骤）合并为单个节点，从而创建一个新分支，几乎不增加计算开销。HNC假设每个节点有足够多的子节点，通过随机删除或合并连续节点，引入受控噪声，增强基于MCTS的评分的鲁棒性。

在HNC之前，每个子节点对总分数的贡献为。HNC随机移除一个节点后，剩余子节点的权重重新分配为，增加了它们的个体影响力。从父节点的角度看，子节点是独立同分布的，因此父节点分数的期望保持不变。但方差从增加到，引入了受控噪声，实现了极低计算成本的有效数据增强。当足够大时，这种方差变化保持适度，同时仍能促进有效的数据增强。

为从MCTS中筛选高质量推理数据，作者采用了基于MC-Score或利用PRM/HRM分配分数的两种方法。为缓解奖励模型导致的奖励黑客问题，作者应用了基于MC-Score的高质量数据过滤器。

受计算资源限制，本研究未采用PPO或GRPO等强化学习方法，而是继续使用监督式微调。为保留政策模型的通用能力，作者结合了因果语言建模损失和使用参考模型的KL散度正则化。目标函数定义为：

其中表示在高质量推理序列上计算的因果语言建模损失，表示策略模型输出分布与参考模型输出分布之间的KL散度，作为权重因子平衡任务特定适应和通用能力的保留。

适当的对数缩放确保了KL损失（通常范围0到20000）与因果LM损失（范围0到12）之间的平衡，稳定了损失分布，在保留通用语言能力和增强推理能力之间取得了平衡。

研究利用PRM800K数据集的人工注释构建了ORM、PRM和HRM的训练数据集。作者使用Qwen2.5-1.5B-Math作为奖励模型（RM），用于将给定的推理步骤分类为正确或错误。政策模型使用Qwen2.5-72B-Math-Instruct，并实施最佳N策略（best-of-N strategy）：ORM从N个完整推理轨迹中选择最佳结果，而PRM和HRM则对N个中间推理步骤进行评分，并在每一步选择最有希望的步骤。

实验表明，随着N值增加，政策模型在ORM和PRM下的准确率表现出显著波动，且呈下降趋势。相比之下，使用HRM的政策模型保持稳定表现，并随着N值增长收敛到80%的准确率，展现出对奖励黑客的更强鲁棒性。

本节中，作者仅使用了PRM800K数据集的问题和标准答案，而不依赖人工注释数据。他们采用具有Qwen2.5-7B-Math-Instruct的MCTS作为自动注释方法生成推理轨迹，然后用这些自动注释的推理轨迹训练PRM，之后应用HNC数据增强方法为HRM生成额外训练数据。

为平衡计算效率和鲁棒性，MCTS配置为每个父节点5-6个子节点，最大树深度为7，确保在7步内完成推理。完整MCTS模拟需要约2,457 A100-80GB GPU小时，而HNC增强过程仅需约30分钟。

作者对不同政策模型（包括Qwen2.5-7B-Math-Instruct、DeepSeek-Math和Qwen2.5-72B-Math-Instruct）在PRM800K数据集上采用best-of-N策略进行评估。结果显示，尽管PRM和HRM的训练数据均来自同一MCTS系统，但在所有政策模型中，HRM始终表现出比PRM更高的稳定性和鲁棒性。

作者从PRM和HRM训练数据集中提取高MC分数的推理数据，对Qwen2.5-7B-Math-Instruct进行微调，权重因子设为0.5。实验进一步验证了监督式微调通过利用高质量数据增强政策模型的推理能力，其中HRM相比PRM展现出更强的鲁棒性。

为拓展HRM的应用范围并评估其泛化能力，作者评估了在PRM800K数据集上训练的HRM和PRM在Math500和GSM8K数据集上的表现。结果表明，HRM在不同领域展现出更强的鲁棒性，表现出优秀的泛化性能，尤其在处理复杂数学推理任务的Math500上效果显著。

在GSM8K数据集上，HRM和PRM之间的性能差异较小，这是因为GSM8K主要由相对简单的算术问题组成，强大的政策模型通常能在三步内解决这些问题，减弱了HRM关键优势（如评估多步推理连贯性和促进自我反思）的影响。尽管如此，即使在GSM8K这样的简单数据集上，HRM仍然比PRM略胜一筹。

本论文提出了层次化奖励模型（HRM），通过整合细粒度和粗粒度评估增强多步推理评估，改进推理连贯性和自我反思能力。同时引入层次化节点压缩（HNC）作为数据增强方法，优化基于MCTS的自主注释，在极低计算成本下增强标签多样性并扩展训练数据。在PRM800K数据集上的广泛实验证明了HRM相比PRM具有更强的鲁棒性，并在GSM8K和MATH500数据集上展现出良好的泛化能力。此外，MCTS生成的自动标注数据还实现了政策模型的微调，进一步提升了推理性能。

未来研究可以探索更多元化的层次结构设计，扩展HRM到更广泛的复杂推理任务中，如逻辑推理、创意问题解决等。同时，进一步优化HNC方法，提高数据增强的效率和质量，也是值得关注的方向。随着计算资源的提升，将先进的强化学习技术与HRM相结合，构建端到端的推理优化系统，有望带来更多突破性进展。

来源：数据派THU一点号

标签：模型推理 prm hnc 层次化

本文地址：https://news.43u.com.cn/a/1303236.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!