摘要:在人工智能领域有一个重要却容易被忽视的问题:当智能体需要分步骤完成任务时,如何让它明确知道哪些决策是好的,哪些是坏的?这就像教孩子骑自行车,你不能只告诉他"你骑得不好",而应该具体指出"转弯时你倾斜得不够"或"刹车时你用力过猛"。在AI领域,这个问题被称为"信
这项由明尼苏达大学的Siliang Zeng和Quan Wei领衔,联合Prime Intellect的William Brown以及Morgan Stanley的Oana Frunza和Yuriy Nevmyvaka共同完成的研究,发表于2025年5月20日,论文题为《通过回合级信誉分配增强LLM智能体的多回合推理》。有兴趣深入了解的读者可以通过GitHub项目(https://github.com/SiliangZeng/Multi-Turn-RL-Agent)查看相关代码。
让我们设想一个场景:你正在使用一个AI助手完成任务,比如查找某个历史人物的信息。这个AI需要先理解你的问题,然后决定使用搜索工具,接着分析搜索结果,最后给出答案。这整个过程包含多个决策步骤。如果最终答案错了,AI如何知道是哪一步出了问题?是它没正确理解问题,还是没有使用合适的搜索关键词,还是没有正确分析搜索结果?传统方法只能告诉AI"你的答案错了",而不能指出具体哪一步出了问题。
这正是明尼苏达大学研究团队要解决的核心问题。他们提出了一种新方法,能够在多步骤任务中为大语言模型(LLM)智能体的每一个决策步骤分配准确的奖励或惩罚,而不是简单地对整个过程进行评价。这种细粒度的回合级信誉分配机制,极大地提高了AI在多步骤任务中的学习效率和表现。
研究团队创建了一个实验环境,让LLM智能体学习如何使用维基百科搜索工具回答问题。这个智能体需要经过推理、工具调用、处理结果和生成答案等多个步骤。通过他们提出的多回合级强化学习方法(MT-GRPO),智能体能够准确了解每一步决策的好坏,从而不断改进自己的能力。结果表明,他们的方法在工具使用成功率和答案准确性上都取得了显著提升,比传统方法高出近一倍。
这项研究不仅提高了AI在多步骤任务中的表现,也为未来更复杂的AI系统开发提供了重要思路。随着AI系统承担越来越复杂的任务,如何让它们准确理解每一步决策的价值将变得越来越重要。这就好比教一个人学习复杂技能,不只是告诉他最终结果如何,而是在每一个关键步骤都给予精确的指导和反馈。
一、研究背景:为何多回合推理如此重要
想象一下你在教一个孩子解决一道复杂的数学题。你不会只告诉他最终答案对不对,而是会指导他每一步的思考过程——"这里你需要先找出未知数","这一步你应该使用方程"等等。大语言模型(LLM)的学习过程也是如此,尤其是当它们需要完成多步骤任务时。
强化学习(RL)已经成为提升LLM推理能力的重要方法。就像通过反复练习和反馈教孩子骑自行车一样,研究者们使用RL让LLM通过不断尝试和获得反馈来提升其思考链(Chain of Thought)的质量。这种方法已经在OpenAI的o1和DeepSeek的R1等模型中显示出惊人的效果,让它们在文本推理任务中表现出色。
然而,仅依靠文本推理的LLM在面对需要精确计算、信息检索或代码执行的任务时仍有局限。就像一个聪明的学生可能擅长理论分析,但缺乏使用计算器或查询资料的实际能力。因此,研究者们开始探索如何将LLM打造成能够使用外部工具的"智能体"(Agent),让它们可以调用搜索引擎、计算器或代码解释器等工具来扩展自身能力。
这种多回合互动式任务带来了新的挑战。传统方法通常将这些任务简化为"赌博机问题"(bandit problems),只关注最终结果(如答案是否正确),而忽略了中间过程中各个决策步骤的质量。常用的强化学习算法如GRPO(Group Relative Policy Optimization)和PPO(Proximal Policy Optimization)在这种设置下难以区分哪些中间决策是有益的,哪些是有害的。
这就像只告诉学生"你的答案错了",而不指出是哪一步计算出了问题。没有这种精细的反馈,学生(或AI)就很难改进特定步骤的表现。在搜索场景中,如果早期选择了好的查询词是获取相关信息的关键,但如果没有针对这一步的具体反馈,智能体就无法学习哪些查询词更有效。
虽然近期一些研究开始考虑回合级奖励(如工具执行是否成功),但它们仍然在轨迹级别(整个过程)而非回合级别(每个步骤)估算优势,缺乏精细的信誉分配。这种粗粒度的方法无法识别哪些具体决策对最终结果产生了积极或消极影响,限制了多回合LLM智能体的性能和适应性。
二、MT-GRPO方法:精细的回合级信誉分配
为了解决这个问题,明尼苏达大学的研究团队提出了一种崭新的方法——将多回合长期推理任务建模为马尔可夫决策过程(MDP),这种方法能够自然捕捉这类问题的顺序决策结构。他们开发了一种精细的回合级优势估计策略,使用结果级和回合级奖励来更准确地分配信誉。
想象一下打保龄球的过程。传统方法只关注你最终的总分(结果级奖励),而不管中间每一球的表现。新方法则会评估每一次投球(回合级奖励),让你知道具体哪些投球技巧需要改进。这种精细的反馈机制能够帮助你(或AI智能体)更快地提升整体表现。
研究团队以GRPO算法为例实现了他们的方法,并将其命名为MT-GRPO(Multi-Turn GRPO)。值得注意的是,这种策略具有广泛的适用性,可以与多种强化学习方法兼容。
为了展示回合级信誉分配在多回合推理中的重要性,研究团队构建了一个问答智能体,该智能体可以利用维基百科搜索工具查找信息。这个智能体的工作流程包括多个步骤:推理、搜索和答案总结。通过强化学习训练,智能体学会了如何更好地利用搜索引擎获取相关信息,以支持最终答案。
MT-GRPO的核心创新在于它如何计算每个回合的优势函数。在传统GRPO中,优势值在整个轨迹(完整过程)中是共享的,这意味着所有决策步骤被视为对最终结果有相同的贡献。而在MT-GRPO中,优势值是针对每个回合(步骤)单独计算的,这使得模型能够区分每个决策步骤的贡献。
具体来说,对于第一个回合(使用工具的阶段),优势值由回合级优势(工具执行是否成功)和结果级优势(最终答案是否正确)加权组合而成。对于第二个回合(生成答案的阶段),优势值主要基于结果级优势。这种区分让模型能够更精确地学习每个回合中什么样的决策是有价值的。
三、实验设置:维基百科搜索工具使用场景
研究团队设计了一个简化的两回合工具使用环境,让LLM智能体与搜索工具环境交互最多两个回合。在这个设置中,智能体可以在提交答案前最多调用一次维基百科搜索引擎。
整个过程可以概括为:推理→搜索→获取结果→推理→给出答案。
系统提示中明确规定了这些步骤,并强制使用特定的XML标签(如、、、)来区分每个交互阶段。智能体首先需要进行推理并决定使用什么搜索查询,然后外部工具环境处理查询并返回搜索结果,最后智能体基于检索到的信息进行第二轮推理并生成最终答案。
为了评估智能体的表现,研究团队设计了两类可验证的奖励函数:
回合级可验证奖励:这些奖励仅依赖于智能体执行的第一个回合。包括工具执行奖励(如果工具被正确调用,奖励0.2分)和搜索结果答案存在奖励(如果搜索结果中包含正确答案,奖励0.5分)。
结果级可验证奖励:这些奖励评估模型生成的最终响应。包括最终答案存在奖励(如果模型的最终响应中包含正确答案,奖励0.5分)、精确匹配奖励(如果模型的答案与任何接受的答案完全匹配,奖励1.0分)以及XML格式奖励和XML标签使用奖励(评估输出的结构完整性,各占0.2分)。
这种设计可能导致几种典型场景:智能体可能正确调用工具但最终答案错误,或者没有正确使用工具但凭借自身知识给出了正确答案,或者两者都失败。这些场景为评估回合级信誉分配的效果提供了丰富的测试条件。
四、方法对比:轨迹级与回合级优势估计
为了充分理解回合级信誉分配的价值,我们首先需要了解现有方法的局限性。目前的方法通常将多回合智能体交互任务作为上下文赌博问题(contextual bandit problems)处理,并应用轨迹级优势估计进行训练。
想象一下你在评价一个长篇故事:传统方法只会给整个故事一个总体评分,而不会指出哪些章节精彩,哪些章节平淡。这就是轨迹级优势估计的本质——它为整个过程分配相同的优势值,无法区分各个决策步骤的贡献。
在传统GRPO中,优势函数的计算方式是将每个响应的奖励与组内平均奖励进行归一化比较。但这种优势值在响应内的所有token(决策点)之间是共享的,无法反映不同决策步骤的重要性差异。
而MT-GRPO则采用了更精细的回合级优势估计策略。对于第一个回合(工具使用阶段),优势值由回合级优势(如工具是否成功执行)和加权的结果级优势(如最终答案是否正确)组成。对于第二个回合(答案生成阶段),优势值主要由结果级优势决定。
这种细粒度的优势估计让模型能够区分不同决策步骤的价值,从而更精确地改进每个步骤的决策质量。就像在评价故事时,不仅给出整体评分,还会指出"开头的情节设置非常吸引人"或"结尾的转折有些仓促"等具体反馈。
研究团队对比了三种方法:
1. GRPO-OR:原始GRPO仅使用结果级奖励 2. GRPO-MR:GRPO使用合并的结果级和回合级奖励,但仍采用轨迹级优势估计 3. MT-GRPO(提出的方法):使用回合级优势估计的GRPO变体,结合结果级和回合级奖励
这些配置允许研究者评估回合级可验证奖励和信誉分配对LLM智能体动态的影响。
五、实验结果:精细信誉分配带来的显著提升
研究团队的实验结果令人印象深刻,清晰地展示了回合级信誉分配的重要性。
首先来看工具执行成功率。MT-GRPO实现了100%的工具调用成功率,而GRPO-OR在训练过程中逐渐停止调用搜索工具,表现大幅下降。这说明没有有效利用回合级奖励的GRPO-OR无法学习到工具使用的价值,凸显了回合级反馈在多回合交互任务中的重要性。
在最终答案准确性方面,MT-GRPO同样取得了显著优势。与GRPO-MR相比,MT-GRPO在精确匹配方面提高了约16.64个百分点,达到了50.10%的准确率,而GRPO-MR只有33.46%。GRPO-OR表现最差,在回合级奖励上得分为0,在XML格式上仅得到0.04分,最终没有产生任何正确答案。
更有趣的是,MT-GRPO在训练过程中展现出更低的波动性,表明它能够更稳定地学习。虽然在训练中期(约230-250步)MT-GRPO的工具执行成功率短暂下降,但随后迅速恢复并稳定,这证明即使智能体在训练中途忘记调用搜索工具,它最终也能学会重新纳入这些工具。这一发现进一步强调了精确信誉分配在提供更稳定训练过程中的重要作用。
对比不同模型在验证集上的奖励分数,MT-GRPO在所有奖励指标上都取得了最高性能。与基线模型Qwen2.5-7B-Base和Qwen2.5-7B-Instruct相比,经过MT-GRPO训练的模型在工具执行、搜索答案存在、XML格式和精确匹配等各项指标上都有显著提升。
这些结果清晰地表明,精细的回合级信誉分配不仅提高了多回合LLM智能体的性能,还增强了训练的稳定性和一致性。通过准确区分每个决策步骤的贡献,模型能够更有效地学习复杂的多步骤任务,达到更高的准确性和可靠性。
六、研究意义与未来展望
这项研究的意义远超过简单的性能提升。它触及了人工智能学习中的一个核心问题:如何让AI系统理解复杂任务中每个决策步骤的价值。
就像教导一个人学习复杂技能,不只是告诉他最终结果如何,而是在每一个关键步骤都给予精确的指导和反馈。这种精细的信誉分配机制对于培养能够执行长期规划和多步骤推理的AI系统至关重要。
研究团队目前主要聚焦于简化的两回合工具使用环境,这为展示信誉分配在多回合推理任务中的重要性提供了理想测试平台。未来的研究方向包括将这些方法扩展到更复杂的多回合工具使用任务,涉及更长的决策链和更多样的交互。
另一个有前景的研究方向是探索更灵活的强化学习训练流程和框架,不依赖于预定义的回合级可验证奖励,从而在多回合推理任务中实现更广泛的应用。随着AI系统承担越来越复杂的任务,如何让它们准确理解每一步决策的价值将变得越来越重要。
这项研究不仅为多回合LLM智能体的训练提供了新思路,也为未来更复杂、更自主的AI系统开发奠定了重要基础。通过精确的回合级信誉分配,AI系统可以更好地理解和改进复杂任务中的每一个决策步骤,从而达到更高的整体性能。
就像一个优秀的教练不仅关注最终比赛结果,还会分析每一个技术动作的执行质量,从而帮助运动员全面提升技能。这种精细化的指导和反馈机制,是培养真正能力出众的AI系统的关键。
通过这项研究,我们看到了AI学习中一个重要原则:不仅要告诉AI什么是对的,什么是错的,还要让它明确知道每一步决策的价值。这种深度理解将推动AI系统在复杂任务中取得更大进步,向着更智能、更自主的方向发展。
来源:至顶网一点号