李飞飞等领衔,来自七所高校的“三代AI人”联合提出强化学习新框

360影视 动漫周边 2025-04-26 12:25 2

摘要:论文作者分别来自于 7 所高校,同时这次论文也是一个由“三代 AI 人”打造的新成果。作为共同一作的王子涵是 00 后,共同作者之一是王子涵的导师——美国西北大学助理教授李曼玲,而另一位论文共同作者则是李曼玲的博士后导师——美国斯坦福大学教授李飞飞。

00 后王子涵,是 DeepSeek 的前实习生,曾参与 DeepSeek-V2 的开发。其本科毕业于中国人民大学,目前在美国西北大学读博。

图 | 王子涵(来源:https://zihanwang314.github.io/)

几天前,他和所在团队以及合作者针对智能体提出一种新的通用框架和模块化系统。

论文作者分别来自于 7 所高校,同时这次论文也是一个由“三代 AI 人”打造的新成果。作为共同一作的王子涵是 00 后,共同作者之一是王子涵的导师——美国西北大学助理教授李曼玲,而另一位论文共同作者则是李曼玲的博士后导师——美国斯坦福大学教授李飞飞。

研究中,王子涵和所在团队提出了一种名为状态-思考-动作-奖励策略优化(StarPO,State-Thinking-Actions-Reward Policy Optimization)的通用框架,能被用于轨迹级智能体强化学习。同时,他们还打造出一款模块化系统 RAGEN,该系统能用于训练和评估大模型智能体。

通过研究三种典型环境,课题组揭示了三个核心发现:

首先,研究团队利用强化学习训练展示了一种名为回声陷阱(Echo Trap)的反复模式,即奖励方差会出现断崖和梯度尖峰。为了解决这一问题,他们基于 StarPO 打造了 StarPO-S 这一变体,这种变体是一种带有轨迹过滤、评价融入和解耦裁剪的稳定变体。

其次,研究团队发现强化学习训练过程之所以能够得到优化,主要得益于多样化的初始状态、适中的交互粒度以及更加频繁的采样。

再次,研究团队发现如果没有细粒度且符合推理逻辑的奖励信号,智能体很难在多轮强化学习中形成有效推理能力,反而可能表现出浅层策略或产生幻觉性思维。

如何让智能体实现有效、稳定的学习?

本次研究旨在探索:到底哪些因素能让智能体实现有效、稳定的学习。为了探讨这一问题,他们基于 StarPO 这一通用强化学习框架开展了研究。

研究人员表示,StarPO 能为多轮次、轨迹级别的智能体训练提供一个统一视角,并能灵活地控制推理、奖励分配和提示-学习过程结构。

基于 StarPO,他们开发了模块化的智能体训练和评估系统 RAGEN,以便能够支持大模型中基于强化学习的推理研究。

据了解,RAGEN 能够实现完整的训练循环,包括连续输出生成、奖励分配和轨迹优化。作为一套研究基础设施,针对多轮交互以及随机环境下的大模型智能体训练动态,RAGEN 能够对其进行系统性分析。

此前,在一些现实世界任务比如网页浏览和实体操作上,训练大模型智能体通常依赖大量的预训练先验知识和特定任务的工程化处理。

为了研究大模型智能体从零开始的学习过程,并排除一些混杂因素的影响,研究团队在 Bandit、Sokoban 和 FrozenLake 这三种风格化训练环境中,通过 RAGEN 来开展评估。这些环境被刻意设计得极为简洁,同时在难度、符号变化和转换动态方面是完全可控的。

更加重要的是,以上三种风格化训练环境要求智能体必须尽可能更少地依赖先前的世界知识,而是通过与环境交互来学习决策策略。

完成这些设置之后,他们分析了强化学习中的三个关键维度,并揭示了稳定强化学习训练的核心挑战和设计原则:

首先,要想实现稳定的训练,多回合强化学习中的梯度稳定性是关键。研究人员发现多回合强化学习训练往往会催生一种反复出现的不稳定模式,这种模式便是前文提到的回声陷阱(Echo Trap),当智能体过度拟合局部奖励推理模式的时候,会出现奖励方差崩溃、熵下降和梯度尖峰等现象。为了缓解这一失效模式,他们提出了 StarPO-S,这是 StarPO 框架的一个稳定变体,这个变体能够通过基于方差的轨迹过滤、评价基线化和解耦剪切来提高学习鲁棒性。

其次,研究人员展示了推演频率与多样性塑造自我进化。在基于强化学习的智能体训练中,大模型自我生成的展开轨迹会被作为核心训练材料。而通过本次研究他们确定了用于稳定智能体强化学习训练的关键部署因素:第一个因素是要确保推演数据来自于多样化的提示集,并且每个提示都能生成多个响应。第二个因素是在固定的回合限制之内,每个回合通过执行多个动作来提高交互范围。第三个因素是要保持较高的推演频率,以便确保在线反馈能够反映当前策略的最新状态。

再次,研究人员发现新兴智能体推理需要细致的奖励信号。他们发现,仅仅在行动格式中鼓励推理并不能确保产生实际的推理行为。即使模型通过 StarPO 进行轨迹级优化来进行推理,如果推理没有带来明显的奖励优势,它们也往往会退化为直接选择动作。研究团队认为这是由于马尔科夫决策过程(MDP,Markov Decision Process)中的动作空间较为简单,因此使用浅层策略就已经足够应对。此外,当奖励仅仅反映任务是否成功完成时,模型会产生推理幻觉,这表明思维与环境状态之间存在不匹配的情况。也说明在强化学习中,要想进行长期的智能体训练,就需要细粒度的、具有推理意识的奖励信号。

通过此,研究人员揭示了一个具备推理能力、稳定性和泛化性的大模型智能体背后的核心原则。

而为了在实际场景中实施 StarPO,研究团队构建了 RAGEN,RAGEN 是一个用于在受控环境中训练大模型智能体的完整系统。

RAGEN 框架支持结构化推演轨迹和可定制奖励函数,并能适配多轮随机环境的集成需求。

RAGEN 既可以作为 StarPO 的执行后端,也可作为一种研究智能体的稳定性、泛化能力和学习动态的平台。

与此同时,RAGEN 采用模块化设计,因此具备一定的可扩展性。即使是新的环境、新的奖励方案或新的展示策略,也可以轻松插入训练循环之中,从而能为基于强化学习的智能体训练分析奠定基础。

转向基于可验证结果的奖励驱动型训练模式

在实验设计上,他们选择了三个小而全面的符号环境,即前文提到的 Bandit、Sokoban 和 FrozenLake,这些环境旨在隔离核心决策挑战。这些符号环境小而可控,并且去除了现实世界的先验知识,因此能对推理涌现和学习动态进行清晰的分析。

具体而言,Bandit 测试了在随机反馈下的风险敏感符号推理。

Sokoban 需要在确定性环境中进行不可逆的多步规划。

而 FrozenLake 则将规划与概率性转换相结合。

实验中,研究团队首先评估了在默认配置之下,StarPO 在三个智能体任务中的基线性能。

如下图所示,多数训练过程在早期阶段展现出性能的显著提升,但最终仍会陷入性能崩溃。

这种行为与静态单轮任务并不相同,在静态单轮任务中,崩溃问题几乎不会成为主要问题。

值得注意的是,研究团队观察到在发生性能退化之前,StarPO 的近端策略优化(PPO,Proximal Policy Optimization)变体比梯度惩罚策略优化(GRPO,Gradient Penalty Policy Optimization)变体,能够保持更长的稳定时间。

例如,在 Bandit 和 Sokoban 任务上,梯度惩罚策略优化变体分别在 20 步和 10 步时开始崩溃,而近端策略优化变体则能维持到 100 步和 50 步。

这些结果表明:虽然近端策略优化算法和梯度惩罚策略优化算法等单轮次强化学习方法,在初期能够适应多轮次的交互场景,但是在需要长程交互的多轮智能体训练中它们变现得缺乏鲁棒性。此外,价值函数也在稳定训练动态中扮演着关键角色。

令人惊讶的是,在 FrozenLake 任务上,梯度惩罚策略优化变体似乎比近端策略优化变体更加稳定。研究团队推测,这可能是由于 FrozenLake 任务存在状态值难以估计的固有特性,因此可能会降低近端策略优化变体的稳定性。

为了探究性能崩溃的原因,研究团队比较了早期和晚期的推演轨迹。在 Bandit 任务中:早期阶段的轨迹表现显示,该任务实现了对于符号意义和预期奖励的多样化推理;而后期阶段的轨迹表现,则变得重复并且具有确定性。

如下表所示,最上面两行展示了关于中国传说中神异动物“龙”和“凤”的不同假设,而最下面三行收敛到几乎相同的措辞,这些措辞侧重于“选择龙”,但却没有给出任何理由。

这表明,强化学习训练可能过度地放大了固有的推理捷径,在强化局部奖励模板的同时抑制了探索。

研究团队将这种失败模式称为“回声陷阱”(Echo Trap),即模型在奖励反馈下反复重用记忆中的推理路径,从而导致轨迹多样性的崩溃和长期性能的下降。

为了识别训练崩溃的早期迹象,研究团队分析了反映行为冗余与策略不稳定的轨迹级统计信号。具体而言,研究团队检测了两个早期指标:第一个指标是奖励标准差,旨在衡量同一任务实例下的多次轨迹能否产生多样化结果,或是否已经崩溃为具有相似回报的重复模式。第二个指标是输出熵,旨在捕捉模型输出的不确定性,假如它出现骤降则意味着策略过度自信,并收敛至狭窄的推理路径。

为了判定性能崩溃是否发生,研究团队又追踪了以下两项关键指标:第一个指标是平均奖励值,其增长停滞或下降标志着任务解决能力退化。第二个指标是梯度范数,该数值的突变意味着微小参数更新引发剧烈变化,通常是训练不稳定及崩溃的前兆。

上图呈现了不同任务和优化方法下的动态趋势。基于实验结果,关于多轮次智能体强化学习中模型崩溃演化过程,研究人员得出了以下结论:

首先,奖励标准差可能是一个可靠的早期信号。对于 FrozenLake-PPO,奖励均值在第 90 步时崩溃,但标准差在第 40 步时急剧下降,这一时间远远早于性能下降发生的时间。在 Bandit-PPO 中,标准差在第 70 步左右触底,而奖励在第 120 步达到峰值。在 Sokoban-PPO 中,标准差和均值在第 10 步左右几乎同时崩溃。

其次,梯度范数的激增表明发生了不可逆的崩溃。一旦梯度范数激增出现,在第 170 步(Bandit)、第 110 步(Sokoban)和第 90 步(FrozenLake)的时候,即使是小幅更新也会导致参数剧烈变化,在此之后恢复的可能性微乎其微。

再次,在有效的学习过程中,熵值通常会遵循一种稳定的下降趋势。熵值的迅速增加或无规律的变化,往往与推理行为的崩溃相关联。

这些模式证实,多回合强化学习(multi-turn RL)带来了单回合强化学习方法无法应对的独特挑战。为此,研究团队推出了 StarPO-S 这一稳定变体,旨在提高采样质量、增强梯度稳定性并规范探索行为,以避免过早崩溃。

总的来说,通过本次研究该团队证明,当强化学习能够适应复杂且随机多变的环境时,也意味着能够针对大模型智能体进行有效训练,进而让智能体进行推理和行动。

本次研究成果的提出,也标志着人们从程序繁琐、有人工监督的学习模式,转向了基于可验证结果的奖励驱动型训练模式。

这为定理证明、软件工程、科学发现和游戏等领域构建 AI 系统开辟了一条可扩展的道路。

来源:东窗史谈一点号

相关推荐