摘要:当今最先进的大语言模型,以其惊人的文本生成能力改变着世界。从流畅自然的对话,到条理清晰的报告,再到富有创意的故事,它们似乎无所不能。然而,要让这些庞然大物真正“听话”、输出符合人类偏好的结果,仅仅依靠海量数据进行预训练是远远不够的。一个关键的后续步骤——微调(
当今最先进的大语言模型,以其惊人的文本生成能力改变着世界。从流畅自然的对话,到条理清晰的报告,再到富有创意的故事,它们似乎无所不能。然而,要让这些庞然大物真正“听话”、输出符合人类偏好的结果,仅仅依靠海量数据进行预训练是远远不够的。一个关键的后续步骤——微调(fine-tuning),特别是基于人类反馈的强化学习(RLHF)或偏好微调(PFT)——成为了解锁模型潜力的必由之路。
这项技术已被广泛应用于业界领先的大模型。例如,OpenAI的ChatGPT[1]、其前身InstructGPT[2],以及Anthropic的Claude[3]模型,都确认或被广泛认为在其最终训练阶段采用了RLHF或类似的偏好微调技术。正如Anthropic的研究发现,RLHF在提高模型的有用性和无害性方面带来了巨大改进[4],这表明它已成为将LLM对齐人类价值观的标准方法[5]。
令人费解的是,RLHF/PFT通常是一个两阶段的复杂过程:首先,基于人类的偏好数据训练一个独立的奖励模型(Reward Model,RM);然后,将这个奖励模型视为“裁判”,通过强化学习算法指导语言模型调整其生成策略。这种方法需要复杂的算法(如PPO[6])和在线采样过程。从信息论的角度看,这似乎是一条“绕远路”:为什么不直接在人类偏好数据上优化生成策略呢?毕竟,中间训练一个奖励模型,可能会损失信息,而在线采样也无法无中生有地创造新的偏好信息。
理论上的优雅往往指向离线微调方法(如DPO[7]),它们试图直接根据偏好数据调整策略,无需显式的奖励模型或复杂的强化学习。然而,实践中的结果却常常与之相悖——RLHF/PFT方法,尽管看似复杂且非直接,却在许多任务上表现出持续且显著的优势。这构成了一个AI训练领域的反直觉谜团。
要理解这个谜团,或许我们需要引入一对特殊的“角色”:AI的“侦探”与“罪犯”。在这场宏大的AI训练场上,策略模型(Policy Model)扮演着“罪犯”的角色,它负责“生成作品”,也就是产出文本、完成任务。而奖励模型(Reward Model)则扮演着“侦探”的角色,它的任务是“验证”并“评价”这些作品,判断它们是否“好”、是否符合人类的偏好和要求。
本文将通过这对“侦探”与“罪犯”的比喻,带您深入探索大模型微调的秘密。我们将尝试解答:为什么在这场特殊的训练中,“侦探”似乎天生就比“罪犯”更容易“入门”?而它们之间看似间接的协作方式,又为何能出人意料地通往AI的卓越?
我们可以用一张简单的图来表示这种两阶段的训练流程与直接优化的对比:
这张图直观展示了两种主要的微调路径:离线方法试图从偏好数据直接走到优化后的策略,而在线RLHF则多了一个训练奖励模型的中间步骤。正是这个看似多余的步骤,蕴含着成功的关键。
“生成-验证差距”:AI任务的普遍不对称性解释AI训练中“侦探”为何更容易上手的关键,在于一个核心概念:“生成-验证差距”(Generation-Verification Gap)。这个概念指的是,在许多任务中,评估一个解决方案或生成结果的质量,比从头生成一个最优或高质量的解决方案要容易得多。这就像计算机科学中的P vs NP问题,验证一个解的正确性通常比找到这个解本身要容易得多[8]。
这种不对称性广泛存在于AI任务中。在图像生成领域,人类能够轻易识别AI图像中的不自然元素(验证),即使从头生成一张逼真且富有创意的图像(生成)仍是AI面临的挑战。相关的研究也指出,判断一张AI图像的逼真度比生成它容易得多[9]。在代码审查中,识别现有代码中的错误(验证)比从零编写最优代码(生成)简单[10]。在游戏AI(如国际象棋、围棋)中,评估一步棋的质量比找到最佳落子容易得多[11],顶尖的游戏AI依赖强大的评估函数来筛选可能的走法。甚至在数学证明领域,验证证明的正确性比提出证明本身容易得多[12]。这些跨领域的例子共同指向一个现象:学习一个能准确执行“验证”任务的模型(“侦探”),可能比学习一个能出色完成“生成”任务的模型(“罪犯”)在数据和计算上要求更低。
数据洞察:侦探的学习曲线更平滑,泛化能力更强论文的核心实验发现强有力地支持了“侦探”(奖励模型)在学习上的优势。研究对比了不同类型的模型(全局奖励模型、局部奖励模型和策略模型)的学习效果和泛化能力:
原文中的图7展示了不同奖励模型在分布内验证数据上的表现:
从中我们可以看到,全局奖励模型(Global RM)的验证集似然度普遍高于局部奖励模型(Local RM)和DPO隐式奖励模型。例如,在1.4B模型上,全局RM的似然度达到0.593,显著高于DPO RM的0.526和局部RM的0.567。这强有力地表明,在相同的数据和训练条件下,“侦探”更容易准确地学会对它见过的“案件”(生成结果)进行判断。
更重要的是,这种学习上的容易并非以泛化能力为代价。原文的图8展示了这些模型在分布外数据(BoN winrate)上的泛化能力。
结果显示,奖励模型在分布外任务上的泛化能力也更好,特别是全局奖励模型,并且其性能与分布内验证似然度呈现高度相关性(正如原文图8和图7所示,随着N增加,相关性更加明显)。这表明一个学得好的“侦探”,即使面对它没见过的新鲜“案件”,也能保持相当的判断力。
来自其他独立研究的证据也支持这一观点。例如,一些研究指出,新型生成式奖励模型(GenRM)在分布外任务上表现出强大的泛化能力[13],优于传统方法,这一点在最新的研究中得到了进一步支持[14]。通过利用AI生成的反馈创建合成偏好数据,训练奖励模型变得更可扩展且成本效益更高[15],进一步证明了“侦探”的学习优势。
这些数据和研究共同描绘了一幅画面:“侦探”(奖励模型)不仅学习起来相对更容易,而且一旦学会,它的判断标准也更稳定,更能适应新情况。这为我们理解RLHF的成功奠定了基础。
两阶段协作:神探指导下的“精准打击”理解了“侦探”的学习优势,我们就可以更清晰地看到RLHF/PFT这种两阶段训练流程的精妙之处。它不是简单的“绕远路”,而是一套利用“生成-验证差距”的“精准打击”策略:
阶段一:培养高水平侦探。这一阶段利用人类提供的偏好数据(例如,人类判断A生成结果比B好),相对高效地训练出一个能够准确模拟人类偏好、对不同生成结果进行评分的奖励模型(“侦探”)。正如第一幕所示,这项任务相对更容易达成,数据需求也可能低于直接训练一个优秀的“罪犯”。
阶段二:侦探指导训练罪犯。这是RLHF的核心。训练好的奖励模型(“侦探”)被用来评估策略模型(“罪犯”)生成的结果,并给出量化的奖励分数。这些分数被用作强化学习算法(如PPO[16])或偏好优化方法(如在线DPO变体)的反馈信号。策略模型根据这些反馈调整自身的参数,学习生成那些能够获得“侦探”高分的结果。
主要的优化算法包括经典的PPO[17],它通过限制策略更新幅度来提高稳定性;以及更简洁的DPO[18],它将奖励建模和策略优化集成到单一步骤中。此外,还有拒绝采样、Pairwise-RL等方法。这些算法是“侦探”向“罪犯”传递“指示”的具体方式,它们的目标都是让“罪犯”学会如何生成“侦探”认可的结果。
这个过程的关键价值在于,策略模型(“罪犯”)的学习不再是漫无目的的摸索。它无需在巨大的、复杂的生成空间中盲目尝试,而是有了明确的“方向指引”——由“侦探”的评分所构建的奖励信号。这相当于“侦探”的判断力有效约束了“罪犯”的学习方向,使其只在“侦探”认为“有前途”的策略子空间内进行优化。这种结构化的学习方式,在统计上大大降低了问题的复杂度,使得“罪犯”能够更高效地提升其“作案水平”,生成更符合要求的“作品”。
实验为证:神探的“带教”效果有多显著?论文的实验结果有力地证明了这种“侦探带队”模式的有效性。
原文的图3和图4展示了在线RLHF与离线DPO在文本摘要任务上的性能对比。从中我们可以清晰地看到,在线RLHF的表现持续且显著优于离线方法, winrate(胜率)差距明显。
正如上图(原文 Fig 3)所示,在1.4B模型上,即使从相同的SFT模型出发,在线DPO(On. DPO (SFT))的胜率(56.1%)就显著高于离线DPO(49.7%),差距高达6.4个百分点!从离线DPO结果继续进行在线DPO(On. DPO (DPO))训练后,胜率进一步提升到59.3%,与离线DPO的差距扩大到9.6个百分点。即使使用更大的2.8B模型(原文 Fig 3右侧),在线方法的优势依然存在。这种性能差距直观地展示了“侦探”在训练过程中的核心作用。
为了进一步验证“生成-验证差距”假说,论文设计了巧妙的对照实验来尝试“弥合”这个差距:
一种方法是降低“生成”任务的复杂度。例如,将文本摘要任务的目标从生成一段较长的摘要,改为只生成两三个词的短摘要。此时,“罪犯”的“生成”任务难度大幅下降,与“侦探”的“验证”任务之间的难度差距缩小。原文的图10显示,在这种情况下,在线RLHF相对于离线方法的性能优势就显著减弱了,甚至可以忽略不计。
正如上图(原文 Fig 10)所示,在两词摘要任务上,在线DPO(23.2%)相对于离线DPO(21.9%)的胜率提升仅为1.3个百分点,远低于长摘要任务中近10个百分点的差距。
另一种方法是使用更容易“读出”最优策略的奖励函数。例如,使用基于文本匹配的ROUGE-L分数作为奖励信号。ROUGE-L是一种相对直接的、更容易计算的指标,它与“最优”生成结果(参考摘要)有更直接的关联。使用这种“侦探”时,“罪犯”更容易理解“好坏”的标准,训练难度也相对降低。原文的图11表明,在这种情况下,在线RLHF相对于离线方法的优势也减弱了。
这些实验结果构成了支持“生成-验证差距”假说的有力证据链:当生成任务相对困难,生成与验证之间存在较大差距时,“侦探带队”的RLHF模式能发挥显著优势;而当差距缩小,这种优势也随之减弱。这个发现令人兴奋,因为它不仅解释了现有方法的有效性,更为未来的AI训练指明了方向。
当然,在现实世界的AI训练场上,“侦探”与“罪犯”的协作也面临挑战。收集高质量、无偏见的人类偏好数据成本高昂[19]且存在数据质量问题[20];奖励模型可能存在泛化不足或“奖励黑客”[21]现象;大型模型在RLHF训练中可能面临规模效应递减的挑战[22]。这些都是RLHF/PFT在实施和扩展过程中常见的实际挑战[23]。但即便存在这些挑战,RLHF/PFT在实践中的卓越表现,依然指向了其核心机制——利用生成-验证差距——的有效性。
对AI智能本质的新理解:生成与评估的耦合“侦探”与“罪犯”的故事不仅仅解释了RLHF为何有效,它还为我们理解AI的智能本质提供了一个新的视角。或许,AI的智能并不仅仅体现在其高超的“生成”(创造)能力,同样关键的还在于其日益精准的“评估”(判断、选择、验证)能力。一个真正强大的AI,可能是“生成者”与“验证者”高效耦合的产物。
这提示我们,在构建未来AI时,不能只关注提升模型的生成能力,同样需要重视其评估能力的发展。AI是否能够自己判断自己的生成结果质量?是否能够理解并内化人类复杂的判断标准甚至价值观?如何通过创建评估信号让AI系统能够处理越来越困难的任务[24],而不必完全依赖人类能力,这正是AI对齐研究的核心原理之一[25]。这不仅仅是技术问题,更是关乎AI能否真正与人类协同、服务于人类的深刻议题,带着一丝人文的温度。
绘制AI未来图景:培养更强大的“神探”既然“侦探”(奖励模型)在AI训练中如此关键且相对易学,那么未来的一个重要研究方向就是如何培养更强大的“神探”。
这意味着需要研究更优秀的奖励模型架构,使其能够捕捉人类更细微、更复杂的偏好,甚至包括那些难以用简单规则表达的、非传递性的偏好。一些新方法正在探索学习偏好表示、利用合成数据、甚至构建能提供逐步反馈的“步级奖励模型”[26]来应对复杂任务,例如General Preference Modeling[27]或利用合成批评改进奖励模型[28]。还有研究尝试通过保留基础模型的语言模型头并结合一系列文本生成损失来保持奖励模型的文本生成能力[29],以提高其鲁棒性。
同时,理解“侦探”和“罪犯”内部的工作机制也至关重要。利用机制可解释性(Mechanistic Interpretability)技术,研究人员正试图剖析奖励模型或经RLHF训练的策略模型内部的“神经电路”[30],理解它们如何做出判断或生成结果,从而更好地控制和改进它们,相关的研究也正积极展开[31]。这就像试图了解“神探”是如何推理的,以及“罪犯”的特定行为模式是如何形成的,充满了探索的乐趣。
这场“侦探”与“罪犯”的故事,也与AI对齐的宏大挑战紧密相连。要让AI系统真正符合人类的价值观和意图,本质上是需要让AI的“侦探”能够准确地理解并代表人类的偏好,并确保“罪犯”能够听从它的指导。论文中关于“生成-验证差距”随模型规模增大而增长的发现,以及训练验证器比生成器更容易的事实,为AI对齐提供了一线希望:即使未来AI的能力超越人类,我们或许仍然可以依赖其相对易于训练的“验证”能力[32],来确保它朝着符合人类利益的方向发展。这是一个充满挑战但也充满希望的方向,需要我们持续投入和努力。
效率再思考:计算与统计效率的权衡最后,这场讨论也引出了关于AI训练效率的深刻思考。RLHF/PFT方法虽然计算成本可能高于纯离线方法[33](需要加载多个模型,如奖励模型、策略模型等),但在统计效率上却可能更胜一筹(用相对有限的数据找到了更高效的学习路径)。有研究表明,在线算法总体上是离线算法的帕累托改进[34](在相同成本下性能更好或相同性能下成本更低)。这提示我们,在追求AI的进步时,不应仅仅看计算资源的投入,更应关注如何设计更具统计效率的学习方法,找到数据、算法和算力之间的最佳平衡点。这是一门技术,也是一门艺术,关乎如何在有限的资源下释放AI最大的潜力。
从这篇由卡内基梅隆大学、康奈尔大学以及 Aurora Innovation 的研究团队于2025年3月3日发表的预印论文[35]出发,我们通过“侦探”与“罪犯”的故事,揭示了AI训练中一个反直觉现象背后的深层原因:“生成-验证差距”的存在,使得RLHF/PFT这种先培养“侦探”再指导“罪犯”的模式,成为AI高效学习、通往卓越的有效“捷径”。
这场意外的揭秘告诉我们,AI的强大,不仅在于其“生成”万物的能力,更在于其日益精准的“评估”和“判断”能力。未来的AI进化之路,需要我们不断提升“侦探”的智慧,让它们拥有更聪明的“眼睛”,更好地理解人类的意图和偏好,从而引导AI走向更广阔、更符合我们期望的未来。
那么,在你看来,还有哪些AI任务中存在类似的“生成-验证差距”?你如何看待AI训练中“生成”与“评估”这两种能力的相对重要性?欢迎在评论区分享你的观点,与我们一起探索AI的边界与未来。
参考资料
[1]
OpenAI的ChatGPT:
[2]
InstructGPT:
[3]
Anthropic的Claude:
[4]
RLHF在提高模型的有用性和无害性方面带来了巨大改进:
[5]
标准方法:
[6]
PPO:
[7]
DPO:
[8]
验证一个解的正确性通常比找到这个解本身要容易得多:
[9]
判断一张AI图像的逼真度比生成它容易得多:
[10]
识别现有代码中的错误(验证)比从零编写最优代码(生成)简单: https://openreview.net/pdf?id=Hgv0tqgaiA/
[11]
评估一步棋的质量比找到最佳落子容易得多: https://openreview.net/pdf?id=Hgv0tqgaiA/
[12]
验证证明的正确性比提出证明本身容易得多:
[13]
新型生成式奖励模型(GenRM)在分布外任务上表现出强大的泛化能力:
[14]
这一点在最新的研究中得到了进一步支持:
[15]
训练奖励模型变得更可扩展且成本效益更高:
[16]
PPO:
[17]
PPO:
[18]
DPO:
[19]
收集高质量、无偏见的人类偏好数据成本高昂:
[20]
数据质量问题:
[21]
“奖励黑客”:
[22]
大型模型在RLHF训练中可能面临规模效应递减的挑战:
[23]
实施和扩展过程中常见的实际挑战:
[24]
如何通过创建评估信号让AI系统能够处理越来越困难的任务:
[25]
AI对齐研究的核心原理之一:
[26]
“步级奖励模型”:
[27]
General Preference Modeling:
[28]
利用合成批评改进奖励模型:
[29]
通过保留基础模型的语言模型头并结合一系列文本生成损失来保持奖励模型的文本生成能力:
[30]
剖析奖励模型或经RLHF训练的策略模型内部的“神经电路”:
[31]
相关的研究也正积极展开: https://openreview.net/pdf?id=bIb1xhSCVY/
[32]
即使未来AI的能力超越人类,我们或许仍然可以依赖其相对易于训练的“验证”能力:
[33]
RLHF/PFT方法虽然计算成本可能高于纯离线方法:
[34]
在线算法总体上是离线算法的帕累托改进:
[35]
这篇由卡内基梅隆大学、康奈尔大学以及 Aurora Innovation 的研究团队于2025年3月3日发表的预印论文:
来源:人工智能学家