合成数据>人工数据,绝对性能暴涨超10个点!高效微调大模型

360影视 欧美动漫 2025-06-24 18:00 3

摘要:基础模型严重依赖大规模、高质量人工标注数据来学习适应新任务、领域。为解决这一难题,来自北京大学、MIT等机构的研究者们提出了一种名为「合成数据强化学习」(Synthetic Data RL)的通用框架。该框架仅需用户提供一个简单的任务定义,即可全自动地生成高质

编辑:LRST

【新智元导读】基础模型严重依赖大规模、高质量人工标注数据来学习适应新任务、领域。为解决这一难题,来自北京大学、MIT等机构的研究者们提出了一种名为「合成数据强化学习」(Synthetic Data RL)的通用框架。该框架仅需用户提供一个简单的任务定义,即可全自动地生成高质量合成数据。结合自动强化学习(RL)微调的结果显示,该方法在数学、医疗,科学,金融等多个基准上取得十几个点的绝对性能提升。在同等数据数量条件下,其效果不仅显著优于人工数据下的监督微调方法,更媲美甚至超越了人工数据下的RL方法。相关代码已在GitHub开源。

尽管如GPT-4和Gemini等基础模型已在通用语言理解方面设立了新的行业标杆 ,但它们在需要深度领域知识的专业领域中,其表现常常不尽如人意。

当面临数学、医学、法律及金融等专门任务时,这些模型时常表现不佳,因为这些领域高度依赖特定的专业知识。

传统上,为了让这些模型适应特定领域,最直接的方法是使用大规模的人类标注数据进行微调。然而,这一过程不仅成本高昂、耗时漫长,而且在许多实际应用场景中并不可行。

为了解决上述挑战,北京大学、MIT等机构的研究人员提出了「合成数据强化学习」(Synthetic Data RL)框架。这是一个简单而通用的框架,仅从一个任务定义出发,合成大量多样的领域特定样本,然后利用强化学习(RL)对模型进行微调。

论文链接:https://arxiv.org/pdf/2505.17063

代码仓库:https://github.com/gydpku/Data_Synthesis_RL

这种方式实现了参数化的自适应,将领域知识直接嵌入到模型的参数中,并且完全无需任何人类标注的数据。

三步走实现高效自适应学习

研究人员提出的合成数据强化学习框架由三个主要环节构成。

图1:三阶段方法框架图

如图1所示,首先,系统通过知识引导的合成环节结合检索到的外部知识和任务特定模式,生成既有事实依据又与目标任务对齐的合成数据。

随后,在难度自适应环节,系统会根据模型的反馈来调整这些生成样本的复杂度,目的是创建一个难度均衡、避免过于简单或困难的数据集。

最后,在高潜力样本选择与强化学习环节,框架会精心挑选出高学习潜力的样本,并利用强化学习在这些样本上进行微调。

知识引导的数据合成

该环节的目标是生成高质量、多样化,并与任务高度相关的任务数据。

该过程主要分为两个核心步骤:关键词提取与相关段落检索:为了让生成的内容能紧密围绕相关领域的知识,该环节首先会使用大模型从任务描述中提取一组领域特定的关键词

这些关键词可以看作是一种中间摘要,精确地概括了任务的核心领域与要求。

接下来,一个「段落检索器」会使用这些关键词,在一个大型的高质量文本库(例如维基百科)中进行搜索,从而找到一系列与任务高度相关的知识段落

图2:GPQA的任务定义,包括任务描述,输入和输出的形式。

在获取了相关的知识段落后,LLM生成器便开始合成初始的任务样本集。LLM生成器会综合利用所有信息,包括之前检索到的相关段落抽象模式与具体示例的组合(可不提供),以及原始的任务指令(如图所示),来生成初始合成数据集。并通过大多数投票方法确保任务输出的正确性。

通过这种方式,系统确保了合成出来的数据不仅在事实上有所依据,而且在形式和内容上也更加丰富多样。

难度自适应过程

本环节旨在解决训练样本难度不均衡的问题。核心思想是,通过自动评估和改写样本,生成一个难度分布更合理的数据集,从而提升模型的学习效率和最终效果。

整个过程可以分为三个主要步骤:

(1)首先,使用一个基础模型对初始数据集进行全面评估。根据模型能否正确解答,样本被分为两类:已解决样本集:这个集合包含了所有基础模型能够正确解答的样本。未解决样本集:这个集合包含了所有基础模型未能正确解答的样本。

(2)接下来,利用一个大语言模型改写器对已分类的样本进行难度调整,以扩充数据集。改写器会分析已解决样本集中的内容,并在此基础上创造出更具挑战性的新样本,形成一个更难的样本集。同样地,改写器会分析未解决样本集的内容,并创造出难度更低的新样本,形成一个「更容易的样本集」。

最后,将三个部分的数据合并在一起,包括原始的初始样本集、新生成的更难样本集、新生成的更容易样本集。

通过这个动态调整过程,如下图所示,最终的数据集在难度上更加多样和均衡,更贴合人类真实数据的分布特征,能够为模型提供一个平滑的学习曲线,从而实现更优的训练效果。

图3:合成与人工数据难度分布,合成数据调整后更贴合人工数据。

筛选高潜力样本并强化微调

在通过难度自适应策略生成了包含多样化难度的大规模合成数据集后,研究人员并不会直接将所有数据用于训练,因为许多合成样本可能对模型来说过于简单或过于困难,无法提供有效的学习信号。

为了最大化训练效率和效果,研究人员设计了第三个环节,旨在识别并利用那些最具学习价值的「高潜力」样本。

为了精准地识别出这些高潜力样本,框架设计了一套基于模型实际表现的评分系统。具体来说,它会利用基础模型,对每个样本进行多次解答尝试。

接着,系统会计算模型在多次尝试中成功解答的次数比例。这个评分系统有一个巧妙的设计:对于那些模型在所有尝试中都失败的「极难」样本(即通过率为0),系统会故意给它们一个最高分(比如1)。

这样做的目的是为了在后续排序时,能够轻易地将这些过于困难/存在合成错误的样本沉底。评分完成后,所有样本会按照它们的「通过率得分」从低到高进行排序。

根据这个排序结果,得分最低(但大于0)的样本,正是我们寻找的「高潜力」目标—模型偶尔能答对,但磕磕绊绊,充满了不确定性。框架会从排序列表的顶端选取一定数量的样本,构成训练集。

最后,这个精挑细选出的高潜力训练集将被用于对基础模型进行一轮的强化学习训练。

最终步骤旨在将模型在这些「临界区」样本上的不确定性转化为稳定的正确解答能力,从而产出一个性能得到显著提升的最终模型。

全面超越SFT,媲美人工数据RL

实验设定:在数据合成过程中,GPT-4o被用作指导者模型,而Qwen2.5-7B-base则作为基础模型,整个流程的训练集大小也维持在500个数据,RL训练采用了GRPO算法 。

研究人员在数学、科学、医学、法律和金融等多个领域的8个公开基准数据集上,对提出方法进行了全面评估,并该方法与多个基线进行了比较,包括像Qwen-2.5-7B和GPT-4o这样的预训练和指令调优模型,像Self-Instruct和SynthLLM这样的其他合成数据生成方法,以及像使用人类标注数据进行监督式微调(SFT)和强化学习(RL)这样的标准训练策略。

实验结果如表1所示。

表1:该方法和基线在8个任务上的的表现。

具体来看,该框架带来全方位的性能提升,不仅显著超越了模型自身的基础版本,也优于官方的指令微调模型和其他主流的合成数据方法:

在数学推理领域:在广泛关注的 GSM8K基准测试上,该方法取得了91.7%的准确率,相较于Qwen-2.5-7B基础模型的62.5%,实现了29.2%的绝对性能提升。

这一成绩不仅显著优于官方指令微调模型Qwen-2.5-7B-Instruct的88.8%,也超越了包括Self-Instruct (85.1%) 和SynthLLM (90.1%) 在内的其他合成数据生成方法,在更具挑战性的MATH数据集上,也获得了8.7%的绝对提升。

在专业知识领域:该方法的优势同样延伸到了需要高度专业知识的领域。在MedQA(医学)、CQA(法律)和 CFA(金融)等基准测试中,分别取得了8.9%、17.7%和13.7%的绝对性能提升。在科学领域:在GPQA(研究生水平科学问答)这一高难度任务上,其性能提升同样显著,达到了13.1%

同等数据预算下的效率优势

该框架最引人注目的优势之一在于其极高的数据效率。在与使用「真实」人工标注数据进行训练的方法进行同等数据预算的公平比较时,Synthetic Data RL表现出了显著的优势。

完胜监督微调(SFT):当训练预算被限制在相同数量(例如500个样本)时,「合成数据强化学习」方法的效果远超传统的监督微调(SFT)方法 。例如,在GSM8K任务上,SFT使用500个人类样本仅能达到74.5%的准确率,而该框架则达到了91.7%。这突显了在数据稀缺的情况下,RL相较于SFT的普遍优越性。媲美甚至超越人类数据RL:更令人印象深刻的是,该方法不仅效果好,而且效率极高。在使用同等数量(500个样本)的训练数据时,它的表现能够持平甚至略微超过使用「真实」人类标注数据进行训练的强化学习(RL)方法。

在GSM8K任务上,使用500个合成样本的准确率(91.7%)甚至略高于使用500个人类样本的RL(91.2%)。这一趋势在不同数据预算(100、300、1000个样本)的消融研究中也得到了证实(详情见原文),表明该方法始终能与使用人类数据的RL基线相媲美或更优。

人工数据指导的边际效益递减

表1的研究结果进一步揭示了一个重要现象:对模型合成数据而言,掌握任务的正确「形式」比学习大量具体「实例」更为关键,这一点体现在人类标注数据呈现出的边际效益递减上:

当模型通过「合成数据强化学习」框架,仅从任务定义中学习并掌握了任务的底层结构后,其性能已经达到了一个非常高的水平。

此时,额外增加由人类标注的演示示例,所带来的性能提升变得非常有限。例如,在GSM8K基准测试上的表现:

仅使用任务定义进行训练的模型,其准确率已经可以达到91.7%;在此基础上,即便再增加100个高质量的人类演示样本来指导合成数据,最终的准确率也仅仅微升至92.1%

这种微小的、渐进式的改进并非孤例,在其他多个数据集上也观察到了相似的趋势,例如在MATH、LogiQA、MedQA和MedNLI等任务上,随着人类演示样本的增加,性能也只是略有提高 。

弱者教出强者

另一个有趣的发现是,「合成数据强化学习」框架能够让一个相对较弱的指导模型(「老师」)训练出一个在性能上超越其自身的、更强大的模型(「学生」)。

在相关的验证实验中,研究者将原本作为指导模型、性能顶尖的 GPT-4o 替换为能力相对较弱的Qwen-2.5-7B-Instruct模型,并由这个「弱老师」来完成生成合成数据和调整难度分布的全部任务。

从表1的最后一行结果显示,最终训练出的基础模型(即「学生模型」)在包括GSM8K、GPQA、LogiQA、MedNLI、CQA和CFA在内的六个基准测试中,其表现均超越了它的「老师」Qwen-2.5-7B-Instruct模型,并在其余两个任务上达到了与之相当的水平。

开启模型适应的新范式

Synthetic Data RL框架的提出,为大模型在专业领域的低成本、高效率适配提供了全新的解决方案。它通过将自动化数据合成与强化学习相结合,将模型微调的门槛从昂贵的人工数据标注,降低到了一个简单的任务描述,无需任何后续的人工标注或反馈。

这项工作证明了在无需大量人力投入的情况下,依然可以实现高质量、高效率的领域模型定制化,使得强大的AI能力适配变得更加规模化和成本可控,为未来更广泛的应用(如多模态任务)奠定了坚实的基础。

参考资料:

来源:新智元一点号

相关推荐