摘要:数据是人工智能发展的“动力燃油”,但如今其正面临“枯竭”的风险,这道“数据墙”成为制约大模型性能突破的关键瓶颈。在此背景下,合成数据技术应运而生。近期,微软亚洲研究院推出了一个可扩展的 SYNTHLLM 框架,能够生成多样化的合成数据,有效填补自然数据的空缺。
编者按:数据是人工智能发展的“动力燃油”,但如今其正面临“枯竭”的风险,这道“数据墙”成为制约大模型性能突破的关键瓶颈。在此背景下,合成数据技术应运而生。近期,微软亚洲研究院推出了一个可扩展的 SYNTHLLM 框架,能够生成多样化的合成数据,有效填补自然数据的空缺。此外,研究员们还发现并证实了合成数据的规模法则,为大模型使用合成数据进行训练与优化提供了科学依据。
人工智能在当今取得如此显著发展的关键因素之一,是大量的数据为模型训练提供了强大的“燃料”,尤其是高质量的数据,更是提升模型性能的核心。但随着互联网上可用于训练的数据逐渐被挖掘殆尽,获取高质量的预训练数据变得越来越困难,仿佛在人工智能发展的道路上竖起了一道“数据墙(data wall)”。这导致当前大模型的性能提升遭遇瓶颈,训练成本不断增加,而性能提升的效果增益却逐渐减弱,整体发展速度也因此放缓。
面对数据不足的困境,合成数据提供了一种有效的解决方案。通过算法生成的人工数据,虽然并非来源于现实世界,却能精准模拟现实世界的规律。然而,尽管此前的研究已经证明了预训练数据的规模法则(scaling law),但合成数据是否遵循类似的原则,长期以来缺乏系统性验证。
为此,微软亚洲研究院构建了扩展的 SYNTHLLM 框架,能够大规模生成合成数据,并通过大量实验验证了合成数据的规模法则。这些研究结果为利用合成数据进行大模型的训练和优化提供了科学依据。
Scaling Laws of Synthetic Data for Language Model
论文链接:
合成数据遵循修正的规模法则
大语言模型的性能与模型大小、数据集大小均呈现幂律关系,这一规模法则为估计模型性能提供了一个预测框架,并且已经得到了广泛的研究与证实。这些法则为理解性能如何随计算资源扩展提供了有价值的见解,有助于在预训练大语言模型时更明智地做出计算资源的最优分配决策。
然而,这一规模法则主要适用于使用自然数据的预训练阶段,合成数据是否也遵循类似的规律,一直是一个未知数。在基于 SYNTHLLM 框架的最新研究中,研究员们首次通过实证验证了使用合成数据微调语言模型时规模法则的适用性。
通过在数学推理领域的大量实验,研究员们得出以下关键发现:
1. SYNTHLLM 生成的合成数据在各种规模下都能可靠地遵循修正的规模法则(rectified scaling law)。这意味着合成数据具有可预测性,科研人员可以通过规模法则合理选择模型规模和训练数据量,从而最大化地提升模型性能。
2. 性能提升在约3000亿个 token 左右趋近于平稳。也就是说,合成数据在达到这个规模后,对模型性能的提升效果会逐渐减弱。这一发现有助于科研人员在数据生成与模型训练之间找到最佳平衡点。
3. 较大的模型在使用较少训练 token 的情况下就能接近最佳性能。例如,80亿参数的模型在1万亿个 token 时达到峰值,而30亿参数的模型则需要4万亿个 token。这一发现揭示了模型规模与训练效率之间的关系,即较大的模型在较少的训练数据下就能达到较好的性能,而较小的模型则需要更多的数据来提升性能,为未来大模型的开发和优化提供了指导。
图1:SYNTHLLM 生成的合成数据在各种模型大小下都始终遵循修正的规模法则。(注意:图中曲线表示错误率而非准确率)
SYNTHLLM合成数据集:更具可扩展性与多样性
传统的合成数据集构建方法严重依赖目标领域中有限的人工标注种子样本,从根本上限制了所得数据集的多样性和可扩展性。相比之下,预训练语料库既庞大又高度多样化,仍然是可扩展合成数据生成的未充分利用资源。基于此,研究员们开发了 SYNTHLLM 框架,这是一种可扩展的网络规模合成数据生成方法,可系统地将预训练数据转化为高质量的合成数据集。
SYNTHLLM 通过以下三个阶段完成合成数据的生成:
首先,SYNTHLLM 会自主识别和筛选目标领域中的高质量网络文档。
随后,SYNTHLLM 利用这些高质量参考文档,通过三种互补的方法,借助开源大语言模型生成大规模、多样化的问题(或提示)。每种方法都经过精心设计,以逐步提高问题的多样性。
最后,SYNTHLLM 再次使用开源大语言模型为这些生成的问题生成相应的答案(或回复),形成完整的合成数据样本。
值得注意的是,在第二阶段,此前的方法通常是采用直接问题提取或文档反向翻译来生成问题。但这些方法在可扩展性方面存在固有局限性,因为问题生成要么受限于包含高质量问题的参考文档数量,要么需要训练专门的反向翻译模型。SYNTHLLM 框架通过使用图算法可自动从多个文档中提取和随机组合高级概念,超越了直接提取,同时在参考文档之间建立了关联。
实验表明,SYNTHLLM 能够通过分解和重新组合知识概念生成更多样化的问题。从图2可以清楚地观察到,二级方法生成的问题相似度较低,表明同一文档生成的问题之间具有更大的多样性。
图2:同一文档中问题相似性的柱状图
此外,与现有的增强方法相比,SYNTHLLM 的知识引导方法更有效地利用了有限的参考文档,从而实现了更具可扩展性的高质量合成问题生成,如图3所示。这为进一步提升模型性能提供了更加有效的训练途径。
图3:(a)其他增强方法在 MATH 基准上的性能;(b)各种基准的平均性能。(x 轴表示样本号,y 轴表示精度)
合成数据:模型训练数据的持续补给源
在可预见的未来,数据墙还将持续伴随人工智能的发展,而合成数据将成为模型训练数据的重要补充。合成数据具有多项优势:首先,它具有高度的可扩展性,能够根据需求快速生成大规模数据集;其次,它成本较低,无需耗费大量人力进行数据标注。这些特性使得合成数据成为解决数据稀缺问题的理想选择。
在不同领域,合成数据的应用价值都尤为突出。例如,在医疗领域,合成病例可以有效避免隐私问题;在自动驾驶领域,虚拟场景能够无限生成,为技术研发提供丰富的测试素材;在人工智能教育领域,通过算法组合,可以轻松生成百万量级的数学题。
SYNTHLLM 框架进一步放大了合成数据的优势。除了数学推理领域,这一框架还可轻松扩展到其他下游领域,如代码生成、物理与化学、医疗健康等,探索其在不同领域的应用潜力。
未来,研究员们还将开发更高效的策略,对 SYNTHLLM 框架进行持续优化和完善,并探索合成数据在预训练阶段的有效性,进一步提高合成数据的生成效率和质量,为人工智能的持续发展注入源源不断的动力。
随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。
来源:微软亚洲研究院一点号