人工智能算法进展:现状分析与未来预测

360影视 欧美动漫 2025-05-23 17:47 2

摘要:2025年4月23日,兰德公司发布了题为《人工智能算法进展:现状分析与未来预测》(Algorithmic Advancement in Artificial Intelligence:A Survey of Advances with Projections

本文来源:启元洞见

编辑:任侠

审校:流景

导语

2025年4月23日,兰德公司发布了题为《人工智能算法进展:现状分析与未来预测》(Algorithmic Advancement in Artificial Intelligence:A Survey of Advances with Projections for the Near Future)的报告。报告系统梳理了人工智能领域算法优化的关键路径及其对技术发展的潜在影响。报告由跨学科团队基于2023年10月至2024年8月的研究成果撰写,聚焦合成数据生成、Transformer替代算法及目标函数创新等核心改进渠道,并揭示了未来三种可能情景:数据硬约束下的专用模型主导、算法扩展失败引发的商业可行性挑战,以及规模持续扩大带来的指数级性能提升。启元洞见编译核心内容,旨在解析算法进步对人工智能发展轨迹的驱动作用,为技术监管与产业决策提供前瞻性参考。

随着大语言模型等商业产品的最新进展,人工智能的话题在公众讨论中日益受到关注。同时,随着人工智能能力的不断发展,人们对其安全影响的担忧也在加剧。本报告从数值分析、运筹学和计算机科学的角度审视了算法的改进;识别了一些常见的进步渠道;并描述了人工智能可能通过哪些渠道取得进步。还探讨了算法改进在未来几年内可能对人工智能进步产生的影响,旨在提出关于未来算法进步需要考虑的问题。

本报告中的研究工作于2023年10月至2024年8月期间进行,早于2024年12月底DeepSeek-V3的发布,这可能是算法进步的一个重要例证。

一、引言

随着人工智能商业应用的快速落地及安全关切升温,政策制定者需预判算法进步路径以评估其安全影响。本文聚焦的核心问题是:算法将如何驱动近期人工智能能力发展?

(一)算法改进的构成是什么?

如果算法的改变能够带来以下两点中的至少一点,本报告将视为有效改进——性能指标提升;所需努力和相关资源减少(或两者兼有)。改进评估兼具主观性(如人类偏好数据优化)与客观性(如降低浮点运算量),其衡量标准依具体场景动态变化。

(二)改进的维度

算法提升可分为集约边际与广延边际。集约边际通过降低输入需求(如训练数据量、算力消耗)或在同等资源下提升性能实现效率提高;广延边际则赋予模型新能力(如解决此前无法处理的问题类型)。本文聚焦训练阶段的集约边际优化,因前期成本高昂可能制约模型发展,且量化评估更具挑战性。需注意,一些算法变化可能会导致多个维度的改进,或者以牺牲一个维度为代价来换取另一个维度的改进。

(三)方法

评估框架基于三步骤:首先,分析数值计算、运筹学等领域的算法演进机制;其次,分类并筛选适用于大语言模型(LLM)的技术路径;最后预测其近期对基础模型的改进潜力。受限于文献覆盖范围及新研究迭代速度,该方法虽非穷尽,但能识别广泛趋势以支持政策分析。

二、算法进步文献

现有研究表明,算法改进对人工智能性能提升贡献显著:Grace分析布尔可满足性、国际象棋等经典计算问题,发现算法进步贡献率达50%~100%;Ho等人测算大语言模型预训练性能提升的5%~40%源于算法优化。斯坦福《2024年人工智能指数报告》指出,人工智能在九项基准测试中接近或超越人类水平,但近年进展停滞,可能标志能力瓶颈或研究转向更复杂挑战。Aschenbrenner预测算法进步每年带来半个数量级提升,若持续至2027年,人工智能或可替代研究人员工作。

这些研究对趋势的解释存在一定分歧。具体而言,他们在人工智能系统是否已达到或接近人类水平的性能方面存在分歧。另一个分歧点在于,基于预测下一个标记的交叉熵损失函数的性能持续改进,是否足以在商业相关的性能指标上实现实质性提升。

我们关注的是改进的机制,而非改进的速度,因此,我们并非将进步视为外生因素,而是概述了那些在实证上导致算法在集约边际上取得进步的路径,具体说明了这些路径如何应用于人工智能系统,并描述了可能预示人工智能系统进步方向的早期指标。

三、算法进步的机制

基于对数值分析、运筹学和计算机科学中的典型问题类型的回顾,我们确定了以下算法可以改进的关键渠道:

• 迭代次数减少:减少迭代次数可以节省计算成本。

• 随机性:引入随机性可以通过避免陷入局部最优解来加速收敛,从而提高性能。

• 降低精度:在某些情况下,使用较少的有效数字可以按比例减少存储空间,并且可以更大幅度地降低计算成本。

• 稀疏性:专用算法可以利用数据中的稀疏性模式,比处理稠密数据集更快,并降低存储成本。

• 数据裁剪:算法可以针对数据类型的特性进行裁剪。

• 目标函数:替代目标函数可以降低计算成本或提高性能。

• 复杂性:替代算法可能会在收敛速度与每次迭代的计算成本之间进行权衡。

本章将探讨这些渠道中的每一个是如何或可能如何应用于人工智能的,并讨论其对近期未来的影响。

(一)不太可能带来实质性改进的渠道

1. 更少的迭代次数

基于经验比例定律的模型已在给定数据和参数量下接近最优计算效率,因此单纯减少训练迭代次数难以显著提升性能。虽然增加数据复用次数可改善效果,但其增益可被量化预测,故降低单数据点的训练频次亦无实质突破空间。

当过拟合发生时,减少迭代次数可能有助于节省算力(但性能提升有限)。小规模模型可采用交叉验证等方法抑制过拟合,而大语言模型因计算成本限制难以实施此类策略。当前主要依赖集成学习等替代方案控制过拟合。

需特别注意的是,推理成本与模型参数量正相关,与训练迭代次数无关,因此调整训练时长不会影响推理效率。

2. 随机性

在大语言模型和其他人工智能系统中,随机性(或准随机性)已经通过预训练过程中的随机梯度下降、某些扩散模型的初始值选择以及架构中的其他各个环节成为一个因素。在这些情况下,随机性通常用于帮助算法避免陷入局部最优解。鉴于随机性已经在人工智能系统精确度与计算成本之间的关系并非易于公式化,因为这种关系从根本上取决于具体情境。

3. 降低精度

降低编码比特数可线性缩减存储需求,计算量则可能以平方级下降(具体取决于操作类型)。该量化技术适用于模型训练和推理全流程,尤其利于大语言模型在边缘设备的部署,但其优化效果具有一次性特征:无法形成持续改进机制,仅通过压缩模型规模实现更广泛的应用覆盖。

(二)有可能带来一些改进的渠道

Kaplan和Hoffmann缩放定律适用于稠密神经网络。如果能够以一种不会显著降低性能的方式引入稀疏性(例如,通过剪枝或正则化),那么推理的浮点运算次数(FLOPs)将按比例下降。此外,如果在训练之前已知稀疏模式,那么可以开发数学技术来利用这些模式,并且训练的浮点运算次数也可以按比例减少。

混合专家(Mixture of Experts,MoE)是一种动态计算图,是另一种利用稀疏性的方法。与随机森林是由多种分类树和回归树混合而成类似,MoE也是由多种更小的模型混合而成。一项研究发现,在固定的计算成本下,使用大量的小专家(超过100万个)可以比同等规模的非MoE大语言模型获得更高的准确率。同样,塔尔·施尼策尔(Tal Shnitzer)等人发现,通过从专家池中为给定任务识别“最佳模型”,然后将该模型应用于该任务,可以提高性能。

与稀疏性相关的技术进步预计将带来系统的逐步改进或优化,而非数量级上的大幅提升。

(三)有望带来实质性改进的渠道

1. 数据裁剪

研究表明,20%~99%选择性数据修剪可维持模型性能,且Wang等人开发了强化学习(RL)合成数据生成方法,实现高效小样本训练。另有定制化数据生成方案,如谷歌DeepMind为几何证明生成合成数据,微调其在国际数学竞赛中达银牌水平的模型,表明合成数据可用于为特定类别的问题生成高效模型。但尚无通用合成工具。此类方法通过定制数据扩展模型能力边界(如生成几何证明),但局限于特定任务。

开发一种通用的数据裁剪方法表明,训练成本可能降至基于现有缩放定律的训练成本的1%或更低,但需覆盖多领域知识。核心挑战在于优化数据选择以最大化信息增益。

从根本上说,如果一种数据整理(无论是修剪还是生成)方法能够选择要输入预训练算法的数据的确切数量和配置,以优化信息增益,那么就可以开发出一类新的缩放定律来最大化计算效率。

2. 目标函数

优化问题的核心是寻找使目标函数最优化的输入值。机器学习常用交叉熵损失函数衡量预测与真实值的差异(如大语言模型中预测下一标记),但用户可能想要事实信息、文体内容,或者与交叉熵损失函数或多或少相关的一些其他内容。因此,大语言模型的实际商业相关性与其在预训练和微调阶段所实现的性能衡量指标之间存在固有的不一致。基于人类反馈的强化学习(RLHF)等技术虽能提升性能匹配度,但实施成本过高。

开发计算高效且更贴近用户目标的损失函数替代方案,可能加速人工智能发展,但其具体影响程度取决于技术实现细节,现阶段难以量化评估。

3. 复杂性权衡

替代Transformer的算法(如计算复杂度为次二次方的Mamba,或单次迭代性能更优、所需迭代次数更少的Kolmogorov-Arnold Networks)已被证明优于同规模Transformer。这些算法可能在相同参数量下训练成本更低,从而在固定算力预算下开发出性能更优的模型。但当前这些算法仅在小规模和受限场景中被验证有效,其扩展性尚未明确。此外,Transformer因硬件生态和人工智能系统组件的长期优化形成路径依赖,即使替代算法理论更优,随着现有架构投入增加,切换成本也会阻碍其应用。

若替代模型能高效扩展,则大模型训练成本可能显著下降(至少一个数量级)。但需注意,一个数量级的成本降低仅相当于Transformer问世以来人工智能自然发展数年的进步幅度。

(四)进步渠道概述

核心结论是,未来几年存在多条可行路径使大语言模型在固定算力预算下实现显著性能提升。具体而言,若数据整理系统化且Transformer替代方案可扩展,训练出与当前顶尖模型性能相当的大语言模型/多模态模型的算力成本可能降低多个数量级,而更大规模的模型性能或呈指数级超越现有前沿模型。但若前文所述的障碍(如学习效率、数据限制)未被克服,超大模型的进展可能放缓。

四、结论与早期指标

基于上述的不同早期指标,我们为人工智能系统的近期发展指定了三种不同的可能轨迹。

(一)可能的未来

1. 数据限制成为瓶颈

若合成数据生成无法显著突破易获取高质量公共数据的存量限制,或替代架构未能比现有模型更高效训练,则前沿模型短期内难以实现实质性性能提升。但新数据集的引入可能带来局部改进,这意味着训练前沿模型的算力需求将停止增长,推理算力需求占比将相对上升。此环境下,针对特定问题或模态的小型模型仍可能有显著进展。

2. 算法扩展失败

若合成数据能有效扩展数据集,但替代架构训练效率未提升,前沿模型或可依赖合成数据持续扩展,但其成本对多数领域不具性价比。例如,若能在多领域生成类似AlphaGeometry/AlphaProof的合成数据,但模型学习效率未显著提升,则训练精通某领域的模型仍需数千万至上亿样本。若无跨领域迁移学习,通用模型或需数百亿样本训练,导致通用大模型推理成本高于专用模型,促使市场更青睐专用模型,大模型商业可行性降低。

大模型仍可开发,但性能提升将依赖更大数据集和算力投入而非数据利用效率。若如此,研究重点将转向小模型优化,因大模型性价比不足。

3. 规模持续扩大

若在合成数据生成和模型训练效率上均取得进展,可预期显著的规模回报效应,并持续推动大模型研发竞争。此外,训练阶段的计算效率提升也将降低推理成本。在此环境下,小模型虽仍适用于边缘设备等细分任务,但规模带来的效率提升可能超过开发专用模型所需的少量成本和时间。

4. 政策制定建议

尽管算法进步的节奏和路径高度不确定,但前文所述指标可为人工智能相关政策制定提供参考。政策制定者应考虑投资于算法进展的技术监测能力(重点关注合成数据生成、数据修剪及Transformer替代方案的可扩展性),以预判近期最可能的发展方向。

参考来源:兰德公司(RAND)

参考题目:AIgorithmic Advancement in Artificial Inrelligence

参考链接:https://www.rand.org/pubs/research_reports/RRA3485-1.html

来源:人工智能学家

相关推荐