摘要:大型语言模型 (LLM) 是一项变革性技术,随着全球各地的公司竞相构建更大、更高性能的模型并在不断增长的数据集上进行训练,这项技术吸引了大量关注和投资。2022 年 ChatGPT 的推出是一个激动人心的时刻,使用自然语言解决问题和与人类互动的人工智能 (AI
本文来源:科技世代千高原
William Marcellino, Lav Varshney, Anton Shenk, Nicolas M. Robles, Benjamin Boudreaux
从大型语言模型走向通用人工智能
大型语言模型 (LLM) 是一项变革性技术,随着全球各地的公司竞相构建更大、更高性能的模型并在不断增长的数据集上进行训练,这项技术吸引了大量关注和投资。2022 年 ChatGPT 的推出是一个激动人心的时刻,使用自然语言解决问题和与人类互动的人工智能 (AI) 的前景——加上大数据和计算领域的互补趋势——开启了新一轮的AI 盛宴,并对社会和经济产生了深远的影响( Vöpel ,2024 年)。AI 的快速进步激发了对 AI 的历史性投资,美国企业对生成式 AI 的资本配置超过 1 万亿美元,以预期 LLM 的表现将不断提升(高盛,2024 年)。
在本文中,我们从以下三个方面定义通用人工智能(AGI) :
• 在各种认知和元认知任务中具有人类或超人的能力
• 部署人工智能系统,通过自动化替代劳动力来执行具有经济价值的工作
• 新兴特性的人工智能系统,例如学习新技能和执行新任务。
扩展和改进这些模型的资金投入也很高;现有的生成模型(例如 GPT-4)的训练成本高达 7800 万美元(Buchholz,2024),有人猜测更大规模的模型的训练成本可能高达数十亿美元( Nesov ,2024)。这笔巨额投资反映了大模型(LLM)的潜在经济和科学影响:它们很可能大幅提升各行各业工人的生产力( Eloundou等人,2023;Korinek,2024),甚至可能彻底改变科学发现的步伐( Ifargan等人,2024)。
许多业界和人工智能研究领域的人士认为,LLM 规模越来越大,在各种基准测试中的表现也越来越好,这意味着 AGI 时代即将到来。(注释1)这就是超大规模范式:LLM 系统的规模和性能将持续增长,直到实现自我改进,从而不可逆转地实现超人的 AGI( Aschenbrenner ,2024 年)。鉴于 LLM 发展和改进的快速步伐,如果 AGI 迫在眉睫(比如,像一些人预测的那样,在未来两到四年内),它很可能来自超大规模的LLM( Aschenbrenner ,2024 年)。对于一些人工智能专家来说,这种前景意味着可控的风险和智能爆炸,从而导致后稀缺世界(Drexler,2019 年),而另一些人则担心这会对人类构成真正的生存风险( Kruppa和 Seetharaman,2024 年)。
除了可能带来巨大的经济收益或严重威胁之外,AGI 的前景还具有巨大的地缘政治风险,尤其是在中美竞争方面。由于 AGI 具有刺激变革性经济增长和国家实力的潜力,人们真正担心的是,谁能率先实现 AGI,谁就可能拥有永久的、决定性的地缘政治优势 (Gill, 2020)。中国公开承诺要成为全球人工智能的领导者,并启动了一项雄心勃勃的全政府行动,通过公私合作伙伴关系发展人工智能,将国家政府、地方政府、学术研究人员和产业界聚集在一起,加速各种人工智能技术的开发 (Zhang and Luo, 2024)。显然,中国非常重视人工智能主导地位的竞争,而且有可能出现一场 AGI 竞赛。美国政府的政策可能会对美国能否保持或扩大其全球人工智能领先地位产生巨大影响。
超大规模范式的合理性至关重要。如果超大规模范式不可行,那么美国政府的人工智能政策就认为超大规模即使不会成为战略遗憾的根源,也可能是脆弱的。在本文的其余部分,我们将阐述现有人工智能研究如何支持以下观点:使用大模型 (LLM) 可能是通往通用人工智能 (AGI) 的重要但不足的技术途径。大模型似乎存在固有的局限性,可能需要补充技术才能继续迈向通用人工智能 (AGI)。虽然我们目前无法自信地断言如何实现通用人工智能 (AGI),但我们确实断言,通往通用人工智能 (AGI) 的道路是不确定的。美国政府政策制定者可以考虑通用人工智能 (AGI) 很快在超大规模范式中出现的可能性。但由于这种不确定性,美国政府可能不想孤注一掷,而是应该谨慎地制定支持多种未来可能性的政策,以对冲不确定性。
大型语言模型不断改进,但这足够吗?
现有研究表明,超大规模扩展并非通往通用人工智能 (AGI) 的可行途径或唯一途径。例如,尽管领先的人工智能实验室在推广其大模型 (LLM) 产品时指出,随着大模型 (LLM) 规模的扩大,其推理基准测试的性能将不断提升,但最近的研究表明,尽管这确实存在,但规模扩大也会导致越来越自信的错误答案 (Zhou et al., 2024)。这些大模型 (LLM) 是否具备真正理解语言的能力(而非仅仅学习表面模式)在人工智能研究领域存在广泛争议 (Mitchell and Krakauer, 2023)。杰出的人工智能研究人员,例如 François Chollet (2024) 和 Melanie Mitchell (2024),认为大模型 (LLM) 并非真正意义上的智能,在处理其记忆范围之外的数据时会失效:它们无法完成通用人工智能 (AGI) 的通用部分。因此,尽管大模型 (LLM) 技术在不断改进,但其发展历程依然错综复杂,我们将在下文详述。
超扩展范式的核心是涌现能力的理念。早期对 LLM 的研究发现,性能出现了意想不到的巨大飞跃:不知何故,随着模型的扩展,新的能力在没有针对这些能力进行专门训练的情况下出现了(Woodside,2024)。然而,后续研究表明,涌现可能是由错误的指标引起的海市蜃楼。显示涌现的基准是全有或全无的衡量标准,因此,在解决问题方面稳步、部分的改进掩盖了平稳的改进。当调整指标来衡量进展和部分解决时,改进就会变得平滑,新的能力就会消失(Schaeffer、Miranda 和Koyejo ,2024)。还有一些人认为,随着扩展可能存在真正的涌现,但 LLM 的能力可能会停滞不前(Nayak 和 Varshney,2024)。
此外,要使 LLM 成为通往 AGI 的可行途径,LLM 可能需要超越语言的统计建模,具备逻辑和数学推理能力。尽管 LLM 在扩展过程中在问题解决推理基准上有所改进,但这可能是模式记忆的结果。其中一个例子是“逆转诅咒” ,其中模型可以单向记忆关系,但不能双向记忆关系(Berglund 等人,2023 年; Golovneva等人,2024 年)。也就是说,LLM 可以记住“A 具有特征 B”,但不能记住“B 是 A 的特征”,除非对模型进行双重训练以分别记忆这种关系。最近关于数学推理的研究也强调了 LLM 性能作为记忆的问题( Mirzadeh等人,2024 年)。如果基准被抽象为符号(例如,问题不是“如果托尼有四个苹果,珍妮特有六个”,而是“如果{姓名}有{x}个苹果,{姓名}有{y}个苹果”),不仅准确率会大幅下降(最高可达65%),而且这种脆弱性还会随着基准问题的长度而增加。此外,如果出现语言上相似但不相关的信息(“五个猕猴桃比平均尺寸小”),大模型往往会天真地将这些不相关的信息纳入其中——例如,减去较小的猕猴桃。
除了性能限制之外,扩展还存在潜在的经济限制,特别是数据和能源限制。按照现有的模型扩展速度,十年内人类生成的全部训练数据可能会耗尽,而越来越多的人工智能生成内容可能会污染未来的训练,以至于模型崩溃,输出质量和多样性越来越低。这种数据墙可能对扩展 LLM 构成严峻挑战( Aschenbrenner ,2024 年;Villalobos 等人,2024 年)。除了数据限制之外,训练模型和运行这些模型(推理)不断增长的功率需求可能意味着研究人员会遇到限制 LLM 扩展的能源墙( Kurshan ,2024 年; Stojkovic等人,2024 年)。数据和能源墙有可能通过技术手段克服(注释2),但仍有可信的理由表明超大规模可能行不通。
总而言之,虽然 LLM 在基准测试中的表现会随着 LLM 的扩展而提高,但最近的研究表明,这可能是更高功率的模式记忆的结果。对于多种 LLM 系列,扩展和训练会使他们对难题的答案越来越自信,但却不正确。LLM 中涌现的能力可能是有缺陷的测量造成的。此外,LLM 在形式推理和数学方面表现不佳,在面对抽象或语言复杂的问题时显然依赖于死记硬背。最后,从实际角度来看,数据和能源壁垒可能会在经济上限制 LLM 的扩展。当然,这些都不是定论:超大规模仍然有可能导致 AGI,如果 AGI在不久的将来出现,它很可能来自 LLM 的扩展。然而,现有研究提出了关于超大规模作为 AGI 途径的局限性的重要问题。AGI 可能依赖于其他替代技术。
对于通用人工智能我们还需要什么?
如果超大规模的大模型(LLM)课程并非通往通用人工智能(AGI)的可行途径,那么什么才是可行的呢?在本节中,我们将探讨各种可能填补大模型(LLM)课程空白的互补性替代技术。表1列出并描述了一些可能填补大模型(LLM)课程空白的、前景光明的互补性人工智能技术。此列表并非详尽无遗,而是阐述了不同的人工智能技术可能如何为通用人工智能(AGI)做出贡献。此列表源自兰德公司研究人员与美国联邦政府资助的研发中心、大学附属研究中心以及学术界的顶尖人工智能专家共同举办的研讨会。
表 1. 潜在有用的通用人工智能技术
潜在工具算法和计算技术
在以下章节中,我们将解开算法和计算技术,在概念层面上解释它们,并解释它们如何解决现有人工智能系统中的根本限制以及它们如何有助于实现 AGI。
物理信息神经网络和因果模型
想象一个孩子手里拿着理发剪在家里跑来跑去。这可能是一个非常令人不舒服的画面,因为成年人类已经开发出用于现实世界物理和因果关系的强大模型。也就是说,我们很清楚当锋利的钢铁用力击中柔软的肉体时会发生什么。我们也很清楚这种事件的灾难性后果。人们之所以普遍聪明,部分原因在于他们对物理世界如何运作的理解。物理信息神经网络 (PINN) 模拟物理基本定律,例如牛顿运动定律。PINN 可以解决诸如动力学之类的问题(例如,模拟湍流或预测结构应力),并且在数据稀疏时通过利用物理原理的先验知识非常有价值(Cuomo 等人,2022 年; Raissi 、 Perdikaris和Karniadakis ,2019 年)。另一方面,因果模型用于理解因果关系。因果模型可以区分相关性和因果关系,并允许人工智能系统模拟反事实情景——例如,“如果汽车刹车用力过猛会发生什么?” 因果模型对于安全至关重要,因为自主系统(例如机器人、汽车)可以在动态的现实世界环境中导航( Kacianka等人,2019 年),并且对于潜在 AGI 系统的安全也至关重要(Everitt 等人,2019 年; Holtman ,2021 年)。
尽管LLM能够捕捉文本或视觉数据中的模式,但它缺乏对现实世界物理或因果关系的明确表征。现有的LLM将“尖锐物体”建模为词语之间的概率关系,而缺乏任何明显的物理基础。LLM或许能够建模“刀”位于“割伤”和“血”附近,但截至本文撰写时,似乎还没有一个LLM能够模拟刀切割的动态过程,或从物理角度预测割伤可能造成的致命后果。然而,PINN和因果模型弥补了现实世界理解方面的这一空白。现有的语言模型仅提供表层语义理解( Vafa等人,2024),而PINN可以建模物理过程,因果模型可以推理这些过程的结果。PINN和因果模型结合起来,可以实现更鲁棒的 决策:例如,人工智能系统可以了解在仓库中将大量重型托盘移动到虚弱的人体周围的危险。
认知人工智能
认知人工智能以人类认知作为通用人工智能(AGI)的起点。与统计和生成方法不同,认知人工智能旨在人工复制人类智能的标志性特征。认知人工智能研究的目标是设计出与人类智能相似的系统;具体来说,这些系统能够通过与环境和其他参与者的互动来学习概念,拥有短期和长期记忆,能够自适应地学习如何在不同情境下行动,并能够持续迭代地学习(Voss and Jovanovic,2023)。
虽然不同的研究方向使用不同的术语,例如认知计算、认知人工智能和人工智能,但它们的共同点在于关注类人认知。一方面,人工智能并不一定需要认知;例如,强化学习在某种意义上是一种学习优化的蛮力路径,而大模型是数据模式的统计模型,例如语言或蛋白质。另一方面,认知人工智能需要类似人类的思考能力,即通过理解上下文中的数据来解决现实世界的问题( Sandini 、 Sciutti和Morasso ,2024 年)。这种方法旨在实现一种更全面的人工智能形式,其中机器可以以反映人类认知能力的方式进行推理、解决问题和决策( Sreedevi等人,2022 年)。
这项人工智能技术可以解决复制人类所拥有的广泛且适应性强的智能这一根本挑战。通用人工智能(AGI)中“ G”的定义之一假设,这种智能能够理解和学习不同的经验,做出情境感知型决策,并灵活地将知识应用于不同领域——这些能力是人类认知的固有属性。认知人工智能专注于复制这些认知过程,为开发不仅能执行特定任务,还能将学习成果推广到新的、不可预见的挑战的系统提供了途径。这种适应性和情境理解能力对于通用人工智能在现实世界复杂动态的环境中有效运行至关重要。
信息格学习
如果我们将一组大小不规则、颜色各异的正方形和星形积木扔在地上,即使是很小的孩子也能立即察觉出区分这两类积木的模式。此外,一定年龄段的孩子可以清楚地说出积木分类的规则:正方形有四个角,边长相等;星形有四个以上的角,边长可以不同。大模型缺乏这种类似人类的能力,即从单个或极少数例子中识别模式,然后用人类可以理解的方式解释模式规则。然而,一种新型的人工智能——信息格学习,无需使用神经网络就能做到这一点。这种形式的人工智能可以从与教科书相同的人类可解释形式的极少量数据中发现已知的音乐理论、化学、遗传学和量子物理学定律,它还可以做出超出科学家先前考虑的新发现,而无需人类工程学预先明确输入任何领域知识(Yu、Evans 和 Varshney,2023 年)。
这种通用知识发现可以用于下游的各种应用:最先进的视觉目标分类、6G 无线的语义压缩,或帮助人们创造前所未有的想法和成果。由于信息格学习基本上不需要预先掌握任何领域知识,并且训练所需的数据也很少,因此它抓住了通用智能的一个关键方面 (Chollet, 2019)。在情报、国防、生物安全以及其他关乎国家竞争力的领域(包括研发)中出现的快速变化或特殊环境下,信息格学习的数据效率和人为可控性与大模型 (LLM) 具有强大的互补性。
强化学习
强化学习 (RL) 通过反复试验而非学习规则或理论来训练人工智能。例如,现有的能够击败任何人类棋手的人工智能国际象棋系统并非像人类一样通过一套规则和策略来学习国际象棋,而是通过尝试数百万种组合来寻找最优解。当强化学习模型取得进展时,其策略会通过奖励机制得到强化,而次优的走法则会受到惩罚,直到某个系统(例如国际象棋人工智能专家)能够预见到数十步沿着模糊路径的走法,最终获得小胜,例如只吃掉一个兵。虽然这种方法非常非人类,但对于特定任务和特定领域而言,它却可能是一种强大而实用的方法。
一个典型例子就是自动驾驶汽车,比如无人机。有了足够的 RL,无人机(和其他智能体)可以在没有任何人工监督的情况下学习如何在复杂的地形和动态情况下导航;例如,空运无人机可以安全地避开电线,侦察无人机可以贴近地形以避免被发现( AlMahamid和Grolinger ,2022 年)。由于 RL 涉及大量的反复试验,因此许多 RL 训练都是在虚拟环境中进行的(例如,通过一次又一次地模拟无人机坠毁,但以时间加速的方式获得足够的经验来学习最佳策略)。除了自主运动之外,RL 还在医疗诊断和教育等多个领域具有价值( Radmehr 、Singla 和Käser ,2024 年;Yu 等人,2023 年)。
RL 对于开发 AGI 至关重要,因为它使机器能够像人类一样通过经验学习和适应。RL 系统可以通过根据反馈不断改进其操作来处理各种各样的任务和环境。此外,RL 可以与 LLM 相结合,创建混合系统,将深度学习应用于某项任务(RL)并具有解决问题的能力(LLM)( Pternea等人,2024 年; Radmehr 、Singla 和Käser ,2024 年),事实上,OpenAI 和DeepSeek等公司最新推出的一批推理 LLM已将 RL 应用于数学、编码和科学问答等任务(Mercer、 Spillard和 Martin,2025 年)。RL 的适应性和持续学习是创建能够学习在不同情况和任务中行动的机器的关键要素,使人类更接近实现 AGI。
神经符号架构
神经符号架构是一个新兴领域,它将神经网络的优势与符号推理的优势相结合,旨在克服纯数据驱动模型(如大模型 (LLM))的局限性。大模型 (LLM) 是传统神经网络的一个例子,它在模式识别和数据驱动任务中表现出色,但在需要抽象推理、逻辑推理和超越训练数据的泛化任务(尤其是在高等数学领域)中却举步维艰。另一方面,符号人工智能使用形式逻辑和显性知识表示(例如规则、本体)来推理世界。通过结合这两种方法,开发人员可以设计一个混合神经符号人工智能系统,该系统充分利用神经网络处理原始数据的灵活性以及符号系统的可解释性和结构化推理能力( Garcez 、Lamb 和Gabbay ,2019 年)。这种集成使得能够在更广泛的领域(包括需要常识性知识和复杂推理的领域)实现更稳健的问题解决。
与纯粹依赖于海量文本数据进行统计学习的大模型 (LLM) 相比,神经符号人工智能将数据驱动的学习与知识的明确表征相结合。尽管 LLM 展现出了令人印象深刻的语言能力,但它们仍然受限于对模式匹配而非逻辑推理或对世界的理解 (Bender 等人,2021)。神经符号人工智能通过融合符号组件(例如逻辑推理和结构化知识),使模型能够更好地处理诸如演绎推理、问题分解和解释生成等任务 (Zhang 和 Sheng,2024)。这些模型弥合了神经网络的数据驱动优势与符号推理的结构化智能之间的差距,从而能够构建更具泛化能力和可解释性的人工智能系统。
神经符号人工智能可能是实现通用人工智能 (AGI) 的关键一步,因为它能够将灵活学习与结构化推理相结合。AGI 不仅需要强大的数据处理能力,还需要具备推理能力、从更少的示例中学习的能力以及跨领域泛化知识的能力——这些特质难以通过纯粹基于神经的模型(例如大模型 (LLM))实现( Schmidhuber ,2022)。将符号推理集成到神经网络中,使系统具备了更高阶的认知能力,例如理解上下文、建立因果关系以及将学到的知识应用于新情况。这种混合方法使系统在思维方面拥有更像人类的灵活性,例如处理不完整信息、解释决策以及对新情况进行推理。
具身
一样通过互动来学习世界,那会怎样?想象一下,一个机器人配备了各种传感器:摄像头、麦克风、带有触觉传感器的手,甚至还有用于味觉和嗅觉的化学传感器。这个机器人四处游荡,通过听狗叫、摸狗的皮毛、看狗的动作以及闻狗身上湿漉漉的气味来了解狗。机器人与人(或许还有其他人工智能代理)互动,通过具身互动来学习。
具身人工智能系统扎根于现实,对空间关系、物体动态和物理交互有着细致入微的理解(Duan et al., 2022)。这使得这些系统能够像人类一样通过交互进行学习,并像人类一样获得情境感知知识,而这正是大模型(LLM)所缺乏的。这种高情境感知能力对于人工智能系统进行实时决策和动态调整至关重要。通过弥合感知与移动或操控之间的差距(Hughes et al., 2022),具身人工智能系统能够掌握物理、因果和交互知识,从而理解其在物理世界中的行为后果,从而做出更明智、更安全的决策。
具身化使人工智能系统能够以类似人类的方式体验世界,从而更接近类人智能。这种体验性对于培养同理心、直觉和其他仅靠数据处理难以实现的认知能力至关重要。
神经形态计算
LLM 消耗大量的能源,不仅是在训练大型模型时,而且在部署和生成响应(推理)时,尤其是使用 RL 进行推理的新型思路链技术:测试时间扩展而不是训练时间扩展(Mercer、 Spillard和 Martin,2025 年)。由于 LLM 是一种人工神经网络,因此需要高性能计算机芯片,特别是图形处理单元 (GPU)。这些 GPU 可以高效处理 LLM 的复杂矩阵数学,但它们的训练和运行需要大量能源。随着 LLM 的超大规模化,这些电力需求是一个特别的可持续性问题。此外,GPU 只有一个主要的供应商(Nvidia 公司),这增加了成本和供应链风险(Tang 和 Zhu,2024 年)。
虽然这些传统芯片采用时钟驱动的时序和恒定功率,但一种新型神经形态芯片已经问世,它使用离散(因此功率较低)的电脉冲进行计算。神经形态芯片的灵感源自人脑,利用脉冲信号和计算单元之间的大规模并行连接,比传统计算机电路节能得多。这些芯片已在实验室中部署,但截至本文撰写时(2025 年初)尚未得到广泛应用。一种不同的新兴方法是将真实的生物神经元培养到人工计算设备中,这样这些设备就可以依靠少量的糖而不是大量的电来运行(Zhang 等人,2024)。如果这些替代性的物理基底能够实现工业规模应用,它们可能会颠覆人工智能计算的供应链,并改变人工智能的能量计算方式。
涵盖多重未来的稳健策略
在上一节中,我们介绍了多种可能卓有成效的通用人工智能 (AGI) 替代技术路径。我们的目的并非提出具体的建议,而是帮助政策制定者和其他利益相关者充分理解这些替代方案的多样性和广度,从而认识到实现通用人工智能 (AGI) 的路径不止一条。这些替代路径涉及来自不同研究领域的算法和硬件技术。这表明,支持通用人工智能 (AGI) 替代技术的政策可能需要更加复杂,以涵盖各种开发实体和模式。
我们希望,在本文中,我们已经解释了围绕 AGI 技术路径的一些不确定性,并质疑了 LLM 将简单地扩展到 AGI 的假设。我们强调这种不确定性:LLM 有可能以某种方式扩展,以弥补其局限性并实现变革性 AGI。但 LLM超扩展存在经验和理论障碍。因为我们无法预测未来,所以我们敦促政策制定者同样避免猜测未来。虽然本文的范围不包括对具体技术或战略提出任何建议,但我们认为美国政府的政策可以考虑到 AGI 很快会在超扩展范式中出现的可能性,而无需制定仅仅基于这种假设的政策。美国政府可以为不确定性做好计划,并做出适应多种 AGI 途径的政策选择。
注释1 For more on AGI as defined by capabilities, see Morris et al., 2024. For more on AGI as defined by deployed systems that perform
economically valuable work, see OpenAI, undated. For more on AGI as defined by emergent properties, see Chollet, 2019.
注释2 The recent attention to DeepSeek’s low-cost models is a good example of how algorithmic innovation can reduce energy
demands. DeepSeek engineers were able to dramatically improve training efficiency and thus reduce compute (and, thus, energy)
requirements for training their DeepSeek-V3 model (Liu et al., 2024).
关于作者
威廉·马塞利诺是兰德公司的高级行为科学家。他开发自然语言和人工智能工具及系统,并就人工智能、外国恶意信息行动和军事信息技术系统等主题开展政策研究。他拥有修辞学博士学位。
拉夫·瓦什尼( Lav Varshney)是伊利诺伊大学香槟分校电气与计算机工程副教授,也是兰德公司的兼职高级研究工程师。他的研究重点是人工智能理论、应用和治理。他拥有电气工程和计算机科学博士学位。
安东·申克(Anton Shenk)是兰德公司的量化研究助理,专注于新兴技术经济学研究。他参与了人工智能增强型生物武器和未来经济战的研究。他拥有数学和经济学理学学士学位。
尼古拉斯·M·罗伯斯是兰德公司的数学家。他为国防和公共政策制定者设计并执行数学工具,并研究人工智能和量子计算等新兴技术对国家安全的影响。他拥有数学博士学位。
本杰明·布德罗是兰德公司的政策研究员,致力于伦理、新兴技术和人类安全的交叉研究。他拥有哲学博士学位。RAND. Charting Multiple Courses to Artificial General Intelligence. Published Apr 23, 2025
来源:人工智能学家