Nature最新封面新闻|人工智能距离人类水平的智能还有多远?

摘要:OpenAI 的最新人工智能 (AI) 系统于 9 月发布,并做出了大胆承诺。聊天机器人 ChatGPT 背后的公司展示了其最新的大型语言模型 (LLM) 套件 o1,称其具有“全新水平的 AI 能力”。总部位于加利福尼亚州旧金山的 OpenAI 声称,与之前

OpenAI 的 o1 等大型语言模型引发了关于实现通用人工智能(AGI)的争论,但它们不太可能独自达到这一里程碑。

‍阿尼尔·阿南塔斯瓦米

插图:Petra Péterffy

OpenAI 的最新人工智能 (AI) 系统于 9 月发布,并做出了大胆承诺。聊天机器人 ChatGPT 背后的公司展示了其最新的大型语言模型 (LLM) 套件 o1,称其具有“全新水平的 AI 能力”。总部位于加利福尼亚州旧金山的 OpenAI 声称,与之前的 LLM 相比,o1 的工作方式更接近人类的思维方式。

这份报告为几十年来一直在酝酿的争论火上浇油:机器到底还要多久才能完成人类大脑可以处理的所有认知任务,包括从一项任务推广到另一项任务、抽象推理、规划以及选择调查和学习世界的哪些方面?

这种“通用人工智能”(AGI)可以解决棘手的问题,包括气候变化、流行病以及癌症、阿尔茨海默氏症和其他疾病的治疗。但如此巨大的力量也会带来不确定性——并对人类构成风险。加拿大蒙特利尔大学的深度学习研究员 Yoshua Bengio 表示:“滥用人工智能或我们失去对它的控制,都可能导致糟糕的事情发生。”

过去几年大型语言模型 (大模型,LLM) 的革命引发了人们的猜测,认为通用人工智能可能已经近在眼前。但一些研究人员表示,考虑到大模型的构建和训练方式,它们本身不足以实现通用人工智能。“还有一些缺憾,”Bengio 说。

显而易见的是,有关 AGI 的问题现在比以往任何时候都更加重要。“我一生中的大部分时间都认为谈论 AGI 的人都是疯子,”位于坦佩的亚利桑那州立大学的计算机科学家 Subbarao Kambhampati 说。“现在,当然,每个人都在谈论它。你不能说每个人都是疯子。”

2007 年左右,人工智能研究人员 Ben Goertzel 和 Cassio Pennachin 编辑的同名书籍中提到了“通用人工智能”一词,此后该词进入了时代潮流。它的确切含义仍然难以捉摸,但广义上是指具有类似人类推理和泛化能力的人工智能系统。

抛开模糊的定义不谈,在人工智能的大部分历史中,很明显我们还没有达到通用人工智能。以 AlphaGo 为例,这是谷歌 DeepMind 创建的用于玩棋盘游戏围棋的人工智能程序。它在围棋比赛中击败了世界上最优秀的人类玩家——但它的超人品质是狭隘的,因为这就是它所能做的一切。

LLM 的新功能彻底改变了这一格局。与人类大脑一样,LLM 拥有广泛的能力,这使得一些研究人员认真考虑某种形式的 AGI 可能即将出现1,甚至已经出现。

考虑到研究人员仅部分了解 LLM 的实现方式,这种广泛的功能尤其令人吃惊。LLM 是一种神经网络,是一种受大脑启发的机器学习模型;该网络由分层排列的人工神经元或计算单元组成,具有可调节的参数,这些参数表示神经元之间的连接强度。

在训练期间,最强大的 LLM(例如 o1、Claude(由旧金山的 Anthropic 制造)和谷歌的 Gemini)依赖于一种称为下一个标记预测的方法,其中反复向模型输入已被切成块(称为标记)的文本样本。这些标记可以是整个单词,也可以只是一组字符。序列中的最后一个标记被隐藏或“屏蔽”,并要求模型对其进行预测。然后,训练算法将预测与屏蔽的标记进行比较,并调整模型的参数,使其下次能够做出更好的预测。

该过程持续进行——通常使用数十亿个语言、科学文本和编程代码片段——直到模型能够可靠地预测被屏蔽的标记。到这个阶段,模型参数已经捕获了训练数据的统计结构及其所包含的知识。然后,这些参数被固定下来,当给出新的查询或“提示”(这些查询或提示不一定存在于其训练数据中)时,模型会使用它们来预测新的标记,这个过程称为推理。

使用一种称为转换器的神经网络架构,LLM 的成就大大超越了以前的成就。转换器允许模型了解某些 token 对其他 token 具有特别强烈的影响,即使它们在文本样本中相距甚远。这使得 LLM 能够以模仿人类的方式解析语言 - 例如,区分这句话中“bank”一词的两个含义:“当河岸被洪水淹没时,水损坏了银行的 ATM,使取款变得不可能。”

事实证明,这种方法在广泛的领域中都非常成功,包括生成计算机程序来解决用自然语言描述的问题、总结学术文章和回答数学问题。

在此过程中,其他新功能也不断涌现,尤其是随着 LLM 规模的扩大,如果 LLM 规模足够大,AGI 也有可能出现。其中一个例子就是思路链 (CoT) 提示。这包括向 LLM 展示如何将问题分解为更小的步骤来解决它的示例,或者只是要求 LLM 逐步解决问题。CoT 提示可以让 LLM 正确回答以前让他们困惑的问题。但这个过程对小型 LLM 来说效果不太好。

OpenAI 表示,CoT 提示已融入 o1 的运作中,并成为该模型强大功能的基础。Francois Chollet 曾是加州山景城谷歌的一名人工智能研究员,去年 11 月离职创办了一家新公司。他认为,该模型包含一个 CoT 生成器,可以为用户查询创建大量 CoT 提示,并有一个从选项中选择好提示的机制。在训练期间,o1 不仅被教导预测下一个标记,还要为给定查询选择最佳的 CoT 提示。

OpenAI 表示,CoT 推理的加入解释了为什么例如 o1-preview(o1 的高级版本)在国际数学奥林匹克资格考试中正确解答了 83% 的问题,国际数学奥林匹克是一项针对高中生的著名数学竞赛。相比之下,该公司之前最强大的 LLM GPT-4o 的得分仅为 13%。

然而,Kambhampati 和 Chollet 表示,尽管如此复杂,o1 也有其局限性,并不构成 AGI。例如,在需要规划的任务中,Kambhampati 的团队已经证明,尽管 o1 在需要多达 16 个规划步骤的任务上表现出色,但当步骤数增加到 20 到 402 之间时,其性能会迅速下降。

Chollet设计了一个抽象推理和概括测试来测试 o1-preview,以衡量 AGI 的进展,当他测试 o1-preview 时,也看到了类似的局限性。该测试采用视觉谜题的形式。解答这些谜题需要查看示例来推导出抽象规则,并使用该规则来解决类似谜题的新实例,而人类做到这一点相对容易。

Chollet 表示,无论规模大小,大模型在解决问题方面的能力都是有限的,因为这些问题需要重新组合他们所学的知识来解决新任务。“大模型无法真正适应新事物,因为他们没有能力从根本上掌握自己的知识,然后对这些知识进行相当复杂的重组,以适应新的环境。”

那么,大模型 (LLM) 真的能实现通用人工智能吗?有利的一点是,底层的 Transformer 架构除了文本之外,还可以处理和查找其他类型信息中的统计模式,例如图像和音频,前提是存在适当标记这些数据的方法。

在纽约大学研究机器学习的 Andrew Wilson 和他的同事表示,这可能是因为不同类型的数据都具有一个共同的特征:此类数据集具有较低的“Kolmogorov 复杂度”,Kolmogorov 复杂度定义为创建它们所需的最短计算机程序的长度3。研究人员还表明,Transformer 非常适合学习具有低 Kolmogorov 复杂度的数据中的模式,并且这种适用性会随着模型的大小而增长。Transformer 能够模拟各种可能性,从而增加训练算法发现问题合适解决方案的机会,并且这种“表现力”会随着规模的扩大而增加。Wilson 说,这些是“我们真正需要的通用学习的一些要素”。尽管 Wilson 认为 AGI 目前还无法实现,但他表示,使用 Transformer 架构的 LLM 和其他 AI 系统具有一些类似 AGI 行为的关键特性。

然而,也有迹象表明,基于 Transformer 的 LLM 存在局限性。首先,用于训练模型的数据即将耗尽。旧金山研究人工智能趋势的机构 Epoch AI 的研究人员估计4,用于训练的现有公开文本数据可能会在 2026 年至 2032 年之间耗尽。还有迹象表明,随着 LLM 规模的扩大,其收益并不像以前那么大,尽管目前尚不清楚这是否与数据中的新颖性减少有关,因为现在已经使用了太多数据,还是其他原因。后者对 LLM 来说是个坏兆头。

谷歌 DeepMind 伦敦研究副总裁 Raia Hadsell 提出了另一个问题。基于 Transformer 的强大 LLM 经过训练可以预测下一个 token,但她认为,这种单一的关注点太过局限,无法实现 AGI。她说,构建一次性或大量生成解决方案的模型可以让我们更接近 AGI。有助于构建此类模型的算法已经在一些现有的非 LLM 系统中发挥作用,例如 OpenAI 的 DALL-E,它可以响应自然语言的描述生成逼真的、有时甚至令人迷幻的图像。但它们缺乏 LLM 的广泛功能。

神经科学家对实现 AGI 需要哪些突破有着直觉。他们认为,我们的智力是大脑能够构建“世界模型”的结果,即我们周围环境的表征。这可以用来想象不同的行动方案并预测其后果,从而进行规划和推理。它还可以用来通过模拟不同的场景将在一个领域学到的技能推广到新任务中。

已有多项报告声称有证据表明大模型 (LLM) 内部出现了基本的世界模型。在一项研究5中,麻省理工学院的研究人员 Wes Gurnee 和 Max Tegmark 声称,一个广泛使用的开源大模型系列在使用包含这些地方信息的数据集进行训练时,形成了对世界、美国和纽约市的内部表征。

尽管其他研究人员在 X(以前的 Twitter)上指出,没有证据表明大模型 (LLM) 正在使用世界模型进行模拟或学习因果关系。在另一项研究6中,哈佛大学 (Harvard University) 的计算机科学家 Kenneth Li 和他的同事报告了证据表明,一个小型大模型 (LLM) 在使用棋盘游戏黑白棋 (Othello) 玩家的走子记录进行训练后,学会了在内部表征棋盘的状态,并以此正确预测下一步合法走子。

然而,其他结果则表明,当今人工智能系统学习的世界模型可能并不可靠。在一项这样的研究中7,哈佛大学的计算机科学家 Keyon Vafa 和他的同事使用了纽约市出租车行驶过程中转弯的大量数据集来训练基于 Transformer 的模型,以预测序列中的下一个转弯,准确率几乎达到 100%。

通过检查模型生成的转弯,研究人员能够证明模型已经构建了一个内部地图来得出答案。但作者写道,这张地图与曼哈顿(参见“人工智能的不可能街道”)几乎没有相似之处,“包含不可能的物理方向的街道和高架桥”。瓦法说:“虽然该模型在某些导航任务中表现良好,但它在无连贯的地图上表现良好。”当研究人员调整测试数据以包括训练数据中不存在的不可预见的绕行路线时,它无法预测下一个转弯,这表明它无法适应新情况。

反馈的重要性

加利福尼亚州山景城谷歌 DeepMind 的 AGI 研究团队成员 Dileep George 表示,当今的大模型缺乏的一个重要特征是内部反馈。人脑充满了反馈连接,允许信息在神经元层之间双向流动。这使得信息从感觉系统流向大脑的更高层,以创建反映我们环境的世界模型。这也意味着来自世界模型的信息可以回馈并指导获取进一步的感官信息。例如,这种双向过程会导致感知,其中大脑使用世界模型来推断感官输入的可能原因。它们还支持规划,使用世界模型来模拟不同的行动方案。

但目前的 LLM 只能以附加的方式使用反馈。在 o1 的情况下,似乎正在发挥作用的内部 CoT 提示(其中生成提示以帮助回答查询并在 LLM 产生最终答案之前反馈给 LLM)是一种反馈连接形式。但是,正如 Chollet 对 o1 的测试所见,这并不能确保万无一失的抽象推理。

包括 Kambhampati 在内的研究人员还尝试在 LLM 上添加外部模块(称为验证器)。这些模块会检查 LLM 在特定环境中生成的答案(比如创建可行的旅行计划),如果答案不达标,则要求 LLM 重新运行查询8。Kambhampati 的团队表明,在外部验证器的帮助下,LLM 能够比普通的 LLM 更好地创建旅行计划。问题在于研究人员必须为每个任务设计定制的验证器。“没有通用的验证器,”Kambhampati 说。相比之下,使用这种方法的 AGI 系统可能需要构建自己的验证器以适应出现的情况,就像人类可以使用抽象规则来确保它们推理正确一样,即使对于新任务也是如此。

利用这些想法帮助产生新的人工智能系统的努力还处于起步阶段。例如,Bengio 正在探索如何创建具有与当今基于转换器的 LLM 不同架构的人工智能系统。其中一个使用他所谓的生成流网络的人工智能系统将允许单个人工智能系统学习如何同时构建世界模型以及使用它们进行推理和规划所需的模块。

大模型面临的另一大障碍是数据吞噬者。伦敦大学学院理论神经学家卡尔·弗里斯顿 (Karl Friston) 认为,未来的系统可以提高效率,方法是让它们能够决定需要从环境中采样多少数据来构建世界模型并做出合理的预测,而不是简单地吸收它们输入的所有数据。

弗里斯顿说,这代表了一种能动性或自主性,这可能是 AGI 所需要的。“在大型语言模型或生成式人工智能中,你看不到这种真正的能动性,”他说。“如果你拥有任何一种可以在某种程度上进行选择的智能产品,我认为你就向 AGI 迈出了重要的一步,”他补充道。

能够构建有效世界模型和集成反馈回路的人工智能系统也可能更少地依赖外部数据,因为它们可以通过运行内部模拟、假设反事实并使用这些数据来理解、推理和规划,从而生成自己的数据。事实上,2018 年,当时在东京谷歌大脑工作的研究人员 David Ha 和瑞士卢加诺-维加内洛 Dalle Molle 人工智能研究所的 Jürgen Schmidhuber 报告称,他们构建了一个神经网络,可以有效地构建人工环境的世界模型,然后用它来训练人工智能进行虚拟赛车比赛。

如果你认为具有这种自主性水平的人工智能系统听起来很可怕,那么你并不孤单。除了研究如何构建 AGI 之外,Bengio 还提倡将安全性纳入人工智能系统的设计和监管中。他认为,研究必须专注于训练能够保证自身行为安全性的模型——例如,通过建立机制来计算模型违反某些特定安全约束的概率,并在概率过高时拒绝采取行动。此外,政府需要确保安全使用。他说:“我们需要一个民主的程序,确保个人、公司甚至军队以对公众安全的方式使用和开发人工智能。”

那么,AGI 有可能实现吗?计算机科学家表示,没有理由不这么认为。“理论上没有障碍,”乔治说。新墨西哥州圣菲研究所的计算机科学家梅兰妮·米切尔对此表示赞同。“人类和其他一些动物证明了你可以实现这一目标,”她说。“我认为,生物系统与其他材料制成的系统相比,没有什么特别之处,原则上可以阻止非生物系统变得智能。”

但即使有可能,人们对于 AGI 的到来时间也几乎没有共识:估计从几年到至少十年不等。乔治说,如果 AGI 系统被创造出来,我们一看到它就会知道。乔莱特怀疑它会悄悄地靠近我们。“当 AGI 到来时,它不会像你想象的那么引人注目或具有开创性,”他说。“AGI 需要时间才能充分发挥其潜力。它会先被发明出来。然后,你需要扩大规模并应用它,然后它才能真正开始改变世界。”

自然 636 , 22-25 (2024)

机构编号: https://doi.org/10.1038/d41586-024-03905-1

Bubeck, S.等人。arXiv预印本

https://doi.org/10.48550/arXiv.2303.12712 (2023)。

Valmeekam, K.、Stechly, K. 和 Kambhampati, S. arXiv 预印本

https://doi.org/10.48550/arXiv.2409.13373 (2024)。

Goldblum, M., Finzi, M., Rowan, K. 和 Wilson, AG 在 arXiv 上预印

https://doi.org/10.48550/arXiv.2304.05366 (2024)。

Villalobos, P.等人。arXiv预印本

https://doi.org/10.48550/arXiv.2211.04325 (2024)。

Gurnee, W. & Tegmark, M. arXiv 预印本

https://doi.org/10.48550/arXiv.2310.02207 (2024)。

Li, K.等人,第 11 届国际学习表征会议(ICLR, 2023)论文集。

谷歌学术

Vafa, K.、Chen, JY、Rambachan, A.、Kleinberg, J. 和 Mullainathan, S. 预印本,网址:https://doi.org/10.48550/arXiv.2406.03689 (2024)

冈达瓦尔,A.等人。预印本位于

arXiv https://doi.org/10.48550/arXiv.2405.20625 (2024)。

Ha, D. & Schmidhuber, J. arXiv 预印本

https://doi.org/10.48550/arXiv.1803.10122 (2018)。

阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》

未来今日研究所:2024 技术趋势报告 - 广义计算篇

科睿唯安中国科学院 2024 研究前沿热度指数报告

文本到图像合成:十年回顾

《以人为中心的大型语言模型(LLM)研究综述》

经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告

理解世界还是预测未来?世界模型的综合综述

Google Cloud CSA2024 AI 与安全状况调研报告

英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告

国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

国际可再生能源署 IRENA2024 年全球气候行动报告

Cell: 物理学和化学 、人工智能知识领域的融合

智次方 2025 中国 5G 产业全景图谱报告

未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇

Deepmind:AI 加速科学创新发现的黄金时代报告

PitchBookNVCA2024 年第三季度全球风险投资监测报告

德科 2024 年未来全球劳动力报告

高工咨询 2024 年协作机器人产业发展蓝皮书

国际能源署 IEA2024 年全球能源效率报告

基因慧基因行业蓝皮书 2024 - 2025

普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战

中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书

中移智库 2024 先进感知新技术及新应用白皮书

智次方研究院 2025 中国 AIoT 产业全景图谱报告

未来今日研究所:2024 技术趋势报告 - 人工智能篇

国际电联:迈向衡量数字经济的通用框架的路线图

联合国粮食与农业组织:2024 年世界粮食安全和营养状况

大语言模型综述

李飞飞等,AI 智能体:探索多模式交互的前景综述

哈尔滨工业大学 - ChatGPT 调研报告

2024《美国核部署战略报告》最新文件

清华大学:AIGC 发展研究 3.0 发布版 b 版

OpenAI:2024 年 OpenAI o1 大模型技术报告

Verizon2024 年世界支付安全报告

皇家学会哲学学报 从复杂系统角度评估人工智能风险

复旦大学 大模型 AI 代理的兴起和潜力:综述

经合组织 OECD2024 年气候行动监测报告

Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态

2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch

《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定

瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》

《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告

世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024

ADL 理特咨询 2024 汽车出行未来展望报告

2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道

科学时代的大语言模型中的人工智能

Gartner2025 年重要战略技术趋势报告

CBInsights2024 年第三季度全球人工智能投融资状况报告

TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻

天津大学 2024 大模型轻量化技术研究报告

欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版

美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告

国际原子能机构 2024 年世界聚变展望报告

复旦大学 2024 大语言模型的能力边界与发展思考报告

安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图

YouGov2024 美国公众对人工智能 AI 的态度调研报告

麦肯锡中国报告:《中国与世界》完整版

麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域

Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目

德国研究与创新专家委员会 德国研究创新与科技成果报告

2024 年欧洲关键产业的科技重塑研究报告

智能体专题报告之二 - 智能体时代来临具身智能有望成为最佳载体

ActivateConsulting 2025 年顶级技术和媒体发展趋势报告

兰德 全球灾难风险评估

斯坦福李飞飞 《AI agent 综述》Agent AI 开启多模态交互新纪元

中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版

普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来

大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告

TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告

Emakina 将塑造 2024 年的技术趋势报告

图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平?》——Yann LeCun, 附 Slides 及视频

华为:2024 鸿蒙生态应用开发白皮书 V3.0(最新版)

CASA:2023 第三代半导体产业发展报告

大型视觉语言模型中幻觉现象的综述

IEA PVPS:2024 光伏应用趋势报告(英文版)

ABI Research:82 个将会或不会在 2024 年发生的技术趋势白皮书

《美国反无人机系统未来趋势报告(2024 - 2029 年)》

《军事自主系统:未来之路》美空军

空间智能如何?牛津大学博士论文《深度具身智能体的空间推理与规划》

2024 低空经济场景白皮书 v1.0

战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)

Artificial Intelligence Review:人工智能与物理学相遇的综述

麦肯锡:全球难题,应对能源转型的现实问题

欧米伽理论,智能科学视野下的万物理论新探索(研究论文)

Gartner 2025 年主要战略技术趋势研究报告

2024 人工智能国外大模型使用手册 + 中文大模型使用手册

详解光刻巨人 ASML 成功之奥妙 - 241015

CB Insights:未来变革者:2025 年九大科技趋势研究报告

国际电信联盟 2023 - 2024 年联合国人工智能 AI 活动报告

《人工智能能力的人类系统集成测试和评估》最新 51 页,美国防部首席数字和人工智能办公室(CDAO)

2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

MHP 2024 全球工业 4.0 晴雨表白皮书

世界经济论坛白皮书《AI 价值洞察:引导人工智能实现人类共同目标》

瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

AI 智能体的崛起:整合人工智能、区块链技术与量子计算 (研究报告,书)

OpenAI o1 评估:AGI 的机遇和挑战(280 页)

世界知识产权组织:2024 年全球创新指数

美国白宫:国家近地天体防御策略与行动计划

上下滑动查看更多

来源:人工智能学家

相关推荐