摘要:当人工智能在图像识别、自然语言处理等特定领域不断突破时,一个更具挑战性的目标始终若即若离:让机器获得举一反三的洞察力、抽象概念的推理能力,以及如同人类一般规划和调配认知资源的能力。
文 | 追问nextquestion
"机器究竟还需要多长时间,才能真正具备人类大脑的认知能力?"这个困扰人工智能领域数十年的根本性问题,在2024年末再次成为全球科技界的焦点。
当人工智能在图像识别、自然语言处理等特定领域不断突破时,一个更具挑战性的目标始终若即若离:让机器获得举一反三的洞察力、抽象概念的推理能力,以及如同人类一般规划和调配认知资源的能力。
就在这场关于机器智能极限的持续争辩中,OpenAI最近发布的新型人工智能系统,为这个传统命题注入了新的变数。这家总部位于旧金山、因开发ChatGPT而声名鹊起的AI巨头,于9月发布了被称为O1的新一代大型语言模型(LLM)系统。而就在本月,业内又传出OpenAI正在开发代号为O3的更强大系统,这个被称为“通用人工智能(AGI)前奏”的项目引发了新一轮关注。与以往的AI模型相比,从O1到O3的技术路线都展现出了一种更接近人类认知方式的运行机制,这些突破性进展正在重新定义我们对人工智能潜力的认知。
AGI一旦实现,可能为人类带来前所未有的突破:从气候变化的治理,到流行病的防控,再到癌症、阿尔茨海默病等顽疾的攻克。然而,这样巨大的力量也可能带来不确定性,并对人类构成潜在风险。加拿大蒙特利尔大学深度学习研究员Yoshua Bengio表示:“人类对AI的误用或失控,都可能导致严重后果。”
近年来LLM的革命性进展激发了关于AGI或许即将到来的种种猜测。但一些研究人员表示,考虑到LLM的构建和训练方式,它们单靠自身不足以实现AGI,“仍然缺少一些关键部分。”
毫无疑问,关于AGI的问题如今比以往任何时候都更加紧迫和重要。“我大半生都认为,谈论AGI的人是不合常规的,”亚利桑那州立大学的计算机科学家Subbarao Kambhampati说,“但如今,每个人都在谈论它。你不能称所有人都‘不合常规’了。”
01 AGI辩论为何转向“通用人工智能”(AGI)这一术语大约在2007年首次进入主流视野,当时它作为同名书籍的标题由AI研究人员Ben Goertzel和Cassio Pennachin推出。虽然这一术语的确切含义尚不明确,但通常指代具有类似人类推理和泛化能力的AI系统。在人工智能发展的大部分历史中,人们普遍认为AGI仍然是一个尚未实现的目标。例如,谷歌DeepMind开发的AlphaGo程序专为围棋对弈而设计。它在围棋领域击败了顶尖的人类棋手,但其超人能力仅限于围棋,也就是说,这是它唯一的擅长领域。
LLM[1]的新能力正在彻底改变这一局面。与人类大脑一样,LLM拥有广泛的能力,这使得一些研究人员认真考虑某种形式的通用人工智能可能即将到来[1],甚至已经存在。当你考虑到研究人员仅部分了解LLM如何实现这一目标时,这种能力的广度更加令人震惊。LLM是一种神经网络,其灵感大致来源于人脑。它由分层排列的人工神经元(或计算单元)组成,这些层与层之间的连接强度通过可调参数表示。在训练过程中,强大的LLM——例如o1、Claude(Anthropic公司开发)以及谷歌的Gemini——依赖一种称为“下一个词元预测(next token prediction)”的方法。在该方法中,模型会重复输入已被分割的文本样本(即词元块)。这些词元可以是整个单词或只是一组字符。序列中的最后一个词元被隐藏或“屏蔽”,并要求模型对其进行预测。然后,训练算法将预测与屏蔽词元进行比较,并调整模型的参数,使其下次能够做出更好的预测。
这一过程不断重复——通常使用数十亿对话片段、科学文本和编程代码——直到模型能够可靠地预测隐藏的词元。在此阶段,模型参数已捕捉到训练数据的统计结构及其中包含的知识。随后参数被固定,模型使用它们对新的查询或“提示”生成预测,这些提示不一定在其训练数据中出现过,这一过程被称为“推理”。
一种称为“Transformer”的神经网络架构的使用,使LLM的能力显著超越了之前的成就。Transformer使得模型能够学习到某些词元对其他词元有特别强的影响力,即使它们在文本样本中相距甚远。这使得LLM能够以看似模仿人类的方式解析语言——例如,区分以下句子中“bank”一词的两种含义:“当河岸(bank)泛滥时,洪水损坏了银行(bank)的ATM,导致无法取款。”
这种方法在多种应用场景中取得了显著成果,例如生成计算机程序来解决用自然语言描述的问题、总结学术文章和回答数学问题。
随着LLM规模的增大,一些新的能力也随之出现——如果LLM足够大,AGI也可能出现。其中一个例子是“思维链(CoT)提示”。这种方法包括向LLM示范如何将复杂问题分解为更小的步骤加以解决,或直接提示其按步骤解答问题。然而,对于较小规模的LLM,这一过程并不具备显著的效果。
02 LLM的能力边界根据OpenAI的介绍,“CoT提示”已被整合到o1的运行机制中,成为其强大功能的核心组成部分。谷歌前AI研究员Francois Chollet指出,o1配备了一个CoT生成器,该生成器能够针对用户查询生成大量CoT提示,并通过特定机制筛选出最佳提示。
在训练中,o1不仅学习如何预测下一个词元,还掌握了针对特定查询选择最佳CoT提示的能力。OpenAI表示,正是得益于CoT推理的引入,o1-preview(o1的高级版本)在国际数学奥林匹克竞赛(一项面向高中生的全球知名数学赛事)的预选考试中正确解决了83%的问题。相比之下,OpenAI此前最强大的模型GPT-4o在同一考试中的正确率仅为13%。
然而,尽管o1的复杂性令人瞩目,Kambhampati和Chollet均认为,它仍存在明显的局限性,并未达到AGI的标准。
例如,在需要多步规划的任务中,Kambhampati的团队发现,虽然o1在最多16步的规划任务中表现优异,但当任务复杂度增加至20至40步时,其性能迅速下降[2]。Chollet在挑战o1-preview时也发现了类似的局限性。他设计了一项抽象推理与泛化测试,以评估通往AGI的发展进程。测试采用视觉谜题的形式,解决这些问题需要查看示例来推断出抽象规则,并以此来解决类似新问题。结果显示,人类显然更容易做到。Chollet进一步指出:“LLM无法真正适应新事物,因为他们基本上没有能力将自己掌握的知识,动态地进行复杂的重组,以适应新的环境。”
03 LLM能否迈向AGI?那么,LLM是否有能力最终迈向AGI呢?
值得注意的是,底层的Transformer架构不仅能够处理文本,还适用于其他类型的信息(如图像和音频),前提是可以为这些数据设计合适的词元化方法。纽约大学研究机器学习的Andrew Wilson及其团队指出,这可能与不同类型数据共享的一个特性有关:这些数据集的“Kolmogorov复杂度”较低,即生成这些数据所需的最短计算机程序的长度较短[3]。研究还发现,Transformer在学习低Kolmogorov复杂度的数据模式方面表现尤为出色,而这种能力会随着模型规模的增大而不断增强。Transformer具备对多种可能性进行建模的能力,这提升了训练算法发现问题的适当解决方案的概率,而这种“表现力”会随着模型规模的增长进一步增强。Wilson表示,这些是“通用学习所需的一些关键要素”。
尽管Wilson认为AGI目前仍遥不可及,但他表示,使用Transformer架构的LLM和其他AI系统已具备一些类似AGI行为的关键特性。
然而,基于Transformer的LLM也显现出一些固有的局限性。
首先,训练模型所需的数据资源正在逐渐枯竭。专注于AI趋势研究的旧金山EpochAI研究所估计[4],公开可用的训练文本数据集可能会在2026年至2032年之间耗尽。此外,尽管LLM的规模不断增大,其性能提升的幅度却不及以往。尚不明确这是否与数据中新颖性减少有关(因为大部分数据已被使用过),或是源于其他未知原因。后者对LLM来说是个坏兆头。
Google DeepMind的伦敦研究副总裁RaiaHadsell提出了另一项质疑。她指出,尽管基于Transformer的LLM具备强大功能,其单一的目标——预测下一个词元——过于局限,难以实现真正的AGI。她建议,构建能够一次性或以整体方式生成解决方案的模型,可能更接近实现AGI的可能。用于构建此类模型的算法已在一些现有的非LLM系统中得以应用,例如OpenAI的DALL-E,该系统能够根据自然语言描述生成逼真甚至超现实的图像。然而,这些系统无法与LLM的广泛功能相媲美。
04 构建AI的世界模型关于如何推动AGI发展的突破性技术,神经科学家的提供了直觉性的重要启示。他们认为,人类智能的根源在于大脑能够构建一个“世界模型”,即对周围环境的内部表征。这种模型能够模拟不同的行动方案并预测其后果,从而支持规划与推理。此外,通过模拟多种场景,这种模型可以将特定领域中学到的技能泛化到全新任务中。
一些研究报告声称,已有证据表明LLM内部可能形成了初步的世界模型。在一项研究中[5],麻省理工学院的Wes Gurnee和Max Tegmark发现,当LLM使用包含世界多地信息的数据集进行训练时,随着广泛应用,LLM能够在内部对周围世界形成相应的表征。然而,其他研究人员指出,目前尚无证据表明这些LLM利用世界作为模型进行模拟或因果关系学习。在另一项研究中[6],哈佛大学计算机科学家KennethLi及其同事发现,一个小型LLM在使用玩家在下Othello棋时的步法作为训练数据后,学会了内部表征棋盘状态的能力,并利用这种表征正确预测了下一步的合法棋步。然而,其他研究表明,当今AI系统构建的世界模型可能并不可靠。在一项研究中[7],哈佛大学的计算机科学家Keyon Vafa及其团队使用纽约市出租车行程的转弯数据集训练了一个基于Transformer的模型,该模型以接近100%的准确率完成了任务。通过分析模型生成的转弯序列,研究人员发现模型依赖一个内部地图来完成预测。然而,这个内部地图与曼哈顿的实际地图几乎毫无相似之处。▷AI的不可能的街道. 图源:[7]
Vafa指出,“该地图包含物理上不可能的街道方向,以及跨越其他街道的高架道路。”当研究人员调整测试数据,加入训练数据中未出现的意外绕道时,模型无法预测下一次转弯,表明其对新情境的适应能力较弱。
05 反馈的重要性GoogleDeepMind位于加利福尼亚山景城的AGI研究团队成员DileepGeorge指出,当今的LLM缺乏一个关键特性:内部反馈。人类大脑具有广泛的反馈连接,使信息能够在神经元层之间实现双向流动。这种机制使感官系统的信息可以流向大脑的高级层,以创建反映环境的世界模型。同时,世界模型的信息也可以向下传播,引导进一步感官信息的获取。这种双向过程对感知至关重要,例如,大脑利用世界模型推断感官输入的潜在原因。此外,这些过程还支持规划,利用世界模型模拟不同的行动方案。
然而,目前的LLM仅能以附加方式使用反馈。例如,在o1中,内部的CoT提示机制,通过生成提示协助回答查询,并在最终生成答案前反馈给LLM。但正如Chollet的测试所显示,这种机制并不能确保抽象推理能力的可靠性。
Kambhampati等研究人员尝试为LLM添加一种称为验证器的外部模块。这些模块在特定上下文中检查LLM生成的答案,例如验证旅行计划的可行性。如果答案不够完善,验证器会要求LLM重新运行查询[8]。Kambhampati的团队发现,借助外部验证器的LLM,在生成旅行计划时表现显著优于普通LLM,但是研究人员需要为每个任务设计专门的验证器。“没有通用验证器,”Kambhampati指出。相比之下,AGI系统可能需要自主构建验证器,以适应不同情境,就像人类利用抽象规则确保在新任务中进行正确推理一样。基于这些想法开发新型AI系统的研究仍在初步阶段。例如,Bengio正在探索如何构建不同于当前基于Transformer架构的AI系统。他提出了一种被称为“生成流网络(generative flow networks)”的方法,旨在使单一AI系统既能构建世界模型,又能利用这些模型完成推理与规划。
LLM面临的另一个重大障碍是其对数据的巨大需求。伦敦大学学院理论神经科学家Karl Friston提出,未来的AI系统可通过自主决定从环境中采样数据的数量来提高效率,而非简单地摄取所有可用数据。他认为,这种自主性可能是AGI所必需的。“在当前的大型语言模型或生成式AI中,尚无法体现这种真正的自主性。如果某种AI能够实现一定程度的自主选择,我认为这将是迈向AGI的关键一步。”
能够构建有效世界模型并集成反馈回路的AI系统,可能会显著减少对外部数据的依赖。这些系统能够通过运行内部模拟,提出反事实假设,并借此实现理解、推理与规划。例如,2018年,研究人员DavidHa和Jürgen Schmidhuber报告[9],他们开发了一种神经网络,该网络可高效构建人工环境的世界模型,并利用此模型训练AI驾驶虚拟赛车。如果你对这种自主性AI系统的概念感到不安,你并不是一个人。除了研究如何构建AGI,Bengio还积极倡导在AI系统的设计和监管中引入安全性。他认为,研究应关注训练能够保证自身行为安全的模型,例如建立机制来计算模型违反某些特定安全约束的概率,并在概率过高时拒绝采取行动。此外,政府需要确保AI的安全使用。“我们需要一个民主过程来确保个人、公司甚至军方,以对公众安全的方式使用和开发AI。”
那么,实现AGI是否可能?计算机科学家认为没有理由不这样认为。“没有理论上的障碍,”George说。圣达菲研究所(Santa FeInstitute)的计算机科学家Melanie Mitchell表示同意:“人类和一些其他动物已经证明这一点是可行的。在原理上,我认为生物系统与由其他材料制成的系统之间不存在任何特别的差异,能够阻止非生物系统变得智能。”
尽管如此,对于AGI的实现时间,学术界仍然缺乏共识:预测范围从几年之内到至少十年以后。George指出,如果AGI系统被创造出来,我们将通过其行为表现来确认其存在。而Chollet则怀疑它的到来会非常低调:“当AGI到来时,它可能不会像你想象的那样显而易见或掀动风浪。AGI的全面潜力需要时间逐步显现。它将首先被发明,然后经过扩展和应用,最终才会真正改变世界。”
原文链接:https://www.nature.com/articles/d41586-024-03905-1参考文献:
1.Bubeck, S. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2303.12712 (2023).2.Valmeekam, K., Stechly, K. & Kambhampati, S. Preprint at arXiv https://doi.org/10.48550/arXiv.2409.13373 (2024).3.Goldblum, M., Finzi, M., Rowan, K. & Wilson, A. G. Preprint at arXiv https://doi.org/10.48550/arXiv.2304.05366 (2024).4.Villalobos, P. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2211.04325 (2024).5.Gurnee, W. & Tegmark, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.02207 (2024).6.Li, K. et al. In Proc. Eleventh International Conference on Learning Representations (ICLR, 2023).7.Vafa, K., Chen, J. Y., Rambachan, A., Kleinberg, J. & Mullainathan, S. Preprint at https://doi.org/10.48550/arXiv.2406.03689 (2024)8.Gundawar, A. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.20625 (2024).9.Ha, D. & Schmidhuber, J. Preprint at arXiv https://doi.org/10.48550/arXiv.1803.10122 (2018).来源:钛媒体