OpenAI 超级智能路径遭质疑,Meta 研究员称基于 LLM 强化学习行不通

360影视 日韩动漫 2025-06-21 14:34 3

摘要:“构建超级智能不过是个工程问题。”2023 年,OpenAI 首席执行官山姆・奥特曼(Sam Altman)曾这样表示。这似乎暗示着 OpenAI 的研究人员已然知晓构建超级智能的可行路径,只待投入时间与精力搭建所需系统。

“构建超级智能不过是个工程问题。”2023 年,OpenAI 首席执行官山姆・奥特曼(Sam Altman)曾这样表示。这似乎暗示着 OpenAI 的研究人员已然知晓构建超级智能的可行路径,只待投入时间与精力搭建所需系统。

然而,Meta AI 研究员杰克・莫里斯(Jack Morris)却持有不同观点。在他看来,奥特曼所提及的超级智能 “工程问题”,即 “构建大量适用于不同任务的强化学习(RL)环境,并训练大语言模型(LLM)同时处理所有这些任务”,这条由 OpenAI 等公司大力推进的基于 LLM 的 RL 路径,并不能构建出超级智能。

“我的预测是:LLM 会在训练分布内的任务上表现得越来越好。随着收集的任务类型增多并用于训练,会产生在广泛任务上更有用的 LLM,但它不会成为单一的超级智能模型。” 莫里斯在一篇名为《Superintelligence, from First Principles》的博客中如此写道。在这篇博客里,他深入探讨了构建超级智能的三种可能方式,分别为完全基于监督学习(SL)、基于人类验证者的强化学习、基于自动验证器的强化学习。

值得注意的是,莫里斯还指出,将非文本数据整合到模型中,并不会提升模型的整体性能。“人类撰写的文本带有某种内在价值,而我们周围世界纯粹的感官输入永远无法具备这种价值。”

许多人都在探讨如何借助当前技术实现通用人工智能(AGI)或超级人工智能(ASI)。近期,Meta 宣布正在秘密建立 “超级智能” 实验室,并投入数十亿美元资金。OpenAI、Anthropic 和谷歌 DeepMind 等,也都以各自方式表达了构建超级智能机器的目标。

山姆・奥特曼曾特别指出,超级智能仅是一个工程问题。这一言论暗示着 OpenAI 团队对构建超级智能的方法成竹在胸。但身为 AI 研究员的莫里斯,却并不确定构建超级智能的方法,甚至对其是否可行存疑。于是,在上述博客文章中,他深入探究相关细节,推测是否能从第一性原理出发构建超级智能。

假设实现超级智能技术的基本构建模块已确定,采用神经网络作为基础架构,通过反向传播算法和某种机器学习方法进行训练。莫里斯认为,架构(神经网络的结构)并非关键因素,因此文中略过架构细节,并大胆假设超级智能将基于 Transformers 构建,这也是当前在大型数据集上训练这类系统最流行的架构。

如此一来,已知超级智能会是一个 Transformers 神经网络,通过某种机器学习目标函数和基于梯度的反向传播进行训练。但仍存在两个主要开放性问题:使用何种学习算法,以及使用什么数据?

ChatGPT 诞生背后的许多重大突破,很大程度上源于对互联网上庞大人类知识宝库的学习。当前最好的系统大多依赖从互联网文本数据中学习。截至 2025 年 6 月,莫里斯认为,将非文本数据(如图像、视频、音频以及机器人技术的超感官数据)整合到模型中,并未提升模型的整体性能,人们尚不清楚如何利用这些模态提升 ChatGPT 的智能水平。

这或许是科学或工程层面的挑战,也可能是方法不正确,但也有可能是文本本身具有特殊性。毕竟,在 LLM 出现之前,互联网上的每一段文本都是人类思维过程的反映,经过预处理,信息含量极高。相比之下,图像只是周围世界未经人类干预的原始视角。有可能人类撰写的文本所携带的内在价值,是纯粹的感官输入无法比拟的。

所以,在有相反证据出现前,可以假设只有文本数据至关重要。下一个问题随之而来:有多少文本数据可用?

许多人讨论过,若文本数据耗尽该如何应对,这种情况被称为 “数据墙” 或 “token 危机”。人们也探讨了应对方法及模型扩展方式。而当下,这一情况似乎正在发生。许多大型人工智能实验室的工程师花费大量时间,从网络各处收集有用文本片段,转录数百万小时的 YouTube 视频,购买大量新闻故事用于训练。

通向超级智能的最佳路径在于文本数据,从这个重要原则来看,AGI 很可能是 LLM,否则或许根本不存在。其他领域,如从视频和机器人技术中学习,虽有前景,但远未达到在 2030 年前产生独立智能系统的水平,且同样需要大量数据,相比之下,从文本中学习效率更高。

接下来要面对的关键问题是:超级智能的学习算法是什么?在机器学习领域,从大型数据集中学习的基本方法主要有两种:SL,即训练模型以增加某些示例数据的概率;RL,则是从模型中生成数据,并因其采取 “良好” 行动(由用户定义标准)给予奖励。因此,任何潜在的超级智能系统必然通过 SL 或 RL(或两者结合)进行训练。下面我们分别探讨这两种方案。

图|杨立昆(Yann LeCun)曾表示他知道通向智能的秘诀。事实上,智能就像一块蛋糕,而RL只是上面的一小颗樱桃。

2023 年,人们开始对缩放法则(Scaling Laws)感到兴奋,GPT-4 发布后,有人担心模型持续规模化可能带来危险。当时,很多人认为大量的 SL,尤其是以 “next-token prediction” 形式,可能催生超级智能 AI。Ilya Sutskever 曾演讲指出,next-token prediction 本质上是学习压缩 “(信息)宇宙”,因为做好这一点需要模拟所有可能的程序。

他的论点大致如下:准确的 next-token prediction 需要对任何人在任何情境下会写的内容进行建模;对一个人的建模越准确,就越接近这个人的智能;互联网包含众多人撰写的文本,在大型文本预训练数据集上训练,就需要准确建模许多人的智能;而准确建模许多人的智能就是超级智能。

但莫里斯认为这种逻辑存在缺陷。如今已创建出在 next-token prediction 方面远超人类水平的系统,可这些系统仍未展现出人类级别的通用智能。在一定程度上,构建的系统学会了要求它们学习的内容(next-token prediction),却无法完成期望它们完成的任务(如准确回答问题、完美遵循指令等)。

这或许是机器学习的失败。一直以来训练模型预测人类平均结果,这种学习目标使模型避免给可能结果赋予过低概率,导致 “模式崩溃”,即模型擅长预测平均结果,却未能学习分布的尾部。当然,这些问题可能随规模扩展而消失。像 Llama 这样拥有数十亿参数的模型会产生幻觉,其参数为 10^9 个,若训练拥有 10^19 个参数的模型,或许足以让单个 LLM 为全球 80 亿人类分别建模,并提供独立的数据驱动预测。

然而,现实情况是,可能永远无法扩展到 10^19 个参数的规模。这一假设源于 2022 年左右受语言模型 Scaling Laws 成功驱动的深度学习学派,他们认为持续扩展模型和数据规模就能实现完美智能。但到了 2025 年,这一理论虽未被挑战,Scaling Laws 也依旧有效,可当规模超过一定阈值,扩展模型变得极为困难(早在 2022 年,就已接近有效处理极限)。企业已超出单台机器的处理能力,最新模型都是在由数百台机器组成的巨型网络上训练。

继续将模型规模扩展到万亿级参数,引发了硬件短缺和电力短缺问题。更大的模型耗电量巨大,无法集中部署在单一地点。企业甚至研究将模型训练分布到多个遥远的数据中心,或是收购、修复废弃核电站来训练下一代更大规模的 AI 模型。

除模型规模外,数据不足问题也凸显出来。虽无人确切知晓每个模型训练时使用了多少互联网数据,但数量必定庞大。过去几年,大型人工智能实验室投入大量工程力量,挖掘互联网文本数据的价值。例如,OpenAI 似乎转录了整个 YouTube,Reddit 等高质量信息网站也被反复抓取。

将模型规模扩展到超过 1000 亿参数困难重重,将数据规模扩大到 20T tokens 以上同样不易。这些因素表明,未来三到四年内,SL 的规模很难再有 10 倍以上的扩展,对超级智能的探索或许需要另寻他途。

若认同上述观点,即预训练规模在长时间内难以大幅提升,或者即便提升,在预测人类 token 方面表现出色,也无法构建比人类更聪明的系统,那么还有另一种方法。RL 领域提供了通过反馈而非仅依赖演示进行学习的方法。

RL 训练难度较大,实际应用中存在诸多缺点。相比之下,SL 比 RL 更稳定、高效。一个重要原因是,RL 通过让模型生成动作并评分,随机初始化的模型表现糟糕,所有动作几无用处,需偶然做好某些事才能获得奖励,即冷启动问题,这只是 RL 众多问题之一。而基于人类数据的 SL 有效解决了冷启动问题。

梳理 RL 范式:模型尝试各种操作,然后告知模型操作表现好坏,可通过人类评估者或自动化系统来实现。

在这种范式下,为模型提供基于人类的奖励,希望模型因生成更接近超级智能(由人类评判)的文本而获得奖励。但实际上,收集这类数据成本极高。在典型的 RLHF(基于人类反馈的强化学习)设置中,需训练奖励模型模拟人类反馈信号,奖励模型是计算辅助工具,在此先忽略其作为工程细节。

假设拥有无限数量的人类为 LLM 标注数据并提供奖励,高奖励意味着模型输出更接近超级智能。但即便忽略程序复杂性,假设这种方法能大规模应用,它真的有效吗?仅通过人类奖励信号学习的机器,能否沿着智能阶梯不断进步并超越人类?

换个角度,人类虽非超级智能,但看到超级智能时能否识别,能否以可靠方式为 LLM 提供有用梯度信号,使其通过收集大量此类反馈提升至超级智能?有人认为 “生成比验证更难”,如同能辨别好电影,却未必能制作好电影,这种情况在机器学习中常见,区分猫和狗的照片比生成猫的图像容易得多。

同理,若人类能够验证超级智能,或许就能通过 RLHF 训练超级智能模型。比如让 LLM 撰写大量小说,根据人类对 “好小说” 的定义给予奖励,重复此过程,直至得到能撰写小说的超级智能机器。但这种逻辑存在问题。

假设 2B:来自自动验证器的 RL

近期,人们对用类似方法训练更好的语言模型充满热情。当计算机评估 RL 算法的阶段性性能时,可使用模型或自动验证器。以国际象棋或编程场景为例,能编写规则检查计算机是否赢得国际象棋比赛并给予奖励,在编程中可运行单元测试,对编写符合规格代码的计算机给予奖励。

使用自动验证器更实用,可完全去除人类参与(尽管互联网内容由人类编写)。用自动验证器实现超级智能的方案大致为:使用 SL 在大量互联网文本上预训练 LLM;将其接入能为优质 LLM 输出提供奖励的验证系统;长时间运行;实现超级智能。

DeepMind 的 AlphaGo 通过 RL 与 SL 结合,实现了 “围棋霸主地位”,击败所有人类选手。最初的 AlphaGo 通过 SL 训练,后续版本通过 RL,即自我对战数百万局进行学习。围棋具有可验证性,能将对局输入基于规则的计算机程序,获得是否获胜的信号,从长远看,可根据某一步棋对胜利概率的影响判断其好坏,这正是 RL 的工作原理。借助这种可验证性,AlphaGo 实现了 AI 实验室长期追求的目标:思考时间越长,表现越好,而语言模型默认无法做到这点。

2023 年秋季,OpenAI 宣布突破性成果,利用可验证奖励强化学习(RLVR)训练 o1 模型,该模型与 AlphaGo 一样,能通过更长时间思考产生更优输出。从相关图表可看到,o1 在 AIME 数据集(一组极为困难、答案为整数的数学题)上,随着思考时间增加表现更好。这并非开放式任务,而是可验证任务,能检查 LLM 答案是否正确并据此奖励模型。当前 LLM 预训练后能较好处理任意任务,可对 AIME 问题做出合理猜测,利用 RL 训练能使其猜测越来越好(更酷的是,过程中会生成更多 “思考 token”,提供测试时的计算图)。

显然,OpenAI、谷歌等 AI 实验室对基于 LLM 的 RL 极为兴奋,认为可能借此实现超级智能。莫里斯认为,这种范式或许就是奥特曼此前推文中所指内容,超级智能的 “工程问题” 在于构建大量适用于不同任务的 RL 环境,并训练 LLM 同时处理所有任务。

可这种设想是否靠谱?已知可验证任务包括编程(运行代码验证正确性)和数学(有数值解的问题),若收集世界上所有可验证事物并同时训练(或分别训练后合并模型),真能产生通用超级智能吗?

这里存在逻辑跳跃。最重要的是,不清楚 RL 在可验证任务上的迁移能力能否有效扩展到其他领域。训练模型解决数学问题,能否自然教会它预订机票?在可验证环境中训练模型提升编程能力,能否使其成为更优秀的软件工程师?

假设 RL 能完美迁移到各种任务,将产生巨大影响,人工智能公司会展开军备竞赛,争夺训练 LLM 的最丰富、实用且设计精良的任务集,可能多家公司会推出 “超级智能 LLM”。但在莫里斯看来,这种结果不太可能。他猜测若 RL 迁移性真的很好,现在应该已经知晓。所以他预测,LLM 会在训练分布内的任务上表现更好,随着训练任务类型增多,会产生在广泛任务上更有用的 LLM,但不会成为单一的超级智能模型。

来源:人工智能学家

相关推荐