OpenAI 超级智能路径遭质疑，Meta 研究员称基于 LLM 强化学习行不通

摘要：“构建超级智能不过是个工程问题。”2023 年，OpenAI 首席执行官山姆・奥特曼（Sam Altman）曾这样表示。这似乎暗示着 OpenAI 的研究人员已然知晓构建超级智能的可行路径，只待投入时间与精力搭建所需系统。

“构建超级智能不过是个工程问题。”2023 年，OpenAI 首席执行官山姆・奥特曼（Sam Altman）曾这样表示。这似乎暗示着 OpenAI 的研究人员已然知晓构建超级智能的可行路径，只待投入时间与精力搭建所需系统。

然而，Meta AI 研究员杰克・莫里斯（Jack Morris）却持有不同观点。在他看来，奥特曼所提及的超级智能 “工程问题”，即 “构建大量适用于不同任务的强化学习（RL）环境，并训练大语言模型（LLM）同时处理所有这些任务”，这条由 OpenAI 等公司大力推进的基于 LLM 的 RL 路径，并不能构建出超级智能。

“我的预测是：LLM 会在训练分布内的任务上表现得越来越好。随着收集的任务类型增多并用于训练，会产生在广泛任务上更有用的 LLM，但它不会成为单一的超级智能模型。” 莫里斯在一篇名为《Superintelligence, from First Principles》的博客中如此写道。在这篇博客里，他深入探讨了构建超级智能的三种可能方式，分别为完全基于监督学习（SL）、基于人类验证者的强化学习、基于自动验证器的强化学习。

值得注意的是，莫里斯还指出，将非文本数据整合到模型中，并不会提升模型的整体性能。“人类撰写的文本带有某种内在价值，而我们周围世界纯粹的感官输入永远无法具备这种价值。”

许多人都在探讨如何借助当前技术实现通用人工智能（AGI）或超级人工智能（ASI）。近期，Meta 宣布正在秘密建立 “超级智能” 实验室，并投入数十亿美元资金。OpenAI、Anthropic 和谷歌 DeepMind 等，也都以各自方式表达了构建超级智能机器的目标。

山姆・奥特曼曾特别指出，超级智能仅是一个工程问题。这一言论暗示着 OpenAI 团队对构建超级智能的方法成竹在胸。但身为 AI 研究员的莫里斯，却并不确定构建超级智能的方法，甚至对其是否可行存疑。于是，在上述博客文章中，他深入探究相关细节，推测是否能从第一性原理出发构建超级智能。

假设实现超级智能技术的基本构建模块已确定，采用神经网络作为基础架构，通过反向传播算法和某种机器学习方法进行训练。莫里斯认为，架构（神经网络的结构）并非关键因素，因此文中略过架构细节，并大胆假设超级智能将基于 Transformers 构建，这也是当前在大型数据集上训练这类系统最流行的架构。

如此一来，已知超级智能会是一个 Transformers 神经网络，通过某种机器学习目标函数和基于梯度的反向传播进行训练。但仍存在两个主要开放性问题：使用何种学习算法，以及使用什么数据？

ChatGPT 诞生背后的许多重大突破，很大程度上源于对互联网上庞大人类知识宝库的学习。当前最好的系统大多依赖从互联网文本数据中学习。截至 2025 年 6 月，莫里斯认为，将非文本数据（如图像、视频、音频以及机器人技术的超感官数据）整合到模型中，并未提升模型的整体性能，人们尚不清楚如何利用这些模态提升 ChatGPT 的智能水平。

这或许是科学或工程层面的挑战，也可能是方法不正确，但也有可能是文本本身具有特殊性。毕竟，在 LLM 出现之前，互联网上的每一段文本都是人类思维过程的反映，经过预处理，信息含量极高。相比之下，图像只是周围世界未经人类干预的原始视角。有可能人类撰写的文本所携带的内在价值，是纯粹的感官输入无法比拟的。

所以，在有相反证据出现前，可以假设只有文本数据至关重要。下一个问题随之而来：有多少文本数据可用？

许多人讨论过，若文本数据耗尽该如何应对，这种情况被称为 “数据墙” 或 “token 危机”。人们也探讨了应对方法及模型扩展方式。而当下，这一情况似乎正在发生。许多大型人工智能实验室的工程师花费大量时间，从网络各处收集有用文本片段，转录数百万小时的 YouTube 视频，购买大量新闻故事用于训练。

通向超级智能的最佳路径在于文本数据，从这个重要原则来看，AGI 很可能是 LLM，否则或许根本不存在。其他领域，如从视频和机器人技术中学习，虽有前景，但远未达到在 2030 年前产生独立智能系统的水平，且同样需要大量数据，相比之下，从文本中学习效率更高。

接下来要面对的关键问题是：超级智能的学习算法是什么？在机器学习领域，从大型数据集中学习的基本方法主要有两种：SL，即训练模型以增加某些示例数据的概率；RL，则是从模型中生成数据，并因其采取 “良好” 行动（由用户定义标准）给予奖励。因此，任何潜在的超级智能系统必然通过 SL 或 RL（或两者结合）进行训练。下面我们分别探讨这两种方案。

图｜杨立昆（Yann LeCun）曾表示他知道通向智能的秘诀。事实上，智能就像一块蛋糕，而RL只是上面的一小颗樱桃。

2023 年，人们开始对缩放法则（Scaling Laws）感到兴奋，GPT-4 发布后，有人担心模型持续规模化可能带来危险。当时，很多人认为大量的 SL，尤其是以 “next-token prediction” 形式，可能催生超级智能 AI。Ilya Sutskever 曾演讲指出，next-token prediction 本质上是学习压缩 “（信息）宇宙”，因为做好这一点需要模拟所有可能的程序。

他的论点大致如下：准确的 next-token prediction 需要对任何人在任何情境下会写的内容进行建模；对一个人的建模越准确，就越接近这个人的智能；互联网包含众多人撰写的文本，在大型文本预训练数据集上训练，就需要准确建模许多人的智能；而准确建模许多人的智能就是超级智能。

但莫里斯认为这种逻辑存在缺陷。如今已创建出在 next-token prediction 方面远超人类水平的系统，可这些系统仍未展现出人类级别的通用智能。在一定程度上，构建的系统学会了要求它们学习的内容（next-token prediction），却无法完成期望它们完成的任务（如准确回答问题、完美遵循指令等）。

这或许是机器学习的失败。一直以来训练模型预测人类平均结果，这种学习目标使模型避免给可能结果赋予过低概率，导致 “模式崩溃”，即模型擅长预测平均结果，却未能学习分布的尾部。当然，这些问题可能随规模扩展而消失。像 Llama 这样拥有数十亿参数的模型会产生幻觉，其参数为 10^9 个，若训练拥有 10^19 个参数的模型，或许足以让单个 LLM 为全球 80 亿人类分别建模，并提供独立的数据驱动预测。

然而，现实情况是，可能永远无法扩展到 10^19 个参数的规模。这一假设源于 2022 年左右受语言模型 Scaling Laws 成功驱动的深度学习学派，他们认为持续扩展模型和数据规模就能实现完美智能。但到了 2025 年，这一理论虽未被挑战，Scaling Laws 也依旧有效，可当规模超过一定阈值，扩展模型变得极为困难（早在 2022 年，就已接近有效处理极限）。企业已超出单台机器的处理能力，最新模型都是在由数百台机器组成的巨型网络上训练。

继续将模型规模扩展到万亿级参数，引发了硬件短缺和电力短缺问题。更大的模型耗电量巨大，无法集中部署在单一地点。企业甚至研究将模型训练分布到多个遥远的数据中心，或是收购、修复废弃核电站来训练下一代更大规模的 AI 模型。

除模型规模外，数据不足问题也凸显出来。虽无人确切知晓每个模型训练时使用了多少互联网数据，但数量必定庞大。过去几年，大型人工智能实验室投入大量工程力量，挖掘互联网文本数据的价值。例如，OpenAI 似乎转录了整个 YouTube，Reddit 等高质量信息网站也被反复抓取。

将模型规模扩展到超过 1000 亿参数困难重重，将数据规模扩大到 20T tokens 以上同样不易。这些因素表明，未来三到四年内，SL 的规模很难再有 10 倍以上的扩展，对超级智能的探索或许需要另寻他途。

若认同上述观点，即预训练规模在长时间内难以大幅提升，或者即便提升，在预测人类 token 方面表现出色，也无法构建比人类更聪明的系统，那么还有另一种方法。RL 领域提供了通过反馈而非仅依赖演示进行学习的方法。

RL 训练难度较大，实际应用中存在诸多缺点。相比之下，SL 比 RL 更稳定、高效。一个重要原因是，RL 通过让模型生成动作并评分，随机初始化的模型表现糟糕，所有动作几无用处，需偶然做好某些事才能获得奖励，即冷启动问题，这只是 RL 众多问题之一。而基于人类数据的 SL 有效解决了冷启动问题。

梳理 RL 范式：模型尝试各种操作，然后告知模型操作表现好坏，可通过人类评估者或自动化系统来实现。

在这种范式下，为模型提供基于人类的奖励，希望模型因生成更接近超级智能（由人类评判）的文本而获得奖励。但实际上，收集这类数据成本极高。在典型的 RLHF（基于人类反馈的强化学习）设置中，需训练奖励模型模拟人类反馈信号，奖励模型是计算辅助工具，在此先忽略其作为工程细节。

假设拥有无限数量的人类为 LLM 标注数据并提供奖励，高奖励意味着模型输出更接近超级智能。但即便忽略程序复杂性，假设这种方法能大规模应用，它真的有效吗？仅通过人类奖励信号学习的机器，能否沿着智能阶梯不断进步并超越人类？

换个角度，人类虽非超级智能，但看到超级智能时能否识别，能否以可靠方式为 LLM 提供有用梯度信号，使其通过收集大量此类反馈提升至超级智能？有人认为 “生成比验证更难”，如同能辨别好电影，却未必能制作好电影，这种情况在机器学习中常见，区分猫和狗的照片比生成猫的图像容易得多。

同理，若人类能够验证超级智能，或许就能通过 RLHF 训练超级智能模型。比如让 LLM 撰写大量小说，根据人类对 “好小说” 的定义给予奖励，重复此过程，直至得到能撰写小说的超级智能机器。但这种逻辑存在问题。

假设 2B：来自自动验证器的 RL

近期，人们对用类似方法训练更好的语言模型充满热情。当计算机评估 RL 算法的阶段性性能时，可使用模型或自动验证器。以国际象棋或编程场景为例，能编写规则检查计算机是否赢得国际象棋比赛并给予奖励，在编程中可运行单元测试，对编写符合规格代码的计算机给予奖励。

使用自动验证器更实用，可完全去除人类参与（尽管互联网内容由人类编写）。用自动验证器实现超级智能的方案大致为：使用 SL 在大量互联网文本上预训练 LLM；将其接入能为优质 LLM 输出提供奖励的验证系统；长时间运行；实现超级智能。

DeepMind 的 AlphaGo 通过 RL 与 SL 结合，实现了 “围棋霸主地位”，击败所有人类选手。最初的 AlphaGo 通过 SL 训练，后续版本通过 RL，即自我对战数百万局进行学习。围棋具有可验证性，能将对局输入基于规则的计算机程序，获得是否获胜的信号，从长远看，可根据某一步棋对胜利概率的影响判断其好坏，这正是 RL 的工作原理。借助这种可验证性，AlphaGo 实现了 AI 实验室长期追求的目标：思考时间越长，表现越好，而语言模型默认无法做到这点。

2023 年秋季，OpenAI 宣布突破性成果，利用可验证奖励强化学习（RLVR）训练 o1 模型，该模型与 AlphaGo 一样，能通过更长时间思考产生更优输出。从相关图表可看到，o1 在 AIME 数据集（一组极为困难、答案为整数的数学题）上，随着思考时间增加表现更好。这并非开放式任务，而是可验证任务，能检查 LLM 答案是否正确并据此奖励模型。当前 LLM 预训练后能较好处理任意任务，可对 AIME 问题做出合理猜测，利用 RL 训练能使其猜测越来越好（更酷的是，过程中会生成更多 “思考 token”，提供测试时的计算图）。

显然，OpenAI、谷歌等 AI 实验室对基于 LLM 的 RL 极为兴奋，认为可能借此实现超级智能。莫里斯认为，这种范式或许就是奥特曼此前推文中所指内容，超级智能的 “工程问题” 在于构建大量适用于不同任务的 RL 环境，并训练 LLM 同时处理所有任务。

可这种设想是否靠谱？已知可验证任务包括编程（运行代码验证正确性）和数学（有数值解的问题），若收集世界上所有可验证事物并同时训练（或分别训练后合并模型），真能产生通用超级智能吗？

这里存在逻辑跳跃。最重要的是，不清楚 RL 在可验证任务上的迁移能力能否有效扩展到其他领域。训练模型解决数学问题，能否自然教会它预订机票？在可验证环境中训练模型提升编程能力，能否使其成为更优秀的软件工程师？

假设 RL 能完美迁移到各种任务，将产生巨大影响，人工智能公司会展开军备竞赛，争夺训练 LLM 的最丰富、实用且设计精良的任务集，可能多家公司会推出 “超级智能 LLM”。但在莫里斯看来，这种结果不太可能。他猜测若 RL 迁移性真的很好，现在应该已经知晓。所以他预测，LLM 会在训练分布内的任务上表现更好，随着训练任务类型增多，会产生在广泛任务上更有用的 LLM，但不会成为单一的超级智能模型。

来源：人工智能学家

标签： meta openai llm meta研究员 llm强化

本文地址：https://news.43u.com.cn/a/2065598.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!