OpenAI 姚顺雨：“算法为王”终结，欢迎来到“产品思维”时代

摘要：从DeepBlue击败象棋世界冠军、AlphaGo征服围棋、GPT-4刷爆各类考试榜单，到o1、R1等新一代模型横扫数学、编程、写作、操作等任务，每一次历史性突破的背后，都是训练方法、模型架构的根本性创新。

本文来源：大数据文摘编译

回顾过去几十年，AI的发展几乎就是一部“顶级模型与新方法”迭代史。

从DeepBlue击败象棋世界冠军、AlphaGo征服围棋、GPT-4刷爆各类考试榜单，到o1、R1等新一代模型横扫数学、编程、写作、操作等任务，每一次历史性突破的背后，都是训练方法、模型架构的根本性创新。

大数据文摘编译

回顾过去几十年，AI的发展几乎就是一部“顶级模型与新方法”迭代史。

这时候的游戏规则很简单：谁能发明更强的训练方法、模型架构，就能称霸榜单；谁能在ImageNet、GLUE、MMLU等benchmark上显著提升，就能写进教材、赢得引用。

姚顺雨毕业于清华姚班，普林斯顿大学计算机科学博士，2024 年 8 月加入 OpenAI，是思维树（ToT）作者。

而现在，AI领域长达数十年的“算法为王”思路，终于迎来颠覆。OpenAI的研究员姚顺雨在一篇文章写道：先验和环境远比算法本身更重要。他将接下来的AI时刻称之为“下半场”。

“AI第一半场像极了‘应试教育’，刷榜、拿分、毕业。第二半场才是‘真教育’，要让AI在真实世界持续创造价值。”

第一半场，我们见证了方法与模型的辉煌；第二半场，我们要直面现实世界的复杂与挑战。只有解决“效用问题”，让AI成为现实中的价值创造者，这场比赛才算真正开始。

To thrive in this second half, we’ll need a timely shift in mindset and skill set, ones perhaps closer to a product manager.

可以理解为：“未来，第一流AI研究员的能力，或许更像一位产品经理，而不是算法工程师。

以下是文章全文，文摘菌做了不改变原意的编译：

简而言之：我们正处在AI的中场时刻。

几十年来，AI领域的核心一直在于开发新的训练方法和模型。这些努力确实带来了巨大突破：从在国际象棋和围棋上击败世界冠军，到在SAT和律师资格考试上超越大多数人类，再到收获国际数学奥林匹克（IMO）和国际信息学奥林匹克（IOI）的金牌。

这些载入史册的里程碑，无论是DeepBlue、AlphaGo、GPT-4，还是o系列模型，背后其实都离不开AI方法的根本创新：搜索、深度强化学习、模型规模扩展和推理能力。随着时间推移，AI的表现总是在持续提升。

那现在到底发生了什么变化？

用三个词概括：强化学习（RL）终于“成了”（RL finally works）。更准确地说，是强化学习终于实现了泛化。

经过多年的探索和一系列关键节点的积累，我们终于找到了一个行之有效的通用方法，可以用语言和推理来解决各种强化学习任务。

要知道，就在一年前，如果你跟大多数AI研究人员说：“有一种通用方法，既能搞定软件开发、创意写作、IMO级别的数学、鼠标键盘操作，还能处理长篇问答。”很多人都会觉得你是在天方夜谭。

毕竟，这些任务都极其复杂，许多研究者一辈子的学术生涯可能只专注于其中一个小领域。

但现在，这一切真的成真了。

接下来会发生什么？AI的“下半场”。

从现在开始，将把重点从“解决问题”转向“定义问题”。在这个新的阶段，如何评估AI能力，比单纯训练模型更加重要。

我们不再只问“我们能不能训练出能解决X问题的模型？”，而是要问“我们究竟应该训练AI去做什么？我们又该如何衡量真正的进步？”想要在下半场脱颖而出，我们不仅要及时调整思维方式和能力结构，甚至可能需要逐渐向产品经理靠拢。

01 上半场

要理解AI的“上半场”，不妨看看那些真正的赢家。

到目前为止，你认为最具影响力的AI论文有哪些？我做过斯坦福224N课程里的一个小测试，结果其实并不意外：Transformer、AlexNet、GPT-3等等。

这些论文有什么共同点？它们都带来了基础性的突破，让我们能训练出更强大的模型。同时，它们之所以能发表，也因为在某些基准测试上取得了显著提升。

但其实还有个更深层的共性：这些“赢家”本质上都是新的训练方法或模型，而不是基准测试或具体任务。哪怕是公认最具影响力的基准数据集ImageNet，它的引用量还不到AlexNet的三分之一。而如果你再看看方法和基准之间的对比，这种差距就更加明显了。

以Transformer为例，它的主要基准是WMT’14机器翻译任务。WMT’14的工作坊报告被引用大约1,300次，而Transformer论文的引用数已经超过16万。

这恰好说明了AI“上半场”的玩法：重心始终在于打造新的模型和方法，至于评测和基准测试，虽然必不可少，但始终只是辅助，为论文体系服务。

为什么会这样？很大一个原因在于，在AI发展的上半场，提出新方法本身比设计新任务更难、更令人兴奋。创造一项全新的算法或模型架构，比如反向传播算法、卷积神经网络（AlexNet），或GPT-3背后的Transformer，都需要极高的洞见和工程能力。

相比之下，为AI设计任务通常要简单得多：我们只需把人类已经在做的事情（比如翻译、图像识别、下棋）直接转换成基准测试即可，这里面并没有太多创新或者技术难点。

此外，新方法往往比具体任务更具通用性和适用范围，因此价值更高。比如Transformer架构，最初只是在WMT’14机器翻译数据集上验证，但后来却成为计算机视觉、自然语言处理、强化学习等众多领域的核心动力，远远超出了它最初的应用场景。

一个优秀的新方法可以在许多不同的基准测试上取得突破，因为它本身简洁而通用，其影响力自然也就跨越了单一任务。

这种模式持续了数十年，并不断催生出改变世界的创新和突破，其具体表现就是各个领域基准成绩的不断刷新。那么，这种游戏规则为什么会发生改变？原因在于，所有这些创新和突破的积累，已经让我们在“解决任务”这件事上，获得了质的飞跃和真正可行的“通用配方”。

02 “通用配方”

那么，这套“通用配方”究竟是什么？其实它的核心要素并不意外：大规模语言预训练、模型和数据的极致扩展，以及“推理+行动”的理念。乍一听，这些词可能和硅谷每天流行的术语没什么两样，但为什么要称之为“配方”呢？

我们可以从强化学习（RL）的角度来理解。强化学习常被认为是AI的“终极形态”，毕竟，从理论上讲，RL可以保证在各种博弈中取胜；从实际应用看，没有RL也很难想象像AlphaGo这样超越人类的系统会出现。

在强化学习中，核心有三大要素：算法、环境和先验知识。长期以来，RL研究者的关注点主要集中在算法本身（比如REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO等），也就是智能体如何学习的“智慧核心”，而环境和先验知识通常被看作是固定的或者只是最简单的配置。

举个例子，Sutton和Barto那本经典的RL教科书，几乎只讲算法，几乎没有涉及环境设计或先验知识的内容。

然而，进入深度强化学习时代后，大家逐渐意识到，环境本身对最终效果有着巨大的影响：一种算法的表现，往往高度依赖于它所被开发和测试的环境。如果忽略了环境，你可能会造出一个只在“玩具”环境中表现优异的“最优”算法。所以，为什么我们不先弄清楚到底要解决什么样的环境，再去找最合适的算法呢？

Universe项目

这正是OpenAI最初的思路。他们先推出了gym，一个涵盖各种游戏的标准RL环境，之后又有了World of Bits和Universe项目，试图把互联网或者计算机本身变成一个“游戏环境”。这个思路听起来很不错吧？只要我们能把所有数字世界都变成可操作的环境，然后用聪明的RL算法去解决它们，数字世界的AGI似乎就指日可待了。

这个计划很不错，但却没有完全奏效。OpenAI在这条路上确实取得了不少进展，比如用RL解决了Dota、机械手等难题。但他们始终没能攻克“使用计算机”或者“网页导航”这样的任务，而且在一个领域学到的RL代理，几乎无法迁移到另一个领域。显然，某个关键环节还缺失了。

直到GPT-2和GPT-3的出现，大家才意识到，缺的其实是“先验知识”。你需要大规模的语言预训练，把普世的常识和语言知识“蒸馏”进模型里，之后再进行微调，才能让AI成为网页代理（WebGPT）或者聊天机器人（ChatGPT），并最终改变世界。事实证明，RL中最关键的部分，可能既不是算法本身，也不是环境本身，而是“先验”。而这些先验知识，可以通过和RL完全无关的方式获得。

大规模语言预训练为聊天场景带来了良好的先验，但在“控制计算机”或“玩电子游戏”等领域，效果却远远不如聊天。

地址：https://arxiv.org/abs/2010.02903

为什么？这些领域距离互联网文本的分布更远，直接在这些任务上用SFT（监督微调）或RL，泛化能力很差。我在2019年就注意到这个问题：当时GPT-2刚刚问世，我尝试用它加SFT和RL来玩文字冒险游戏：CALM，这也是世界上第一个用预训练语言模型构建的智能体。模型在单个游戏上要经历数百万步的RL训练，才能逐步“爬坡”；更糟糕的是，换一个新游戏就几乎无法迁移。

虽然这正是RL的典型表现，RL研究者对此早已见怪不怪，但我还是觉得奇怪：我们人类明明可以几乎不用训练就能上手新游戏，还能很快表现得更好。这让我第一次有了“顿悟”，人类之所以能泛化，是因为我们不只是机械地执行“去2号柜子”“用钥匙1打开3号箱子”“用剑打怪”这种操作。我们还会主动思考，比如：“地牢很危险，我需要武器。现在没看到武器，可能得从锁着的箱子里找。3号箱子在2号柜子里，那我应该先去那里把它打开。”

“思考”或“推理”本质上是一种非常特殊的“行动”：它并不会直接改变外部世界，但推理本身的空间却是开放且近乎无限的。

你可以思考一个单词、一句话、一段文章，甚至随意组合一万个英文单词，而你周围的世界却不会因此立即发生变化。在经典的强化学习理论框架下，这其实是一个很难处理的问题，也让决策变得几乎不可能。想象一下，你需要在两个箱子中选择一个，其中一个装着一百万美元，另一个是空的，你的期望收益是五十万美元。但如果我再加入无限多个空箱子，你的期望收益就会变成零。

然而，一旦我们把“推理”纳入RL环境的动作空间，并用语言预训练获得的先验知识来驱动AI泛化能力，就能在做出不同决策时灵活地分配推理所需的计算资源。

这是一件极其神奇的事。坦白说，我自己对其中的奥秘还没有完全梳理清楚，可能日后还需要专门写一篇文章来详细讨论。如果你感兴趣，可以去看一下ReAct论文，了解智能体推理的起源故事，也能感受到我当时的思考和灵感。

地址：https://arxiv.org/abs/2210.03629

我的直观理解是：即使你面对无数个空箱子，在你过往的所有经历和各类“游戏”中，这些选择和尝试其实积累了经验，也为你在关键时刻做出正确决策打下了基础。抽象地说，语言通过推理，赋予了智能体强大的泛化能力。

当我们找到了合适的RL先验（即通过大规模语言预训练获得的知识）和理想的RL环境（即将语言推理作为行动的一部分），你会发现，RL算法本身反而变得不那么重要了。于是我们才有了o系列、R1、deep research、能用计算机的智能体等一系列突破。讽刺的是，长期以来，RL研究者一直把重心放在算法上，几乎无人关注“先验”，几乎所有RL实验都从零开始。我们花了几十年时间，才终于意识到，也许最应该关注的恰恰是我们一直忽略的部分。

正如乔布斯所说：“你无法预见未来如何把这些点连接起来，只有当你回头看时，这些点才会连成线。”

03 下半场

我们不断提出新颖的训练方法或模型，在各种基准测试上“爬坡”突破；随之创造更难的基准测试，然后继续循环。

但这一套游戏正在被“配方”所打破，因为：这套配方本质上已经把“刷榜”变成了标准化、产业化的流水线工作，不再需要太多全新的创意。只要按部就班地扩大模型、数据和算力，就能高效泛化到各种任务。你费尽心思为某个特定任务设计的新方法，或许能提升5%，但下一代o系列模型，哪怕不是专门为这个任务设计，可能就能直接提升30%。

即便我们不断设计更难的基准，配方的扩展能力极强，很快（而且越来越快）就能攻破这些新基准。我的同事Jason Wei曾用一幅非常直观的图，清楚地展现了这一趋势：

那么，下半场还能怎么玩？如果创新方法已经不再重要，而更难的基准测试也会被“配方”迅速攻克，我们还能做什么？

我认为，我们需要从根本上重新思考“评测”这件事。这不仅仅是设计更难的新基准，更是在质疑现有的评测体系，创造全新的评测方式，从而倒逼我们去发明超越现有“通用配方”的新方法。这其实很难做到，因为人类本身就有惯性，我们很少会主动质疑那些被视为理所当然的基本假设，往往下意识地把它们当作“自然法则”。

举个例子来说明这种惯性：假如你曾基于人类考试体系，发明过历史上最成功的AI评测之一。在2021年，这或许是一个极为大胆的创意，但三年后，这个思路已经被用到极致。你会怎么办？大概率是再设计一套更难的考试。又或者，你已经让AI攻克了基础的编程任务，你可能会选择不断寻找更高难度的编程题，直到AI达到国际信息学奥赛金牌水平。

这种惯性很正常，但问题在于：AI已经在国际象棋、围棋上击败了世界冠军，在SAT、律师资格考试中超过了大多数人类，甚至在IOI、IMO上拿到了金牌。可放眼现实世界，至少从经济和GDP的角度来看，这个世界并没有发生什么本质性的变化。

我把这称为“效用问题”（utility problem），并认为这是AI领域目前最重要的问题。

或许我们很快就能解决这个问题，也可能还需要更长时间。但无论如何，问题的根源其实出奇地简单：我们的评测体系与真实世界的应用环境，在许多基本层面上存在差异。举两个例子：

1.传统的AI评测“理应”是自动化的：通常是让智能体接收一个任务输入，独立完成任务，然后获得奖励或评分。但现实世界中，智能体往往需要在任务过程中与人类持续互动——比如，你不会给客服发一大段信息后，等上十分钟就期望对方能一次性给你完美的答复。正因为质疑了这种评测假设，新的基准应运而生：要么引入真实用户参与（比如 Chatbot Arena），要么通过模拟用户来实现交互（比如 tau-bench）。

2.评测“理应”是独立同分布（i.i.d.）的：如果你有一个包含500个任务的测试集，通常会让智能体分别独立地完成每个任务，然后将所有分数做平均，得出一个总体指标。但现实中，任务往往是按序进行的，而非彼此独立、同时发生。比如，Google 的一位软件工程师会随着对代码库的熟悉，在解决 google3 的各种问题时表现得越来越好；而一个AI软件工程师则是不断解决同一仓库里的各种问题，却无法像人类那样积累“熟悉感”。显然，我们需要具备长期记忆能力的方法（事实上相关研究已经出现），但学术界却没有相应的基准来证明其必要性，甚至缺乏质疑i.i.d.假设的勇气。而这个假设恰恰是机器学习的基础之一。

这些假设“似乎一直如此”，在AI的上半场，基于这些假设来开发评测体系和基准其实没什么问题，因为当智能水平较低时，单纯提升智能本身确实能带来效用的提升。但现在，“通用配方”已经在这些假设下无往不利。因此，下半场的游戏规则变成了：

我们需要围绕真实世界的效用，开发全新的评测体系或任务。然后用“通用配方”去解决这些任务，或在配方基础上引入新的创新组件，循环推进。

这个新游戏很难，因为它充满了不确定和陌生。但也正因如此，它令人无比兴奋。上半场的玩家在解决电子游戏和考试题，而下半场的玩家，则有机会用智能打造出真正有用的产品，缔造数十亿、数万亿美元的公司。上半场充满了各种“微创新”的方法和模型，而下半场则会对这些创新做出真正的筛选。

只要你沿用旧的假设，“通用配方”就能轻易碾压你的微小改进；但如果你能创造出打破旧配方的新假设，你就有机会做出真正改变游戏规则的研究。

欢迎来到AI的下半场！

来源：人工智能学家

标签： openai 算法 rl 姚顺 openai姚顺

本文地址：https://news.43u.com.cn/a/1425447.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!