摘要:从DeepBlue击败象棋世界冠军、AlphaGo征服围棋、GPT-4刷爆各类考试榜单,到o1、R1等新一代模型横扫数学、编程、写作、操作等任务,每一次历史性突破的背后,都是训练方法、模型架构的根本性创新。
本文来源:大数据文摘编译
回顾过去几十年,AI的发展几乎就是一部“顶级模型与新方法”迭代史。
从DeepBlue击败象棋世界冠军、AlphaGo征服围棋、GPT-4刷爆各类考试榜单,到o1、R1等新一代模型横扫数学、编程、写作、操作等任务,每一次历史性突破的背后,都是训练方法、模型架构的根本性创新。
大数据文摘编译
回顾过去几十年,AI的发展几乎就是一部“顶级模型与新方法”迭代史。
这时候的游戏规则很简单:谁能发明更强的训练方法、模型架构,就能称霸榜单;谁能在ImageNet、GLUE、MMLU等benchmark上显著提升,就能写进教材、赢得引用。
姚顺雨毕业于清华姚班,普林斯顿大学计算机科学博士,2024 年 8 月加入 OpenAI,是思维树(ToT)作者。
而现在,AI领域长达数十年的“算法为王”思路,终于迎来颠覆。OpenAI的研究员姚顺雨在一篇文章写道:先验和环境远比算法本身更重要。他将接下来的AI时刻称之为“下半场”。
“AI第一半场像极了‘应试教育’,刷榜、拿分、毕业。第二半场才是‘真教育’,要让AI在真实世界持续创造价值。”
第一半场,我们见证了方法与模型的辉煌;第二半场,我们要直面现实世界的复杂与挑战。只有解决“效用问题”,让AI成为现实中的价值创造者,这场比赛才算真正开始。
To thrive in this second half, we’ll need a timely shift in mindset and skill set, ones perhaps closer to a product manager.
可以理解为:“未来,第一流AI研究员的能力,或许更像一位产品经理,而不是算法工程师。
以下是文章全文,文摘菌做了不改变原意的编译:
简而言之:我们正处在AI的中场时刻。
几十年来,AI领域的核心一直在于开发新的训练方法和模型。这些努力确实带来了巨大突破:从在国际象棋和围棋上击败世界冠军,到在SAT和律师资格考试上超越大多数人类,再到收获国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)的金牌。
这些载入史册的里程碑,无论是DeepBlue、AlphaGo、GPT-4,还是o系列模型,背后其实都离不开AI方法的根本创新:搜索、深度强化学习、模型规模扩展和推理能力。随着时间推移,AI的表现总是在持续提升。
那现在到底发生了什么变化?
用三个词概括:强化学习(RL)终于“成了”(RL finally works)。更准确地说,是强化学习终于实现了泛化。
经过多年的探索和一系列关键节点的积累,我们终于找到了一个行之有效的通用方法,可以用语言和推理来解决各种强化学习任务。
要知道,就在一年前,如果你跟大多数AI研究人员说:“有一种通用方法,既能搞定软件开发、创意写作、IMO级别的数学、鼠标键盘操作,还能处理长篇问答。”很多人都会觉得你是在天方夜谭。
毕竟,这些任务都极其复杂,许多研究者一辈子的学术生涯可能只专注于其中一个小领域。
但现在,这一切真的成真了。
接下来会发生什么?AI的“下半场”。
从现在开始,将把重点从“解决问题”转向“定义问题”。在这个新的阶段,如何评估AI能力,比单纯训练模型更加重要。
我们不再只问“我们能不能训练出能解决X问题的模型?”,而是要问“我们究竟应该训练AI去做什么?我们又该如何衡量真正的进步?”想要在下半场脱颖而出,我们不仅要及时调整思维方式和能力结构,甚至可能需要逐渐向产品经理靠拢。
01 上半场
要理解AI的“上半场”,不妨看看那些真正的赢家。
到目前为止,你认为最具影响力的AI论文有哪些?我做过斯坦福224N课程里的一个小测试,结果其实并不意外:Transformer、AlexNet、GPT-3等等。
这些论文有什么共同点?它们都带来了基础性的突破,让我们能训练出更强大的模型。同时,它们之所以能发表,也因为在某些基准测试上取得了显著提升。
但其实还有个更深层的共性:这些“赢家”本质上都是新的训练方法或模型,而不是基准测试或具体任务。哪怕是公认最具影响力的基准数据集ImageNet,它的引用量还不到AlexNet的三分之一。而如果你再看看方法和基准之间的对比,这种差距就更加明显了。
以Transformer为例,它的主要基准是WMT’14机器翻译任务。WMT’14的工作坊报告被引用大约1,300次,而Transformer论文的引用数已经超过16万。
这恰好说明了AI“上半场”的玩法:重心始终在于打造新的模型和方法,至于评测和基准测试,虽然必不可少,但始终只是辅助,为论文体系服务。
为什么会这样?很大一个原因在于,在AI发展的上半场,提出新方法本身比设计新任务更难、更令人兴奋。创造一项全新的算法或模型架构,比如反向传播算法、卷积神经网络(AlexNet),或GPT-3背后的Transformer,都需要极高的洞见和工程能力。
相比之下,为AI设计任务通常要简单得多:我们只需把人类已经在做的事情(比如翻译、图像识别、下棋)直接转换成基准测试即可,这里面并没有太多创新或者技术难点。
此外,新方法往往比具体任务更具通用性和适用范围,因此价值更高。比如Transformer架构,最初只是在WMT’14机器翻译数据集上验证,但后来却成为计算机视觉、自然语言处理、强化学习等众多领域的核心动力,远远超出了它最初的应用场景。
一个优秀的新方法可以在许多不同的基准测试上取得突破,因为它本身简洁而通用,其影响力自然也就跨越了单一任务。
这种模式持续了数十年,并不断催生出改变世界的创新和突破,其具体表现就是各个领域基准成绩的不断刷新。那么,这种游戏规则为什么会发生改变?原因在于,所有这些创新和突破的积累,已经让我们在“解决任务”这件事上,获得了质的飞跃和真正可行的“通用配方”。
02 “通用配方”
那么,这套“通用配方”究竟是什么?其实它的核心要素并不意外:大规模语言预训练、模型和数据的极致扩展,以及“推理+行动”的理念。乍一听,这些词可能和硅谷每天流行的术语没什么两样,但为什么要称之为“配方”呢?
我们可以从强化学习(RL)的角度来理解。强化学习常被认为是AI的“终极形态”,毕竟,从理论上讲,RL可以保证在各种博弈中取胜;从实际应用看,没有RL也很难想象像AlphaGo这样超越人类的系统会出现。
在强化学习中,核心有三大要素:算法、环境和先验知识。长期以来,RL研究者的关注点主要集中在算法本身(比如REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO等),也就是智能体如何学习的“智慧核心”,而环境和先验知识通常被看作是固定的或者只是最简单的配置。
举个例子,Sutton和Barto那本经典的RL教科书,几乎只讲算法,几乎没有涉及环境设计或先验知识的内容。
然而,进入深度强化学习时代后,大家逐渐意识到,环境本身对最终效果有着巨大的影响:一种算法的表现,往往高度依赖于它所被开发和测试的环境。如果忽略了环境,你可能会造出一个只在“玩具”环境中表现优异的“最优”算法。所以,为什么我们不先弄清楚到底要解决什么样的环境,再去找最合适的算法呢?
Universe项目
这正是OpenAI最初的思路。他们先推出了gym,一个涵盖各种游戏的标准RL环境,之后又有了World of Bits和Universe项目,试图把互联网或者计算机本身变成一个“游戏环境”。这个思路听起来很不错吧?只要我们能把所有数字世界都变成可操作的环境,然后用聪明的RL算法去解决它们,数字世界的AGI似乎就指日可待了。
这个计划很不错,但却没有完全奏效。OpenAI在这条路上确实取得了不少进展,比如用RL解决了Dota、机械手等难题。但他们始终没能攻克“使用计算机”或者“网页导航”这样的任务,而且在一个领域学到的RL代理,几乎无法迁移到另一个领域。显然,某个关键环节还缺失了。
直到GPT-2和GPT-3的出现,大家才意识到,缺的其实是“先验知识”。你需要大规模的语言预训练,把普世的常识和语言知识“蒸馏”进模型里,之后再进行微调,才能让AI成为网页代理(WebGPT)或者聊天机器人(ChatGPT),并最终改变世界。事实证明,RL中最关键的部分,可能既不是算法本身,也不是环境本身,而是“先验”。而这些先验知识,可以通过和RL完全无关的方式获得。
大规模语言预训练为聊天场景带来了良好的先验,但在“控制计算机”或“玩电子游戏”等领域,效果却远远不如聊天。
地址:https://arxiv.org/abs/2010.02903
为什么?这些领域距离互联网文本的分布更远,直接在这些任务上用SFT(监督微调)或RL,泛化能力很差。我在2019年就注意到这个问题:当时GPT-2刚刚问世,我尝试用它加SFT和RL来玩文字冒险游戏:CALM,这也是世界上第一个用预训练语言模型构建的智能体。模型在单个游戏上要经历数百万步的RL训练,才能逐步“爬坡”;更糟糕的是,换一个新游戏就几乎无法迁移。
虽然这正是RL的典型表现,RL研究者对此早已见怪不怪,但我还是觉得奇怪:我们人类明明可以几乎不用训练就能上手新游戏,还能很快表现得更好。这让我第一次有了“顿悟”,人类之所以能泛化,是因为我们不只是机械地执行“去2号柜子”“用钥匙1打开3号箱子”“用剑打怪”这种操作。我们还会主动思考,比如:“地牢很危险,我需要武器。现在没看到武器,可能得从锁着的箱子里找。3号箱子在2号柜子里,那我应该先去那里把它打开。”
“思考”或“推理”本质上是一种非常特殊的“行动”:它并不会直接改变外部世界,但推理本身的空间却是开放且近乎无限的。
你可以思考一个单词、一句话、一段文章,甚至随意组合一万个英文单词,而你周围的世界却不会因此立即发生变化。在经典的强化学习理论框架下,这其实是一个很难处理的问题,也让决策变得几乎不可能。想象一下,你需要在两个箱子中选择一个,其中一个装着一百万美元,另一个是空的,你的期望收益是五十万美元。但如果我再加入无限多个空箱子,你的期望收益就会变成零。
然而,一旦我们把“推理”纳入RL环境的动作空间,并用语言预训练获得的先验知识来驱动AI泛化能力,就能在做出不同决策时灵活地分配推理所需的计算资源。
这是一件极其神奇的事。坦白说,我自己对其中的奥秘还没有完全梳理清楚,可能日后还需要专门写一篇文章来详细讨论。如果你感兴趣,可以去看一下ReAct论文,了解智能体推理的起源故事,也能感受到我当时的思考和灵感。
地址:https://arxiv.org/abs/2210.03629
我的直观理解是:即使你面对无数个空箱子,在你过往的所有经历和各类“游戏”中,这些选择和尝试其实积累了经验,也为你在关键时刻做出正确决策打下了基础。抽象地说,语言通过推理,赋予了智能体强大的泛化能力。
当我们找到了合适的RL先验(即通过大规模语言预训练获得的知识)和理想的RL环境(即将语言推理作为行动的一部分),你会发现,RL算法本身反而变得不那么重要了。于是我们才有了o系列、R1、deep research、能用计算机的智能体等一系列突破。讽刺的是,长期以来,RL研究者一直把重心放在算法上,几乎无人关注“先验”,几乎所有RL实验都从零开始。我们花了几十年时间,才终于意识到,也许最应该关注的恰恰是我们一直忽略的部分。
正如乔布斯所说:“你无法预见未来如何把这些点连接起来,只有当你回头看时,这些点才会连成线。”
03 下半场
我们不断提出新颖的训练方法或模型,在各种基准测试上“爬坡”突破;随之创造更难的基准测试,然后继续循环。但这一套游戏正在被“配方”所打破,因为:这套配方本质上已经把“刷榜”变成了标准化、产业化的流水线工作,不再需要太多全新的创意。只要按部就班地扩大模型、数据和算力,就能高效泛化到各种任务。你费尽心思为某个特定任务设计的新方法,或许能提升5%,但下一代o系列模型,哪怕不是专门为这个任务设计,可能就能直接提升30%。
即便我们不断设计更难的基准,配方的扩展能力极强,很快(而且越来越快)就能攻破这些新基准。我的同事Jason Wei曾用一幅非常直观的图,清楚地展现了这一趋势:
那么,下半场还能怎么玩?如果创新方法已经不再重要,而更难的基准测试也会被“配方”迅速攻克,我们还能做什么?
我认为,我们需要从根本上重新思考“评测”这件事。这不仅仅是设计更难的新基准,更是在质疑现有的评测体系,创造全新的评测方式,从而倒逼我们去发明超越现有“通用配方”的新方法。这其实很难做到,因为人类本身就有惯性,我们很少会主动质疑那些被视为理所当然的基本假设,往往下意识地把它们当作“自然法则”。
举个例子来说明这种惯性:假如你曾基于人类考试体系,发明过历史上最成功的AI评测之一。在2021年,这或许是一个极为大胆的创意,但三年后,这个思路已经被用到极致。你会怎么办?大概率是再设计一套更难的考试。又或者,你已经让AI攻克了基础的编程任务,你可能会选择不断寻找更高难度的编程题,直到AI达到国际信息学奥赛金牌水平。
这种惯性很正常,但问题在于:AI已经在国际象棋、围棋上击败了世界冠军,在SAT、律师资格考试中超过了大多数人类,甚至在IOI、IMO上拿到了金牌。可放眼现实世界,至少从经济和GDP的角度来看,这个世界并没有发生什么本质性的变化。
我把这称为“效用问题”(utility problem),并认为这是AI领域目前最重要的问题。
或许我们很快就能解决这个问题,也可能还需要更长时间。但无论如何,问题的根源其实出奇地简单:我们的评测体系与真实世界的应用环境,在许多基本层面上存在差异。举两个例子:
1.传统的AI评测“理应”是自动化的:通常是让智能体接收一个任务输入,独立完成任务,然后获得奖励或评分。但现实世界中,智能体往往需要在任务过程中与人类持续互动——比如,你不会给客服发一大段信息后,等上十分钟就期望对方能一次性给你完美的答复。正因为质疑了这种评测假设,新的基准应运而生:要么引入真实用户参与(比如 Chatbot Arena),要么通过模拟用户来实现交互(比如 tau-bench)。
2.评测“理应”是独立同分布(i.i.d.)的:如果你有一个包含500个任务的测试集,通常会让智能体分别独立地完成每个任务,然后将所有分数做平均,得出一个总体指标。但现实中,任务往往是按序进行的,而非彼此独立、同时发生。比如,Google 的一位软件工程师会随着对代码库的熟悉,在解决 google3 的各种问题时表现得越来越好;而一个AI软件工程师则是不断解决同一仓库里的各种问题,却无法像人类那样积累“熟悉感”。显然,我们需要具备长期记忆能力的方法(事实上相关研究已经出现),但学术界却没有相应的基准来证明其必要性,甚至缺乏质疑i.i.d.假设的勇气。而这个假设恰恰是机器学习的基础之一。
这些假设“似乎一直如此”,在AI的上半场,基于这些假设来开发评测体系和基准其实没什么问题,因为当智能水平较低时,单纯提升智能本身确实能带来效用的提升。但现在,“通用配方”已经在这些假设下无往不利。因此,下半场的游戏规则变成了:
我们需要围绕真实世界的效用,开发全新的评测体系或任务。然后用“通用配方”去解决这些任务,或在配方基础上引入新的创新组件,循环推进。这个新游戏很难,因为它充满了不确定和陌生。但也正因如此,它令人无比兴奋。上半场的玩家在解决电子游戏和考试题,而下半场的玩家,则有机会用智能打造出真正有用的产品,缔造数十亿、数万亿美元的公司。上半场充满了各种“微创新”的方法和模型,而下半场则会对这些创新做出真正的筛选。
只要你沿用旧的假设,“通用配方”就能轻易碾压你的微小改进;但如果你能创造出打破旧配方的新假设,你就有机会做出真正改变游戏规则的研究。
欢迎来到AI的下半场!
来源:人工智能学家