摘要:4月10日,谷歌 DeepMind 的强化学习团队副总裁David Silve在DeepMind 播客深入探讨了人工智能的未来发展路径。David Silver是Google DeepMind 的创始成员之一、AlphaGo 背后的关键人物。
本文来源:数字开物
4月10日,谷歌 DeepMind 的强化学习团队副总裁David Silve在DeepMind 播客深入探讨了人工智能的未来发展路径。David Silver是Google DeepMind 的创始成员之一、AlphaGo 背后的关键人物。
David Silver提出AI的未来需要超越人类数据,AI 通过与世界真实互动、积累自身经验来实现超人智能。从“人类数据时代”迈向“经验时代”是 AI 实现持续进步和通往 AGI 的关键。
以下是本次对话实录
经数字开物团队编译整理
01
AI的未来需要超越人类数据
主持人提问:您在观点论文中谈到的“经验时代”具体指什么?您是否认为,这意味着大语言模型并非 AI 的全部,还存在其他发展路径?
David Silver 实录:我的意思是,回顾 AI 在过去几年的发展轨迹,它一直处在我所说的“人类数据时代”。这个时代的所有 AI 方法都基于一个共同理念:提取人类拥有的全部知识,并将其‘喂’给机器。这是一种极其强大的方法。
但也存在另一种方法,而这正是将引领我们进入“经验时代”的关键:机器真正与世界互动,产生自身的经验。它在现实世界中进行尝试,并开始积累自己的经验。如果你将这类数据视为驱动机器的‘燃料’,那么它将催生下一代 AI——也就是我们所构想的“经验时代”。
关于超越当前范式,我认为我们在 AI 领域通过构建大语言模型,确实取得了长足的进步。这些模型利用海量的人类数据,特别是现存的自然语言数据,将这一切整合进机器,使其能够理解人类有史以来记录下的所有知识。但在某个节点,我们需要突破现状,超越人类已知的范畴。要实现这一点,我们需要一种不同的方法。这种方法要求 AI 能够真正依靠自身去探索理解,发现人类未知的知识。我认为这将开启一个全新的 AI 时代,对社会而言,这将是激动人心且影响深远的。
02
摒弃人类数据,专注自主学习才能突破人类能力的‘天花板’
主持人提问:请介绍一下 AlphaGo 和 AlphaZero 所使用的技术,它们与我们今天看到的大语言模型有何不同?特别是 AlphaZero 为何能完全不使用人类数据?为何摒弃人类数据后,程序性能反而更好,这是否就是所谓的 AI“苦涩教训”?这种方法如何帮助 AI 突破人类能力的“天花板”?
David Silver 实录:AlphaZero 与近来常用的人类数据方法尤其不同,因为它完全不使用人类数据。AlphaZero 中的‘Zero’正是这个意思。也就是说,这个系统完全没有预先编程任何人类知识。
那么,替代方案是什么呢?如果不模仿人类,并且事先也不知道正确的下法,要如何学习围棋知识呢?它所采用的方法是一种试错学习,AlphaZero 通过这种方式,与自己进行了数百万局围棋、国际象棋或任何它需要学习的棋类游戏的对弈。它逐渐领悟到,如果在特定情境下走某一步或某一类棋步,最终能赢得更多对局。这份领悟就成为经验,用以驱动它变得更强。然后它会更倾向于采用这种下法。下一次,它又会发现新的东西,比如某种新模式。例如‘当我运用这种特定模式时,我最终赢了更多棋局 (或输了更多)’。这些经验又为下一代算法的迭代改进提供了基础,如此循环往复。这种从经验中学习,特别是从 AI Agent 自身产生的经验中学习的方式,对 AlphaZero 而言已足够。这足以驱动它一路进化,从最初完全随机的下法,直至成为全球有史以来最强的国际象棋和围棋程序。
AlphaGo 的最初版本,即 2016 年在那场著名对局中击败 Lee Sedol 的版本,在起步阶段确实使用了一些人类数据。我们基本上给它‘喂’入了人类职业棋手的棋谱数据库。它学习并吸收了这些人类下法,以此作为起点。然后,从那时起,它便通过自身经验进行学习。然而,一年后我们发现人类数据并非必要。完全可以摒弃所有人类棋谱。我们证明了,由此产生的程序不仅能达到同等水平,实际性能反而更好,学习速度甚至比最初的 AlphaGo 更快,达到了远超以往的水平。
这对 AI 领域的人们来说,是艰难的一课,有时被称为 AI 的‘苦涩教训’。这个教训就是:我们内心总希望相信,人类积累的所有知识都至关重要。因此,我们将其‘喂’给系统,融入算法设计中。但结果往往是,这导致我们设计的算法更倾向于拟合人类数据,反而削弱了算法自主学习的能力。而当你摒弃人类数据时,你反而会投入更多精力去研究如何让系统自主学习。正是这种自主学习能力,才能让系统不断学习、持续进步、永无止境。
如何突破天花板,人类数据对于 AI 的起步确实非常有帮助。但是,人类能达到的一切成就都存在上限,即‘天花板’。我们在围棋领域就看到了这一点:人类棋手能达到的最高水平是有限的。我们需要突破这些天花板。在 AlphaZero 中,我们正是通过构建一个能通过自我对弈进行自主学习、并不断自我提升的系统,最终突破了那个天花板,达到了远超人类的水平。我认为“经验时代”的理念,就是要找到能在所有领域都突破这种天花板的方法。我们要构建这样的 AI 系统:在所有那些我们看来人类已极其出色的能力方面,它都能展现出超人的表现,并且我们要找到超越这些极限的路径。
03
强化学习与自我博弈
主持人提问:您能否具体解释一下 AlphaZero 是如何运用强化学习技术,在不使用人类数据的情况下,通过成千上万次的自我对弈精通围棋的?这种学习机制如何解决信用分配问题(即判断早期步骤对最终胜负的贡献)?AlphaGo 著名的“第37手”是如何体现超越人类认知的创造力的?在大语言模型领域是否也出现了类似的突破?能否简要说明 AlphaZero 的工作原理?AI 是否能设计自己的强化学习算法?
David Silver 实录:核心思想是一种我们称之为强化学习的方法。强化学习的核心理念是,基本上要为对局的最终结果赋予一个数值。比如,赢了是 +1,输了是 -1。接着,利用强化学习,我们基本上是在系统每次做出‘正确’行为 (即导向胜利的行为) 时给予奖励,然后训练系统去‘强化’这种行为——这意味着让系统更倾向于执行能获得更多奖励的动作。举例来说,如果你有一个像 AlphaGo 那样用以选择棋步的神经网络,你要做的就是朝着能获得更多奖励的方向,微调神经网络的权重。这便是强化学习的核心机制。
关于信用分配,这确实是个非常重要的问题。它被称为信用分配问题。核心难点在于——您说的完全对,一盘棋可能下了一两百步甚至三百步,但最后只得到一个简单的胜负结果信息 (赢或输)。而必须设法弄清楚,在整盘棋中,究竟是哪些步导致了胜利,哪些步导致了失败。解决这个问题有很多方法。最简单的方法是假设你下的每一步都对最终结果有微小贡献。通过大量的对局和数据积累,(哪些步是好是坏)最终总会显现出来。
第 37 手棋出现在 AlphaGo 与 Lee Sedol 对弈的第二局。AlphaGo 当时下出的这一步,完全超出了所有人的预料。按照围棋的传统思路,棋子通常下在棋盘的第三线或第四线,因为第三线能围取实地,第四线则侧重对外势的影响。棋手一般绝不会超出这个范围下子,这对人类棋手来说是毫无道理的。AlphaGo 却下在了第五线。其落子方式非常奇妙,让棋盘上的整个局面豁然开朗。通过第五线上的这一步,盘面上的一切都联系起来了。这步棋对人类来说是如此匪夷所思,我们估计人类棋手想到这一步的可能性大概只有万分之一。人类棋手被这一步棋深深震撼,而它确实帮助 AlphaGo 赢得了那局比赛。因此,那一刻人们意识到,这展现了真正的创造力,是机器想出的一种不同于人类传统围棋思路的下法,它确实是一个巨大的进步,带领我们突破了人类现有知识的边界。
关于LLM突破,从某种意义上说,第 37 手棋之所以特殊,是因为它是第一次。那是人们首次目睹 AI 实现如此重大的突破。其次,由于我们目前仍处在依赖人类数据的时代,我们过去非常专注于复制人类已有的能力,而较少关注如何超越这些能力。除非我们真正重视让系统通过自我学习来突破人类数据的局限,否则我们将很难在现实世界中看到堪比第 37 手棋那样的重大突破。因为一旦你受限于人类数据,你得到的就永远只是类似人类的反应。
有些方法可能有助于取得一些介于两者之间的成果。
因此,若要举一个最接近第 37 手棋时刻的例子,我可能会选择 MIT 科学家们的一项研究,他们发现了一种人类前所未知的新型抗生素。那是一项极其了不起、对全人类至关重要的发现。从这个角度看,它的意义甚至远超第 37 手棋。但我更看重第 37 手棋,是因为它不只是一个孤立的发现,它是一个无限发现序列的开端。在这种模式下,系统可以持续不断地学习。第 37 手棋对我而言之所以重要,是因为它代表了这种无限发现序列中的一个点——一旦你掌握了这种从经验中学习的方法,这种无限的探索就能不断发生。而非看重那个发现本身固有的价值。
AlphaZero 的原理其实出奇地简单。虽然世界上有很多极其复杂的算法,但相比之下,AlphaZero 的核心思路非常直接。只需从一个策略——也就是选择下一种走法的方法,和一个价值函数,也就是评估当前棋局和各个走法优劣的方法开始。从这两者开始,运行一次搜索。然后根据搜索结果找出最佳走法,并训练策略网络,让它更倾向于选择这些被搜索认为是好的走法。同时根据实际对弈的最终结局训练价值函数。将此过程重复迭代数百万次,一个超人类水平的棋手就诞生了。
关于魔法时刻,第一次真正让我有这种魔法般的感觉,是在我们刚刚完成国际象棋版 AlphaZero 之后。当时有人提议在一种完全不同的棋类上试试。于是我们把 AlphaZero 应用到了一种我们团队里谁都不会下的棋——日本将棋,也就是日式象棋。我们当时对这个游戏怎么玩一无所知,但还是把程序运行起来了。系统 (AI Agent) 知道规则,我们把规则教给了它。我们虽然知道游戏规则,但对于真正的策略或战术,我们谁都没有头绪。如果我们自己去下,肯定会昏招迭出。我们只是把程序运行起来,这确实是 AlphaZero 第一次应用于日本将棋。我们完全不知道它下得好不好,也无法评估它的水平。我们把棋谱发给了 Demis,他当然是一位相当强的棋手。他看了之后说:“这看起来相当不错。我把它发给 Shogi 世界冠军看看。” 结果世界冠军回复说:“我认为这达到了超人类的水平。” 这真的感觉就像魔法一样,因为我们只是启动了系统运行,对它学习的过程以及如何达到这个水平一无所知,但不知怎么地,一个超人类水平的日本将棋棋手就这样诞生了。
关于AI设计算法,我们确实在这个领域做过一些研究。这项工作是几年前完成的,但最近才发表。我们当时构建了一个系统,它通过试错法,也就是通过强化学习本身,来找出哪种算法在强化学习任务上表现最好。这个系统确实进入了元层面,它学会了如何构建自己的强化学习系统。而且令人难以置信的是,它设计出的算法性能,超越了我们人类研究员在过去许多年里设计出的所有强化学习算法。这似乎是一个反复出现的主题:人类干预越多,系统的表现往往越差;去除人类的限制,它反而做得更好。
04
RLHF虽有用但限制AI超越人类认知
主持人提问:强化学习(特别是 RLHF)是如何应用于当前的大语言模型中的?这种基于人类反馈的方法是否限制了 AI 超越人类知识?移除人类反馈环节,模型是否会失去与现实的联系或“根基”?您是否认为当前模型的“根基”可能只是肤浅的?相比于使用 LLM 生成合成数据,您提出的经验驱动路径有何本质不同?我们讨论的是最终仍需人类判断(如品尝蛋糕)的反馈,还是完全摆脱人类束缚、能自主获得反馈的系统?这种自主反馈是否比人类主观判断更能“扎根”现实?
David Silver 实录:强化学习几乎应用在了所有大语言模型系统中。其主要的应用方式是将其与人类数据相结合。这与 AlphaZero 的方法不同,它意味着强化学习的训练实际上是基于人类的偏好来进行的。具体来说,系统通常被要求生成一些输出,然后由人类来判断哪个输出更好。系统会根据这些反馈进行调整,使其生成的内容更符合人类的偏好。这种方法被称为基于人类反馈的强化学习 (RLHF),它在大语言模型的发展中起到了至关重要的作用。正是 RLHF 帮助大语言模型从最初那种只会盲目模仿互联网上各种数据的状态,转变成了能够针对人们真正关心的问题、生成有用答案的系统。这是一项巨大的进步。
关于RLHF局限,我认为我们可能有点因噎废食了。这些基于人类反馈的强化学习 (RLHF) 系统虽然非常强大,但它们无法超越人类现有的知识。打个比方,如果人类评估者无法识别某个全新的想法,或者低估了一系列最终效果远胜于其他方案的操作步骤,那么系统就永远学不会去发现那条更优的路径,因为评估者自身可能就无法理解那种更好的行为方式。这是否类似于我们训练 AlphaGo 时,若每一步都由人类顶尖棋手评判好坏,它就永远发现不了“第 37 步”那样的创新下法?正是如此。如果系统根据这种反馈学习选择人类偏好的棋步,它最终只会下出人类认知中的好棋,无法探索人类未知的新境界。
关于“根基”与现实,我几乎想提出相反的论点。当我们通过人类反馈来训练系统时,它恰恰是“没有”基于现实的。原因在于 RLHF 系统通常的工作流程:系统给出它的回应,然后评估者在系统根据该信息采取任何实际行动“之前”,就判断这个回应的好坏。这更像是人类在对系统的输出进行主观的预先评判。举个例子,比如你向一个大语言模型索要一份蛋糕食谱。人类评估者会查看模型输出的食谱,然后判断这份食谱好不好——但这是在“没有任何人”真正按照这个食谱制作并品尝蛋糕“之前”做的判断。从这个意义上说,这种反馈就是脱离现实的。真正基于现实的结果应该是:有人真的按照食谱做了蛋糕并且品尝了,然后反馈说这个蛋糕是美味还是难吃。这样你就得到了基于现实的反馈,明确指出这个蛋糕到底好不好。正是这种基于现实的反馈,才让系统能够通过不断迭代去发现新事物,因为它能够尝试那些可能连专家厨师都觉得会很难吃、但实际上却可能非常美味的新食谱。比如一个怪物脆片口味的松饼,说不定那是有史以来最美味的食物呢。
我认为人类数据本身是基于人类经验的。因此可以看作大语言模型在一定程度上继承了人类通过自身实践和实验所获得的所有信息。比如,在科学探索中,人类可能尝试过在水上行走,发现会掉下去;然后他们可能造了船,发现船可以漂浮。所有这些源于实践经验的信息,大语言模型都可以通过学习人类数据来间接继承。但如果我们想要一个能够真正做出探索和发现的系统,比如发现一种全新的水上推进方式,或者一个全新的数学理论,或者某种开辟新径的新方法,还有新药物、新的生物学途径等等,这些知识在现有的人类数据里是找不到的。系统需要依靠自己的实验、自己的试错过程,以及自己获得的基于现实的反馈,来判断一个新的想法到底是好是坏。
关于合成数据,合成数据可以涵盖很多东西,但通常指的是利用现有的大语言模型来生成更多的数据集。这里的关键论点,和我们讨论人类数据时遇到的局限性是相似的:无论这种合成数据做得多么好,它最终也会达到一个瓶颈,到那时,这些合成数据对于帮助系统进一步提升能力将不再有效。
因此,一个自学习系统的精妙之处在于,它的“燃料”是真实的经验。当系统能力变强时,它就会自然遇到与其当前水平相匹配的新挑战。这样,系统就能持续不断地生成新的经验,用以解决它面临的下一个问题。通过这种方式,它可以永无止境地变得越来越强,理论上没有极限。正是这一点,使得这种利用自我生成经验的方法,与依赖其他形式合成数据的方法有着本质的区别。
关于反馈来源,最理想的情况是像 AlphaZero 那样:系统能够生成海量的自我经验数据,并能自我验证这些经验。这在许多领域是可行的,但在另一些领域则不然。在那些不可行的领域,我们必须承认人类是环境的重要组成部分,也是我们希望 AI Agent 生存的世界的一部分。因此,将人类视为环境的一部分,并将他们的行为视为 AI Agent 接收到的观察信息,似乎是合理的。但我反对并称之为不“扎根”的,并非上述观点。关键在于,当 AI Agent 学习所依赖的奖励来自于人类对某一行为序列好坏的主观判断时,系统并未根据这些行为在真实世界中的实际后果来自行评估。我们不应让人类数据在 AI Agent 的经验中占据特权地位;它仅仅是众多世界观察数据中的一种,AI Agent 应该能像学习其他任何数据一样从中学习。
05
AI在抽象推理领域超越人类的潜力
主持人提问:您能谈谈 AI 在数学领域的进展吗?特别是 AlphaProof 系统是如何通过经验学习来证明数学问题的?它是否使用了人类已知的定理或证明作为输入?判定证明成功的机制是否类似于 AlphaGo 判定胜负?AlphaProof 目前的水平如何(例如在国际数学奥林匹克竞赛中的表现)?它生成的证明与人类思路有何不同,人类能否理解?如果 AI 解决了像黎曼猜想这样的重大难题,但人类无法理解其证明过程,这还有价值吗?您认为 AI 未来有可能解决克雷研究所悬赏的数学难题吗?
David Silver 实录:数学确实是一项凝聚了数千年人类智慧的伟大事业,代表了人类心智成就的极限。因此,我们自然会探索 AI 是否能达到人类经过长期努力所企及的同等高度。我们最近完成了一项激动人心的工作,名为 AlphaProof。这个系统能通过经验学习来正确证明数学问题。给它一个定理,不提供任何证明思路,它能自行探索并找出一个完美的证明。并且,我们可以严格验证并确保这个证明的正确性。有趣的是,这与 大语言模型的常规工作方式正好相反。目前让 LLM 证明数学问题,它们常输出非形式化的论述,并声称“这是对的”。这或许正确,但也可能错误,因为 LLM 倾向于产生幻觉、编造内容。AlphaProof 的优势在于,它能保证产生真实无误的结果。
关于训练数据,AlphaProof 的训练并非针对单一问题,而是学习了数百万个不同的定理范例。起初,它无法解决绝大多数问题,可能 99.999% 的定理都束手无策。我们输入了约一百万个人类提出的定理,但不提供人类的证明过程。只给问题,不给答案。有时我们甚至不确定其真伪。我们实际做的是,将人类提出的定理或问题转化为一种形式化语言。我们确实使用了小型的 大语言模型来辅助生成编程语言代码。具体来说,我们使用一种名为 Lean 的编程语言,它被设计用来精确表达所有数学概念。数学家们提出了一个卓越的想法:将我们通常用自然语言讨论的概念形式化,转换为完全清晰、可被计算机验证的数学语言。这种语言能表达全部数学思想及其证明逻辑。例如,你可以陈述:若 A 蕴含 B 且 B 蕴含 C,则存在逻辑推导可得 A 蕴含 C。在 Lean 这样的数学编程语言中,你本质上是编写一个执行逻辑转换的程序,从已知前提推导出结论,从而获得该陈述的严格证明。我们拿那约一百万个人类数学问题,生成了一亿个形式化问题表述。其中部分可能无法证明、表述错误或本身就是伪命题。但这没关系,核心是学习如何证明。对暂时无法证明的,持续尝试;对已成功证明或证伪的,则放到一边。最终剩下的是那些极难证明的硬骨头。我们就这样逐步攀升,从解决少数难题到解决成百上千万个问题。
关于奖励机制,完全等同(于AlphaGo判定胜负)。我们利用 Lean 系统给出的“证明成功”判定作为奖励信号。成功则奖励 +1 分,失败则为 -1 分。通过这种强化学习机制,系统在证明数学陈述方面的能力不断提升。事实上,我们使用的代码库,与当年训练 AlphaZero 精通围棋、国际象棋等游戏的代码是完全一样的。只是这次,它运行的是“数学”这个“游戏”。
关于AlphaProof水平,它目前尚未超越人类顶尖数学家,尽管这是我们的长远目标。但 AlphaProof 已取得显著成就:在国际数学奥林匹克竞赛中达到银牌水平。IMO 是全球最顶尖、最具挑战性的中学生数学竞赛,汇聚了各国最优秀的年轻人才,题目难度极高。AlphaProof 能达到银牌水平,这通常只有约 10% 的顶尖人类选手能做到。是的,全球顶尖选手中的 10%。这代表了年轻数学家中的精英。不仅如此,竞赛中有一道极难的题目,所有人类参赛者中解出者不足 1%。AlphaProof 对这道题给出了完美的证明。看到这个结果令人鼓舞。
关于证明形式,坦白说,这些证明对我而言完全无法理解。但 Tim Gowers,那位菲尔兹奖章得主、前 IMO 金牌得主,他可是位非凡的数学家。Tim Gowers 确实评审了我们的解题方案,确认其有效性且符合规则。他能理解这些证明,并认为这相较于以往的 AI 数学能力是巨大的飞跃。所以,这是一个重要进步,但也仅是开始。我们真正的目标是超越人类数学家,这是下一步的方向。可以理解为,目前我们基本上拥有了一个天赋异禀的 17 岁数学家。并且需要指出,参加 IMO 的 AlphaProof 系统所用时间超过了人类选手的规定时限。我们预期随着计算硬件的发展,未来速度会提升,时间问题将得到改善。
关于 Lean 的一个好消息是,优秀的数学家总能将 Lean 写成的形式化证明翻译回人类能理解的自然语言论述。我们甚至开发了 AI 系统来辅助这项“非形式化”工作,将机器证明转换为人类易懂的表达。如果我们真的解决了黎曼猜想(当然我们离此还很遥远),相信会有数百万数学家对此无比兴奋,渴望理解其中蕴含的全新数学思想,并努力将其解码为人类可以学习和掌握的知识。
关于未来潜力,我确实这样认为(AI有可能解决下一个悬赏难题)。这可能需要时间。我们尚未达到那个阶段。AI 系统要具备这种能力还有很长的路要走。不过,AI 正朝着正确的方向发展,像 AlphaProof 这样的系统会变得愈发强大。我们在国际数学奥林匹克竞赛上所见证的,仅仅是个开端。一旦拥有一个能够规模化扩展 并持续学习的系统,其潜力将是无限的。那么这些系统在两年、五年或二十年后会是什么样子呢?如果 AI 数学家未能彻底改变整个数学领域,我个人会感到非常惊讶。我相信这一天即将到来。数学是少数几个原则上一切皆可由机器通过自我交互以纯数字化方式完成的领域之一,且这个过程能持续进行。因此,一个由经验驱动的 AI 系统要精通数学,并无根本性障碍。
06
面对复杂目标,AI需学会自适应优化多重指标
主持人提问:这些基于经验学习(如强化学习)的理念,在 AlphaGo 和 AlphaProof 中有明确的成功标准(赢棋/证明正确),但如何应用于目标更模糊、衡量标准不清晰的复杂现实系统?例如,如何将“更健康”这样的人类目标转化为 AI 可优化的奖励信号?是优化单一指标还是一个动态调整的指标组合?如何确保所选指标本身不会引发意想不到的负面后果(即 AI 对齐问题),例如著名的“回形针最大化”思想实验?过度依赖量化指标(如 GDP、考试分数)本身是否存在固有风险(所谓的“指标暴政”)?当前 AI 缺乏长期、持续学习和适应能力(交互是短暂、孤立的),这是否是问题的关键所在?
David Silver 实录:首先我必须承认,您这个问题或许点明了为何强化学习方法,或我所说的这类基于经验的方法,至今未能成为所有 AI 系统应用中的绝对主流。因此,若要迎来‘经验时代’,这个问题必须解决,我们得找到答案。
但我认为答案或许就在眼前。因为现实世界其实充满了无数信号。世界运行的方式本身就蕴含着海量信号。例如我们在互联网上的所有活动,就伴随着各种信号:点赞与否、盈利亏损、感受到的愉悦或痛苦、产量、材料属性等等。所有这些不同的数字,都代表着经验中不同方面的事物。因此,我们真正需要的是构建一种能自我调整的系统,它能判断在特定情境下,究竟哪个要素是优化的关键。换言之,如果我们能构建这样一种系统:人类指定目标,系统自动将其转化为一系列数字指标,然后完全自主地优化这些指标,这岂不极好?
关于模糊目标,完全正确(可以将模糊目标转化为指标)。大致思路是:首先有一个人类的总体目标,例如‘优化我的健康状况’。然后系统可以自行学习,明确哪些具体的奖励信号有助于提升健康。所以最终可能形成一个由多个数字构成、并随时间动态调整的组合。例如,系统最初可能判断:‘目前静息心率最关键’。但随后可能收到反馈:‘等等,我不只关心这个,还关心焦虑程度等’。然后系统会将新考量纳入指标组合,并据此反馈进行调整。所以说,只需少量人类数据,系统就能为自身生成目标,进而从海量经验中学习。
关于对齐问题,方法之一是借鉴 AI 其他领域已证明行之有效的方案:在目标设定层面引入人类输入。若优化的终究是人类目标,我们很可能需要在该层面进行评估,例如依靠人类反馈:‘我感觉不舒服了’。当然,我不敢断言我们已找到所有答案(仍需大量研究来确保方向正确及系统安全)但这种基于经验和反馈的适应方法,确实可能在某种程度上提升安全性和适应性。
有个著名的思想实验:若要求一个 AI 系统制造尽可能多的回形针,它最终可能为了达成目标而将整个世界铺满回形针。但若有一个系统,其根本目标是提升人类福祉,且能接收人类反馈、理解其痛苦或快乐等信号,那么一旦它制造过多回形针引发人类痛苦,系统便会调整其优化的指标组合,选择不同组合,转而优化那些不会导致‘世界被回形针淹没’的目标。当然,我们目前尚未达到这个水平。但我认为,此类基于经验和反馈适应的系统,其某些版本最终不仅有望解决以往目标导向系统面临的对齐问题,甚至可能比现有系统适应性更强、因而更安全。
关于“指标暴政”我完全同意,在现实世界中盲目追求单一指标,常导致意想不到的负面后果。但同时,人类所有的奋斗本身就是围绕优化某些目标展开的。若无任何可优化的目标,我们根本无法进步。我们依靠各种信号、指标等推动发展。当然,之后人们可能意识到某指标不合适,进而调整它。
关于持续学习,当前的 AI 确实不具备类似生命体的特征。它们不像动植物或人类,拥有持续多年、连贯的经验流,并能在此过程中不断适应。这种情况需要改变。改变的原因之一,是为了能拥有这样的系统:它们能随时间推移持续学习、适应,并最终理解如何更好地实现我们真正期望的结果。
07
人类数据如同化石燃料,经验是通往AGI的可持续‘燃料’
主持人提问:让潜力巨大的算法摆脱对人类数据的依赖,是否存在相当大的风险?您之前提出的“奖励就足够了”的核心观点——即强化学习足以引向 AGI,现在是否依然成立?
David Silver 实录:这其中自然既有风险,也有益处。我们必须极其严肃地对待这个问题,在迈向‘经验时代’的征途中,对未来的每一步都须格外谨慎。我撰写这篇立场文件的原因之一,在于我感到人们尚未认识到这一转变(从依赖人类数据到依赖经验学习)即将来临,它将带来深远影响,且需要我们审慎思考诸多相关决策。现实是,许多人仍只关注基于人类数据的路径,这意味着这类(由经验学习引发的)问题并未得到足够重视。
关于“奖励足够论”,我想可以这样回答:人类数据或许给了我们先发优势。打个比方,如同我们在地球上发现的化石燃料。所有这些人类数据本就存在。然后我们在大语言模型中‘开采’并‘燃烧’这些数据,使其轻易获得了一定性能。但在此比喻中,当化石燃料耗尽后,我们需要某种可持续燃料来维持世界运转。我认为强化学习便是这种可持续燃料。其所依赖的‘经验’,可以不断生成、利用、学习,再生成、再学习。这才是真正驱动 AI 向前发展的核心动力。我绝非要贬低基于人类数据取得的成就。这些成就非常了不起。我们现有的 AI 令人惊叹,成就斐然。我个人很喜欢它们,也乐于与之共事并进行研究。但这,仅仅是开始。
关于本期访谈
访谈发布时间:2025年4月10日
来源:人工智能学家