蚂蚁武威:下一代「推理」模型范式大猜想

360影视 欧美动漫 2025-05-14 00:20 1

摘要:R1 之后,长思维链成为研究下一代基础模型中 “推理”(Reasoning)能力的热门方向。一方面,R1 证明了大模型深度思考的可行性;与此同时,尽管 R1 展现出了强大的性能,大模型推理的序幕实则才刚刚拉开。

长思维链是深度思考的一种实现,但未必是最理想的。

作者丨陈彩娴

R1 之后,长思维链成为研究下一代基础模型中 “推理”(Reasoning)能力的热门方向。一方面,R1 证明了大模型深度思考的可行性;与此同时,尽管 R1 展现出了强大的性能,大模型推理的序幕实则才刚刚拉开。

此外,R1 在海外掀桌也给国内人工智能的研究带来一个显著影响,即:越来越多的研究者敢于站在更高视角思考,提出前瞻引领的技术思想。蚂蚁技术研究院自然语言处理负责人武威对推理的思考就是其中一个典型。

武威的本科与博士均毕业于北京大学数学科学学院。2011 年获微软学者后,他于 2012 年加入微软亚洲研究院,历任主管研究员、微软小冰首席科学家。加入蚂蚁前,他还曾任美团 NLP 中心负责人。

针对模型的推理,武威从数学出发,提出了许多与目前业内主流不同的声音。

事实上,早在 OpenAI 发布 o1 之前的 2023 年下半年,武威与团队就已开始研究大模型的推理问题。武威指出,R1 的实现结果是令人兴奋的,但同时他评价,长思维链推理未必最优,“因为这样的模型维度太高、能量太高,以致表现不太稳定。”

实际上,物理与化学中的大量现象均表明,能量最小的结构才最稳定。因此,武威猜想,未来的推理模型可能是更低维、更稳定的人工智能系统。如果说长思维链是系统 2,一些研究则显示,在人的日常思考中,占主导的往往是消耗更低的系统 1。

此外,当前的主流推理模型都出现推理结果正确、但推理过程出错的现象。在长思维链的实现中,纠错的成本也随之增加。同样以数学为例,武威指出:当推理模型发展到最后,思考过程或许比结果更重要;相比解决一个问题,模型在思考中发现新知识(如经典数学问题的新证法)是更有价值的——由此可见,深度思考还有很大的潜力。

如何设计一个能够将系统 1 与系统 2、或快思考与慢思考高效结合的推理模型,成为大模型的下一个重要方向。而武威认为,从数学的角度出发,用一个优雅的数学模型去刻画人工智能的思维方式或许是终极解法;亦或者,自洽是所有推理系统的最终归宿。

以下是 AI 科技评论与武威的对话:

1 什么是「推理」?

AI 科技评论:现在圈内对于「推理」有各种各样的定义,还有的观点将 Reasoning 与 Inference 相混淆。

武威:对。根据我自己看的文献,「推理」的定义最早能够追溯到 2011 年。那一年,机器学习大佬 Leon Bottou 写了一篇文章,叫「From Machine Learning to Machine Reasoning」。当时业内对「Reasoning」还没有一个清晰的定义,Leon Bottou 就在这篇文章说,他认为「Reasoning」(推理)是「代数地操作已有的知识去解决新的问题」。

论文链接:https://arxiv.org/pdf/1102.1808

那什么叫「Reasoning System」(推理系统)呢?Leon Bottou 认为,推理系统应该包含两点:一是包含一个函数的代数空间,二是任何一个问题都能对应到这个代数空间中的一个函数组合。——我当时看到这个观点,就觉得跟 Marvin Minsky 在上世纪 80 年代的一本书《Society of Mind》(心智社会)中对「智能」的观点是非常吻合的。

什么是真正的智能?Minsky 认为,人的意识应该是由非常多的小的过程(smaller processes)组成的,他管这些叫「Agent」(智能体)。这些Agent能够解决非常简单的问题,而且几乎不消耗能量。当遇到复杂问题时,这些Agent一部分会被激活,并且会以一种方式组合在一起——这时候真正的智能就诞生了。

今天再看,Minsky 在上世纪 80 年代提出的观点可能有点过于经验性,但同时我又觉得非常有道理,因为它非常符合人的直觉。而 Bottou 的文章是用形式化的语言进行了解释。Bottou 所提到的这个函数的代数空间,你可以认为是这些智能体的一个集合;而这个函数的代数组合,则是 Minsky 所说的智能体之间的连接或组合。

接着,Leon Bottou 又在文章里提出了一个有趣的猜想。他说,现在有各种各样的推理系统,包括概率推理、逻辑推理、因果推理等等,那么最终的推理系统会是什么样的呢?

他认为有两种可能:一种可能是出现一个绝对强的(推理)模型,把这些小的(推理)模型都干掉,而且这个超强模型是能够扩展、能够计算的,计算成本也是大家能负担得起的;另一种可能是,不同的推理模型互不干涉、各干各的,因果推理做因果推理,概率推理做概率推理,逻辑推理做逻辑推理等等。

今天来看,其实 Bottou 的第一种预言被验证了,这个超强的模型就是「大模型」。但即使大模型出现了,「推理」这件事也仍然是模糊的,而如果让我给一个定义,那么我觉得,推理是指:用逻辑组合知识解决新问题的过程

AI 科技评论:R1 有「推理」的雏形吗?

武威:有,因为假设你让它去解决数学题,第一它有知识,它会说这个问题应该用 XX 定理去解;然后它会说,解决这个问题应该怎么做、中间的步骤是什么。这其实就是将数学知识以一种逻辑整合在一起解决问题

如果将模型应用到其它方向上,不再是解决数学问题,而是变成旅游规划,那么模型就要对旅游目的地的人文、地理、美食等知识有所了解,最后将这些知识以合理的逻辑组合在一起,生成一个旅游方案。

如果没有足够的知识,或者正确的逻辑,那就会出错:比如我跟大模型说要去西北旅游三天,模型输出结果告诉我,第一天上午在乌鲁木齐、一个小时后就跑到西安,那就不是正确的「推理」了。所以我说,推理是要用逻辑将知识合理地组织在一起,「知识」与「逻辑」缺一不可。

AI 科技评论:是不是 R1 出来后,您才看到「推理」范式有所诠释?

武威:我觉得 R1 提供了一种「推理」的可扩展的实现方式,这很了不起。但我同时觉得,长思维链的「推理」并不一定时最优的,原因在于能量太高、维度太高。

物理与化学都是追求「最小能量」,因为能量最小的时候、结构最稳定。在化学中,势能最低时、结构最稳定;在热力学中,自由能最低的时候、系统才稳定。

但在长思维链的推理中,本质上是每一个 token 的预测对应词库上的一个分布,当你有 1 万个 token 时、其实就是 1 万维,1 万乘以这个词库维度的向量是非常大的、非常高维的,与之相随的就是系统不稳定。现在的推理模型实际上在训练过程中也很不稳定。

所以我觉得,未来在推理模型上应该有一个更低维、更稳定的系统出现。现在的长思维链推理都太高维、能量也太高,只要用自回归的方式做长推理都会面临这个问题。

AI 科技评论:那现在除了自回归,还有其它的技术路线去实现模型的推理吗?

武威:现在大家也在探索。把你的问题绕开一点,首先现在大家又回到了已有的「范式」:当「好」出现之后必然会走向「快」和「省」,所以现在研究推理的人在做「高效推理」。但我觉得,「高效推理」也并不是一个本质的、系统性的解法。

我认为真正系统性的解答,应该是想办法用一个模型把「推理」的能量降下来。不管是在强化学习里加长度的约束,或者进行混合长度微调,我都觉得不算太优雅,不是最终解决方案,因为你最终的范式还是在一个大空间里面去搜索。

o1 是一种相对新的「推理」范式,但步子迈得没有那么大,本质上还是自回归生成、token by token。只是做得足够长了,发现在更长的文本中好像模型能够去反思、模型效果会变好,但其实还是预测下一个 token。这就牵引出另外一个问题:预测下一个 token 会是推理的有效解吗?

我觉得它可以作为一个解法,但不一定是那个最好的解法。用数学的话说就是,梯度确实是在下降,但还没有下降到局部极小

2 「推理」为什么重要?

AI 科技评论:您在人工智能领域做了这么多年的研究,您的研究世界观是怎样的?

武威:简单来说就是 8个字: “多快好省, 双商齐备”(智商与情商)。

“多快好省”原是零售里的说法。在零售中,“多”指“品类多”,能在网上买到各种各样的商品;但在研究中,我们希望的“多”,至少包括两块:

一是模型的任务范围要广,解决尽量多的任务。这很重要,比如现在的大模型推理,大家将其聚焦在数学与代码上,就不够多,世界上其实很多问题都需要深度思考才能解决;

二是模型处理的信息要足够多。ChatGPT 刚出来时,上下文长度大约是 4k,到今天 GPT-4.1 发布时,上下文已经达到 100 万,看起来模型能处理的信息已经很多了,但实际上还不够多,因为未来我们或许希望人工智能系统能够处理 Lifelong Memory(终生记忆),能“记住”它在这个世界上经历的所有事情与信息。

第二个“快”,在零售中“快”体现为“送得快”,而在人工智能中的“快”,我觉得是“响应要快”。这在今天也是一个共识,现在各家都希望自己的大模型能响应地越来越快。“好”与“省”就是模型效果要好、同时要便宜,这也是大家所追求的。

事实上,人工智能的整个发展历史就是在不断地重复这样一个“多快好省”的故事。2018 年 BERT 出圈是凭借效果“好”、任务“多”,接着圈内大家基于 BERT 往两个方向发展:一是追求更大的模型(如 GPT-3),从结果上看是效果更好,任务更多(生成也能做),二是追求模型的轻量化(即“快”与“省”)。

先是“多”与“好”,接着走向“快”与“省”。当“多快好省”这四个字都达到了一个边际效益很低的水平时,整个人工智能领域在干什么呢?在准备下一轮的突破。

2022 年,大家觉得 BERT 的“多快好省”已经达到一个瓶颈时,ChatGPT 出来了,也是先“多”(什么都能做)与“好”(解决一些原本做得不太好的任务,比如长文本生成)。到今天,大模型的追求又变成了要越来越快、越来越省。比如 GPT-4 刚出来时,响应是一个字一个字地蹦,后来变得越来越丝滑、流畅。

所以我觉得,无论是需求侧(用户)、还是供给侧(研发人员),大家对人工智能的“多快好省”追求都是永恒的。 “多快好省”是基础, “智商”与“情商”是上层能力。模型能力不强的时候,大家很少讨论智商、情商,但现在谈得越来越多,解读也有很多。

在我看来,我想追求的“智商”是:用逻辑组合知识,去解决实际问题。这当中有两个非常重要的概念,一是知识,二是逻辑,而且要有机地组合在一起。智商的一个外延体现就是 Reasoning(推理)。

情商这块,我们希望人工智能系统可以理解人的情绪、人的心理状态等,在与人交互的过程中能够共情。这很重要,因为现在的大模型都是大应用、都要跟人交互。我们希望沿着这 8 个字的大方向去做一些对行业和社区有价值的研究。

AI 科技评论:沿着这个大方向,你们目前有哪些有趣的研究?

武威:比如“多”,我们一个聚焦的点是长上下文,不仅包括文本、还有多模态。实际上,多模态比文本更需要长上下文,一条几分钟的视频就可能产生超过百万的视觉 token。我们刚开源了一个叫 ViLAMP 的 7B 长视频理解模型,单卡就能处理 3 小时视频,而且效果在目前的开源模型中也基本是 SOTA 的。

再比如“好”,我们很看重“推理”(Reasoning),因为推理让人工智能有希望把一些复杂问题解决好。“推理”是一个很模糊的概念。如果你去看不同的领域,会发现心理学、哲学、数学与计算机等不同领域对“推理”的定义是不一样的。而在我看来,“推理”是用逻辑组合知识的过程。在这个大框框下,我们先后做了知识推理智能体 AMOR,基于代码规划的推理范式 CodePlan,以及基于深度思考的问题合成方法 PromptCoT 等。

再比如“情商”,连数据都不太完善,因此今年我们也开源了一个包含 130 万条个性化对齐数据的数据集 AlignX,至少希望社区能先玩起来。总的来说,这块的研究还没有收敛,但我觉得“情商“”最终还是要走到模型对人类世界的理解,而这个理解也可以认为是某种程度上的 “推理”,只不过可能是对人类偏好或人类情绪的推理。今天大家把“推理”限定在了数学与代码上,最后大模型都变成了做题家与程序员,我觉得范围限制太死了,实际上大模型还可以是好的产品经理、销售、朋友,有非常大的潜力。所以我说,推理这件事很重要。

AI 科技评论:您入行 15 年,经历了许多重要的技术浪潮。您认为,为什么在现在这个时间点,推理显得更重要?

武威:我记得在 MSRA 的时候,大约是 2014 年,大家还讨论过为什么 NLP 叫“自然语言处理”。因为当时大家觉得,机器都还不能理解人类语言,更别提生成了。

那时深度学习开始兴起,NLP 也开始拥抱深度学习。2015 年,我参加 ACL,当时是 Christopher Manning 做了开幕式演讲。他当时形容,NLP 就像躲在战壕里的兔子,深度学习就像一把机关枪或大炮,正在瞄着这些兔子、准备把它们一扫而平(笑)。

后来发现,在深度学习的帮助下,机器对语言的理解能力好像还行,后来又发现竟然还能生成、创造。这是一件了不起的事。深度学习不仅在语言理解上展示了非常强大的潜力,更重要的是它让生成也变成了可能。

到 2018 年 BERT 出来,“预训练+微调”又是另一个技术浪潮,直接改变了整个 NLP 的运作范式,使 NLP 走向了大一统。2020 年 meena出来后,短文本生成已经做得很好了。ChatGPT 出来后,长本文生成被突破,这在之前的很长时间里是不可想象的。现在没有人单独研究长文本生成,因为被大模型研究囊括了。

所以总的来说,当我们在讲自然语言处理时,我们在问自然语言是否能理解;BERT 突破了理解后,我们又问自然语言是否能生成。从处理、理解到生成,是计算机逐渐掌握人类语言的过程。

经历了一波又一波大的发展之后,我就非常想看推理,因为我觉得现在生成也被突破后,下一步就是推理。推理涉及到要将知识进行组合,复杂度更高,也能解决更复杂的任务。

AI 科技评论:您是从什么时候开始思考推理这个问题的?

武威:2016年我们在讨论小冰未来的技术时就觉得推理很重要,因为小冰做不了推理,所以很多任务解决不了。

说实话,讨论推理在当时是非常超前的,因为那时候的 Chatbot 不仅做不了推理,也普遍受限于知识不强、无法进行深度交流。没有知识,生成也会受影响。

当时我们通过生成的方式创造回复,只是将海量数据里的语言组合在了一起,符合人类的语言表达习惯、但没有知识,效果甚至比不过检索模型。今天的大模型也会有幻觉,也会在知识上犯错,但出现的情况已经不多。

我在小冰的时候,能想到研究推理,但没有机会去做,这多少受限于当时的技术,无法以一种规模化的方式去推理。当时我们甚至也想不清楚什么叫“推理”。

现在我觉得相对清楚了。所以我们团队真正开始研究推理是在我加入蚂蚁之后。这也是源于我几年前未尽的夙愿吧。

3 「推理」的解法猜想

AI 科技评论:2024 年以来,您的一些研究也围绕推理提出了不同的声音。您认为 o1、R1 之后的下一步推理应该怎么发展?

武威:我刚才提到,大家都在做高效推理。但如果从快思考、慢思考的角度来看的话,这个话题其实也很有意思。

《思考,快与慢》这本书是从心理学的角度来解释一些问题,也比较经验、没有一些形式化的验证。但我们今天来看,OpenAI 的大模型有两个版本号,一个是数字系列(如 GPT-3、GPT-4),另一个是 o 系列(如 o1、o3),两个系列分别代表快思考与慢思考,就体现了从系统 1 到 系统 2 的演进。

大家对系统 1 与系统 2 的认知基本已经达到共识,系统 1 的特点就是快、自发、没有消耗,系统 2 是要把注意力分配给需要花费很大努力的行为与心理活动上。这是作者丹尼尔·卡尼曼认为的快与慢的区别。不过这本书里,我觉得更有趣的是,作者写了他认为快思考与慢思考如何协调的问题。

第一个观点是,书中提到,其实人在每日思考的过程中大部分时间都是系统 1 的快思考占主导

快思考会产生非常多且复杂的 idea pattern(观点模式),并将这些传递给系统 2。而大部分情况下,系统 2 不经思考就接受了、而不是每个 idea 都检查一遍。所以日常的思考大多是系统 1 的结果,系统 2 是懒惰的、只有在个别情况下才会去检查与思考。同时,系统 1 因为想得快,会有很多错误,而且还会为这个错误提供一些更深层次的洞见。

那为什么会有错误?就像今天大模型为什么会有幻觉?我觉得可以作为对大模型幻觉的一个解释。说白了还是能量最低,因为系统 1 要追求“认知的简便”(Cognitive Ease)——当我把这些信息跟我的认知整合在一起时,通顺、自洽就可以了,至于有没有错,系统 1 是不在乎的。

这是系统 1 喜欢干的事情,这么干确实消耗低。然后这些错误又因为系统 2 比较懒、不怎么查,所以导致这些结果被固化了下来。最后这类错误积累越来越多。这种错误的根源在于认知上的懒惰或简便,很难避免,但很有意思的点是,作者说:那你又避免不了错误,人怎么办好呢?他说,最好的办法是尽可能地发现什么情况下容易出错,然后对这些高风险情况尽量多思考。

最终,作者也没有就如何发现高风险情况提出解法。他认为,许多情况下,人最后就是变成了活在一个自洽的世界里,哪怕有错误、但只要自洽就好。

回到大模型。如果援引丹尼尔·卡尼曼的说法,大模型应该能将长推理与短推理结合在一起,合在一起可能是一个模型,也可能是两个模型,关键在于两个模型、或两个系统怎么调度。目前行业里也还没有特别优雅的方式,比较优雅的方式应该是自动分配两种模式。

AI 科技评论:您提到了核心问题,就是系统 1 与系统 2 怎么结合起来?单一的 Transformer 架构可以实现吗?这块似乎也还没有共识。

武威:我认为是还没有一个很好的模型、或者没有一个很好的 Equation(公式)来解决这个问题,所以大家都还在做一些尝试。比如把长思维链和短思维链的数据混合在一起做 SFT,这可能是一种解决方案。或者在强化学习上做长度的 Reward(奖励)。

但是,它们都还没有一个模型去刻画快思考与慢思考,或者说系统 1 与系统 2 之间的协作。

我觉得归根结底还是要有一个模型、最好是一个数学模型去刻画人工智能的思维方式。我的猜想是,这个模型很可能是在低维空间上的一个模型,通过将能量最低进行优化来实现。

AI 科技评论:那接下来,您计划从哪些角度进一步研究模型的推理问题?

武威:除了自回归以外,我们也看先规划、再推理这样的层次化结构。

比如,要做一个用户调研的方案,这个任务交给你之后,你是马上就拿起笔来开写吗?不是的,正常情况下是脑海中先有一份草稿,有一个抽象的规划,然后再去实现每个步骤。——你可以认为,这个抽象的规划就是整个推理过程中的一个低维表示,在这个低维下我再说我怎么把它展开变成一个高维的执行。这也是一种推理范式。

其实 Yann LeCun 每次采访都在说,规划与推理很重要。但同时,他又说,他觉得现在的推理模型好像不太对、因为太简单了。至于什么样的推理模型是对的,LeCun 也没说。

AI 科技评论:刚刚提到系统 1 与系统 2。业内也有一种讨论,即我们在设计模型时是否一定要模仿人脑?

武威:说实话,我觉得机器不一定要像人一样思考。这个问题其实也困扰了我很久,就是我们到底应不应该按照人脑的方式去设计人工智能的模型。举个例子,计算机能很快计算出 π 的值,但人脑就不行。

比如《思考,快与慢》这本书中,有大段对人的思维方式的描述,但这些描述就一定是对的吗?大家确实可以通过一些事实去印证书中的说法,但还是这个问题:你不能说第 1 个 case 是对的,第 2 个、第 3 个、第 4 个……到第 100 个也都是对的,第 101 个 case 就一定正确。

这在数学上是不成立的,数学不允许这种情况出现。如果有例外,数学就一定要有一个条件去约束、将这个例外抹掉。换句话说,不完全归纳法是不对的。

所以我想来想去,最后我的观点是,不管人工智能系统到底应不应该像人,我只要想办法去接近这个目标就好了。这个目标就是我刚才说的 8个字:多快好省,双商齐备。

AI 科技评论:现在的推理还有一个问题,就是有研究发现,o1、R1 与 Gemini 等模型在做推理时,更重视结果的正确率,中间的推理过程可能是错的。

武威:关于这个现象,我有两个观点。第一个观点是:我认为长思维链是以一种相对笨拙的方式实现了深度思考。当然,它非常有意义,因为它起码给出了一个实现,即使这个实现是高能耗的。我们不能天天空谈深度思考、却没有任何实现。

第二个观点是,当模型的能力发展到最后,思考的过程可能比结果更重要。因为我们回到数学来看,其实很多数学问题已经有结果了,只是有些结果被证实了、有些没被证实。

比如费马定理,最早叫费马猜想,它的结果早就有了,就是当整数 n>2 时,方程 x 的 n 次方加 y 的 n 次方等于 z 的 n 次方没有正整数解。黎曼猜想也是,早就有结果了,重要的是:你怎么得到从这个假设到这个结论的整个求解过程。从数学的角度看,推理过程是非常重要的。

所以 Andrew Wiles 的巨大贡献,一方面是他证明了费马猜想,将费马猜想变成费马定理;更重要的是,在这个证明过程中,数学的许多新兴方向诞生,比如椭圆曲线、代数几何等等,这对数学界是巨大的贡献。

在我看来,推理是利用逻辑对知识进行有机组合。如果我们在不同的问题上都能给出各种各样的知识组合,那么会不会有一些知识组合是人类未曾触碰到的、对人类文明进步有非常大启发的呢?如果有,那么产生这些组合的价值远比你解决一个问题还要大,因为你会创造出新的知识来。

从这个角度看,其实深度思考的巨大价值与潜力还没有被挖掘出来。推理的结果很重要,但我更重视当中的思考过程。现在 R1 已经给我们提供了一个高维的实现,我们应该在 R1 的基础上去做更大胆的迭代。

AI 科技评论:R1 出来后,有改变您对推理的看法吗?您对推理的研究有更兴奋吗?

武威:我觉得还是很令人振奋的,因为R1 让我们看到了深度思考的一种规模化实现,不过R1本质上仍然是自回归,我觉得这里面空间还是很大的。

我觉得应该有一个通用的模型,但我也不知道这个模型长什么样子。所以 2023 年我们刚开始研究推理的时候,是先研究 Agent。

为什么是先研究 Agent 呢?就是因为我不知道通用的怎么做,没办法,只能先做一个特殊的 Knowledge Agent(知识智能体),看能不能扩展。我们把一个任务拆成一个个模块,然后再把这些模块用人工设计的逻辑串在一起。

就好像我们在解一道数学题的时候,你不会解,怎么办呢?就先找一些具体的 case,加一些条件。比如一个泛函问题,你先把它变成二维空间,二维空间能证明、再看三维空间能不能证明;当二维、三维都证明之后,再看中间有没有共性、能不能拓展到高维。

R1 令人惊艳的地方是直接就到高维了。我觉得更令人兴奋的地方在于通过深度思考来创造新的知识,那这一点 R1 还达不到,因为还没有办法保证思考过程是对的。我们也还没有办法保证我们的推理过程一定是对的,但我觉得这是一个很重要的问题。

后来我们又探索了 CodePlan,希望用代码实现先规划、后推理。只是我们当时做完后,受限于一些资源问题,没有办法验证它的效果是最好的。今年年初 DeepSeek 团队有一个工作,也是先用代码做规划,不同的是他们后来又将代码变成了自然语言。我猜测可能是因为纯代码的效果不太好。

最近我们又研发了 PromptCoT,尝试将深度思考用到问题合成上,也看到了非常惊艳的效果。一个 7B 小模型就可以和 32B 模型比肩。最重要的是,这个工作让我们看到了深度思考 for 其它任务的可能性。

其实大家都在想,到底下一代推理模型应该是什么样的,同时又希望追求智能极限。这两个目标都很难,特别是对企业来说。在企业里,你不太可能说,你有一个非常大的目标、要投入多少资金,还不能确定这个目标能不能达到,这是一个现实问题。理性来说,我们需要更多的 case 去支撑继续探索的信念。

来源:AI科技评论一点号

相关推荐