杨立昆:中国人并不需要我们,他们自己就能想出非常好的点子

360影视 欧美动漫 2025-06-03 17:21 2

摘要:在这个 AI 技术浪潮席卷全球,几乎人人都在谈论大语言模型潜能无限的时代,一个根本性的问题摆在我们面前:既然 AI “读完”了整个互联网,为何仍未诞生下一个爱因斯坦?在原创性的科学发现上,这些大模型为什么仍如此“笨拙”?它们真的“理解”我们这个复杂而充满规律的

本文来源:信息化协同创新专委会

在这个 AI 技术浪潮席卷全球,几乎人人都在谈论大语言模型潜能无限的时代,一个根本性的问题摆在我们面前:既然 AI “读完”了整个互联网,为何仍未诞生下一个爱因斯坦?在原创性的科学发现上,这些大模型为什么仍如此“笨拙”?它们真的“理解”我们这个复杂而充满规律的物理世界吗?还是仅仅在进行一场规模空前的模式匹配游戏?

如果你也曾对这些问题感到困惑,那么图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)的这场深度对话,或许能为你拨开迷雾,提供一个清醒而富有洞察力的视角。本文编译自 YouTube 频道 Big Technology Podcast 的精彩访谈,杨立昆此次并非简单地唱衰当前 AI 的成就,而是以一位资深研究者的严谨和一位前瞻思想家的锐利,直指当前主流大模型(LLM)的“天花板”。

他深入剖析了为何仅靠“记住”海量文本不足以催生真正的智能,为何当前的AI架构难以进行真正的抽象思考、推理和规划——这些恰恰是科学发现与理解物理世界的基石。对话中,你会听到他对“AI 能否提出好问题”这一核心议题的精辟分析,以及他对当前 AI 在推理能力上的局限性的不留情面的批判。

而对于当前全世界关注的「开源与闭源之争」,杨立昆则是引用了 DeepSeek 的例子,强调“没有人能垄断好点子”,“开源世界会发展的更快”。以下是杨立昆本次对话的金句提炼:

“DeepSeek 的例子表明,中国人并不需要我们。他们自己就能想出非常好的点子。我们都知道中国有非常非常优秀的科学家,但有一件事不太为人所知,那就是整个科学界被引用次数最多的单篇论文是 2015 年的一篇关于深度学习的论文,它来自北京。”“我们不是用语言思考,我们是用对情境的心理表征(mental representations)来思考的。我们对思考的每件事都有心智模型。就算我们不会说话,我们也能思考。这才是真正智能所在。”“大语言模型非常擅长检索。它们不擅长解决新问题,为新问题找到新方案。它们能检索到已有的解决方案,但它们绝对不擅长提出正确的问题。”“我们不可能单靠扩大语言模型的规模就达到人类水平的 AI。这绝对不可能。不管你从我那些比较激进的同事那里听到什么,未来两年内这事儿绝对不会发生。恕我直言,门儿都没有。”“四年里,一个孩子通过视觉或触觉接触到的数据量,和最大的大语言模型看到的一样多。这清楚地告诉你,我们不可能仅通过文本训练就达到人类水平的 AI。文本的信息量根本不够丰富。”

以下是对话全文,经 CSDN AI 科技大本营精编处理:

可以期待 AI,但不能期待目前的大语言模型

主持人:生成式 AI 几乎“吃”遍了全世界的知识,为什么它自己捣鼓不出什么科学新发现呢?它是不是终于开始理解我们这个物理世界了?今天我们就和 Meta 的首席AI科学家、图灵奖得主杨立昆(Yann LeCun)聊聊这些。

我们从一个关于科学发现的问题开始吧,为什么 AI 直到现在都没能在这方面有所突破?生成式 AI 差不多把人类所有的知识都记住了,但它却没能建立任何新的联系,从而带来新发现。要知道,如果一个一般聪明的人记了这么多东西,他们可能会注意到,“哦,这个东西会导致这个症状,那个东西会导致那个症状,说不定这里面藏着什么治疗方法呢。”

那么,我们是不是也应该期待 AI 能做到这些呢?

杨立昆:期待 AI?可以。期待目前的大语言模型?不行。

AI 架构有好几种类型。我们谈论 AI 的时候,脑子里想的往往是聊天机器人。大模型是基于海量的纯文本知识训练出来的。它们被训练来复述、检索信息,本质上是根据训练文本的统计规律来生成答案。它们能做的事情确实很了不起,非常有用,这点毋庸置疑。我们也知道它们会“一本正经地胡说八道”,编造不实信息,但最纯粹的大语言模型,是无法创造新事物的。

主持人:我想提一下 Hugging Face 的首席科学官汤姆·沃尔夫(Tom Wolf)上周在领英上分享的一个观点,我知道你也参与了相关讨论,非常有意思。

他说:“要想在数据中心里造出一个爱因斯坦,我们不仅需要一个知道所有答案的系统,更需要一个能问出别人没想过或不敢问的问题的系统,一个能在所有文献、教科书、专家和常识都指向一个方向时,却写下 ‘万一大家在这事上都搞错了呢?’ 的系统。” 我们有可能教会大语言模型做这些吗?

杨立昆:不行,以它们目前的形式是做不到的。任何能够做到这一点的 AI 形式,都不会是大语言模型。它们可能会把大语言模型作为其中一个组件。大语言模型擅长生成文本。所以,在未来的人工智能系统中,我们可能会用它们把抽象的想法转换成语言。在人脑中,这部分工作是由一小块叫做韦尼克区(Wernicke's area)的脑区负责的,大概就这么大。但我们不是用语言思考,我们是用对情境的心理表征(mental representations)来思考的。

我们对思考的每件事都有心智模型。就算我们不会说话,我们也能思考。这才是真正智能所在。这部分我们还没能复制出来,大语言模型肯定不行。

所以问题是,我们最终会不会拥有不仅能回答已有问题,还能为我们指定的问题提供新解决方案的 AI 架构、AI 系统?答案是肯定的,最终会的,但不是用目前的大语言模型。然后下一个问题是,它们能提出自己的问题,比如判断哪些是值得回答的好问题吗?答案也是最终可以,但这需要相当长的时间,我们才能拥有具备这种能力的机器。

人类拥有所有这些特征。我们有些人记忆力超群,能检索大量信息,积累了丰富的知识。我们也有人是解决问题的高手;你给他们一个问题,他们就能解决。我想汤姆实际上谈论的就是这类事情。他说如果你在学校成绩好,你就是个优秀的问题解决者;我们给你一个问题,你能解决它,你在数学或物理等科目上得分很高。但在研究中,最难的其实是提出好问题。哪些是重要的问题?这不仅仅是解决问题;还要提出正确的问题,以正确的方式构建问题,这样你才能有新的洞见。然后才是,“好吧,我需要把这个转化成方程式或某种东西,一个实用的模型。”

这可能与提出正确问题所需的技能不同。解方程式可能又是另一种不同的技能。写方程式的人不一定就是解方程式的人,而记住 100 年前某本教科书里解过类似方程式的,可能又是另外一些人。这是三种不同的技能。所以大语言模型非常擅长检索。它们不擅长解决新问题,为新问题找到新方案。它们能检索到已有的解决方案,但它们绝对不擅长提出正确的问题。

真正的推理

主持人:AI 领域似乎已经从标准的大语言模型发展到了能够推理、能够逐步思考的大语言模型。我很好奇,我们能不能通过给推理模型植入质疑指令的指令,来编程实现这种反直觉或“离经叛道”的思维呢?

杨立昆:我们得先搞清楚“推理”到底是什么意思。显然,每个人都在试图让大语言模型在一定程度上具备推理能力,比如能够检查它们生成的答案是否正确。目前人们处理这个问题的方式是,试图在不完全改变现有范式的前提下对其进行修改,在大语言模型之上附加几个模块,使其具备一些原始的推理功能。这基本上就是很多推理系统正在做的事情。

一种让大语言模型看起来像在推理的简单方法是“思维链”(chain-of-thought)。你基本上是让它们生成比实际需要更多 tokens,希望在生成这些 tokens 的过程中,它们能投入更多的计算来回答问题。在某种程度上,这出人意料地有效,但非常有限。

你无法从中得到真正的推理能力。推理,至少在经典 AI 的许多领域,涉及到在潜在解决方案的空间中进行搜索。所以你有一个要解决的问题。你可以判断问题是否已解决。你有一些方法来判断问题是否解决,然后你在解决方案空间中搜索一个实际满足约束条件或被识别为解决方案的方案。这是你能想到的最普遍的推理形式。

大语言模型里根本没有这种搜索机制。你必须在它之上构建这个机制。一种方法是,你让大语言模型生成大量大量的答案序列,即代表答案的 token 序列。然后你用一个独立的系统来挑选哪个是好的。这有点像写程序,通过或多或少随机地生成指令,也许同时遵守语言的语法,然后检查所有这些程序,看哪个能用。这不是一种好方法,不是一种非常高效的生成正确代码片段的方法。这也不是一种好的推理方式。

这里有一个大问题是,当人类或动物推理时,我们不是在 token 空间(token space)里进行的。换句话说,当我们推理时,我们不必生成一个表达我们解决方案的文本,然后再生成一个,再生成一个,然后在这些文本中挑选一个好的。在我们内部,我们有一个情境的心智模型,并在脑海中操纵它。我们找到一个好的解决方案。当我们计划一系列行动,比如,我不知道,造一张桌子什么的,我们计划行动的顺序。

心智模型与语言无关。如果我告诉你,“想象一个立方体现在漂浮在我们面前。现在将该立方体沿垂直轴旋转 90 度,”你可以想象这个过程,并且你可以很容易地观察到它是一个立方体。如果我旋转它 90 度,它看起来会和开始时的立方体一模一样,因为你对立方体有这个心智模型。这种推理是在某种抽象的、连续的空间中进行的,它不是文本形式的,与语言或任何类似的东西都无关。人类一直在这样做;动物也一直在这样做。这正是我们目前还无法用机器复制的东西。

主持人:是的,这让我想起,你刚才谈到“思维链”以及它如何产生不了多少新颖的见解。DeepSeek 出来的时候,流传很广的一张截图是有人让 DeepSeek 就人类境况提出一个新颖的见解。你读下来,会发现这不过是 AI 玩的又一个非常聪明的把戏,因为它看起来确实罗列了各种关于人类的、非常有趣的观察——比如我们把仇恨,比如我们暴力的一面,引导向合作而非竞争,这帮助我们建设更多。但你读完它的“思维链”后,你会觉得,“这不就是读了《人类简史》(Sapiens)和其他几本书,然后拼凑出来的嘛。”

杨立昆:差不多吧。很多都是鹦鹉学舌。

主持人:我现在要把我后面谈话的一部分提前:训练标准的大语言模型是不是快要撞墙了?以前投入一定量的数据和算力来训练这些模型,回报是可预测的,模型会变得更好。听你这么说,你似乎认为这种情况最终会难以为继。

杨立昆:我不知道该不该称之为“撞墙”,但这肯定是边际效益递减,因为我们差不多已经用光了天然的文本数据来训练这些大语言模型。它们已经用大约 10 的 13 次方或 10 的 14 次方个 tokens 训练过了。这数量非常庞大。

主持人:那可是整个互联网啊。

杨立昆:是公开可用的互联网,然后,一些公司会购买非公开内容的授权。还有人谈论生成人工数据,或者雇佣成千上万的人来制造更多数据。

主持人:他们的知识水平得是博士和教授级别的。

杨立昆:是的,但实际上,情况可能比这更简单,因为大多数系统连基本的逻辑都不懂,比如说。所以在某种程度上,通过合成数据,通过雇佣更多人来填补这些系统知识背景的漏洞,进展会很缓慢,而且是边际效益递减。生成这些数据的成本很高,回报却不怎么样。所以我们需要新的范式,需要一种新的系统架构,其核心能力是搜索,搜索好的解决方案,检查方案是否可行,为达到特定目标而规划一系列行动,这才是 AI 系统真正工作所需要的。

大家都在谈论通用人工智能(AGI)系统。但除了基本上是复述系统已经训练过的计划之外,没人知道该怎么构建它们。这就像计算机科学里的一切;你可以设计一个有限的解决方案。在 AI 的背景下,你可以基于学习或用海量数据进行检索来构建一个系统。但复杂之处在于,如何构建一个系统,它能在未经专门训练的情况下解决新问题。我们人类能做到这一点。动物也能做到。面对新情况,我们要么可以通过零样本(zero-shot)解决,即第一次遇到该情况时无需训练就能处理,要么我们可以极快地学会解决它。

我们学开车,练上几十个小时就会了。练到二三十个小时后,开车就成了第二天性,变成了潜意识行为,我们甚至不用去想它。

我们不可能单靠扩大语言模型的规模就达到人类水平的 AI

主持人:你说的东西让我想到了“系统 1”和“系统 2”。

杨立昆:这让我想起几年前我们和丹尼·卡尼曼(Danny Kahneman)的讨论。你第一次开车时,你的系统 2 完全在线,你必须使用它。你会想象各种灾难性的场景等等。你的全部注意力都集中在驾驶上。但几个小时后,你就可以一边开车一边和别人聊天了;你不需要思考它。它已经变得有点潜意识,或多或少是自动的了。它变成了系统 1。几乎我们学会的每一项任务,第一次完成时,我们都必须动用我们全部的脑力。然后最终,如果我们重复足够多次,它们就会变成潜意识的。

我有一个生动的记忆,有一次参加一个研讨会,其中一位参与者是国际象棋特级大师,他同时和我们大概 50 个人下棋,从一个人走到另一个人。我十个回合就被他干掉了。我说的是国际象棋。所以他会走到我的棋盘前。我有时间思考,因为他还在和其他 50 个棋盘下棋。所以我在他面前走了一步。他看了一眼,说:“嗯?”然后立刻就走了下一步。他根本不用思考。我对他来说构不成挑战,根本用不着启动系统 2,他的系统 1 就足以击败我了。

这告诉我们,当你熟悉一项任务并进行训练后,它就会变成潜意识的。但人类和许多动物的基本能力是,当你面对新情况时,你可以思考,规划行动步骤,想办法达成目标。你不需要对情况了解太多,只需要你对世界如何运作的基本常识就够了。这正是 AI 系统所缺乏的。

主持人:你谈到大语言模型——也就是让我们走到今天的这些东西——已经达到了边际效益递减的程度,我们需要一个新的范式。但我也觉得,那个新范式还没出现。我知道你正在为此进行研究,我们稍后会讨论下一个新范式可能是什么,但这里面是不是有个时间差的问题?

我想到去年投入的资金:OpenAI 拿了 66 亿美元,几周前 Anthropic 又拿了 35 亿美元,而他们去年已经融了 40 亿美元。埃隆·马斯克也正投入另一笔巨资打造 Grok。这些都是大语言模型优先的公司;他们并没有在寻找下一个……我的意思是,也许 OpenAI 在找,但他们拿到的 66 亿美元是因为 ChatGPT。那么,这个领域将走向何方?因为如果这些钱投向了一个效益正在递减、需要新范式才能进步的领域,这听起来是个大问题。

杨立昆:我们对这个新范式是什么有一些想法。难点在于让它跑起来,这不简单,需要好几年时间。所以问题是,我们正在谈论的这些能力,也许通过我们正在思考和研究的这些新范式,能否足够快地实现,从而证明所有这些投资是合理的?如果不能足够快地实现,这些投资还合理吗?

首先可以说的是,我们不可能单靠扩大语言模型的规模就达到人类水平的 AI。这绝对不可能。

主持人:这是你的看法。

杨立昆:绝对不可能。不管你从我那些比较激进的同事那里听到什么,未来两年内这事儿绝对不会发生。恕我直言,门儿都没有——认为我们能在数据中心里拥有一堆天才——纯属胡扯。绝对没可能。我们可能会有一些 AI 系统,它们基于足够多的数据进行训练,任何通情达理的人提出的任何问题,都能在这些系统中找到答案。感觉就像你身边坐着一位博士,但其实不是。那是一个拥有巨大记忆和检索能力的系统,而不是一个能为新问题发明解决方案的系统,这才是博士真正做的事情。

这和汤姆·沃尔夫发的帖子有关。发明新事物需要的那种技能和能力,你是从大语言模型那里得不到的。所以有一个大问题,那就是,现在的投资不是为了明天,而是为了未来几年。而且大部分投资,至少从 Meta 这边来看,是用于推理(inference)基础设施的。

假设再过一年,这确实是 Meta 的计划,我们通过智能眼镜、独立应用等方式,让 Meta AI 拥有 10 亿用户。你得为这些人提供服务。这就需要大量的计算。所以你需要大量投资基础设施,才能在几个月或几年内扩大规模并建立起来。这才是大部分资金的去向,至少对于像 Meta、微软、谷歌和亚马逊这样的公司来说。这基本上就是运营成本。

那么,即使范式没有改变,这 10 亿人经常使用这些东西的市场会存在吗?答案很可能是肯定的。所以,即使革命性的新范式在三年内没有出现,这些基础设施也会被使用。这一点几乎没有疑问。所以这是笔好投资,而且建立数据中心等等需要很长时间,所以你现在就需要开始,并规划持续的进展,以便最终证明投资是合理的。但你又不能不做,对吧?因为如果你有现金,不做的风险太大了。

主持人:但让我们回到你刚才说的。今天的东西缺陷还很严重。关于它是否会被使用,一直存在疑问。现在 Meta 正在押注消费者市场,对吧?认为消费者想用 AI,这说得通。OpenAI 的 ChatGPT 有 1 亿用户。Meta 大概有三四十亿——我的意思是,只要有手机其实就相当于算是 Meta 用户。

杨立昆:30 多亿用户,Meta AI 有 6 亿用户。

主持人:好的,比 ChatGPT 多。

杨立昆:是的,但使用频率不如 ChatGPT 高,所以用户粘性没那么强。

IBM 的惨败

主持人:但基本上,Meta 能达到 10 亿消费级用户,这看起来是合理的。但问题是,很多这类投资是基于它对企业有用,而不仅仅是消费级应用的想法。这里就有一个问题,正如我们一直在讨论的,它还不够好。你看深度研究,这是本尼迪克特·埃文斯(Benedict Evans)提出的。深度研究做得不错,但可能只能帮你完成 95%,剩下的 5%可能是胡说八道。所以,如果一份 100 页的研究报告有 5%是错的,而你又不知道是哪 5%错了,那问题就大了。同样,在今天的企业中,每家企业都在想办法让生成式 AI 和其他类型的 AI 为己所用。但可能只有 10%或 20%的概念验证项目最终能投入生产,要么因为太贵,要么因为不可靠。所以,如果我们快到顶了,那么之前因为预期它会变得更好而投入的一切,你预计会发生什么?

杨立昆:再说一次,这是个时间表的问题。这些系统什么时候才能变得足够可靠和智能,以便更容易部署?但是你描述的这种情况,即在令人印象深刻的演示之后,实际部署可靠的系统才是计算机和技术(尤其是 AI)应用中容易出问题的地方,这并不新鲜。这基本上就是为什么我们在 10 年前就有了非常令人印象深刻的自动驾驶演示,但我们仍然没有 L5 级别的自动驾驶汽车。“最后一公里”对于汽车来说真的很难,可以这么说。这可不是故意的。

最后那百分之几的可靠性,才能使一个系统变得实用,以及如何将其与现有系统集成,如何使其用户更高效或更可靠等等——这才是困难所在。这就是为什么如果我们回到几年前,看看 IBM 沃森(Watson)发生了什么。沃森本应是 IBM 力推并创造巨额收入的产品,通过让沃森学习医学知识,然后部署到每家医院。但它基本上是彻底失败了,最后被拆了卖零件,让 IBM 损失惨重,包括 CEO 也因此下台。实际情况是,在那些要求系统可靠、真正帮助人们、并且不损害劳动力队伍自然保守性的情境中部署这些系统,事情就变得复杂了。我们现在看到的部署 AI 的困难过程并不新鲜,它在任何时候都发生过。

上世纪 80 年代初,人工智能领域曾掀起过一股热潮,围绕着专家系统。80 年代最热门的工作是知识工程师,你的工作就是坐在专家旁边,然后把专家的知识转化成规则和事实,再输入到一个推理引擎中,这个引擎就能推导出新的事实并回答问题。这股兴趣浪潮非常大。日本政府启动了一个名为“第五代计算机”的大型项目;硬件都设计成专门处理这些任务的。但这基本上失败了。那一波兴趣在 90 年代中期就消退了。少数几家公司成功了,但基本上只适用于一小部分应用场景,在这些场景中,你确实可以把人类知识简化为一堆规则,而且这样做在经济上也是可行的。但对整个社会和行业的广泛影响根本不存在。所以这始终是 AI 的危险所在。信号很明确,带有各种附加功能的大语言模型确实扮演着重要角色,至少在信息检索方面是这样。

大多数公司都希望拥有某种内部专家,了解所有内部文件,以便任何员工都可以提出任何问题。我们在 Meta 就有一个——是 Meta 自己做的,非常酷,非常有用。

主持人:我并不是说现代 AI 或现代生成式 AI 没用。我纯粹是想问,已经有大量资金投入,期望这些东西能达到神级能力。而我们俩都在谈论这里可能存在边际效益递减的问题。如果出现你提到的那种时间差错配,会发生什么?这是我关于这个问题的最后一个提问,因为我觉得我们还有很多其他内容要谈。但时间差错配可能对你个人来说有特殊感触。

我和你第一次交谈是九年前,现在想起来真是疯狂。你知道早期你对 AI 的架构有自己的想法,甚至在会议上都找不到一席之地。然后最终,当算力跟上时,那些想法开始奏效了。然后整个 AI 领域就基于你与本吉奥(Bengio)、辛顿(Hinton)以及许多其他人共同研究的想法腾飞了。但就谈谈这些时间差的错配,当 AI 领域出现过度炒作的时刻,比如你刚才提到的专家系统,而它们并没有像人们预期的那样成功时,AI 领域就会进入所谓的“AI 寒冬”。

杨立昆:会出现反弹。

主持人:没错。所以,如果我们可能正在接近这个时间差错配的时刻,考虑到投入的资金量,考虑到训练这些东西的主要方式可能会出现边际效益递减,或许我们还要加上股市目前看起来有点低迷这个因素——这可能是我们讨论的第三重要变量,但它必须考虑在内——你是否担心现在可能会出现另一个寒冬?

杨立昆:这里肯定存在一个时机问题。但如果我们试着深入挖掘一下,正如我之前所说,如果你认为单靠更多数据训练和扩大 LLM 的规模就能达到人类水平的 AI,那你就错了。如果你是个投资者,投了一家告诉你‘我们单靠更多数据和一些小技巧就能实现人类水平的 AI 和博士级水平’的公司,我不知道你是否会血本无归,但这可能不是个好主意。

然而,对于如何前进,如何让系统具备所有智能动物和人类都能做到、而当前 AI 系统做不到的能力,我们确实有一些想法。

我指的是理解物理世界、拥有持久记忆、能够推理和规划。这四个特征是必须具备的,它们需要系统能够获得常识,能够从像视频这样的自然传感器学习,而不仅仅是文本,不仅仅是人类产生的数据。

这是一个巨大的挑战。我多年来一直在谈论这个问题,并说这就是挑战所在。这是我们必须解决的问题。我的团队和我,或者与我一起工作的人以及其他听取我意见的人,正在沿着这条路取得进展——开发能够通过视频学习理解世界如何运作的系统,例如,能够使用物理世界运作的心智模型来规划行动序列以达到特定目标的系统。我们已经有了这类系统的早期成果。DeepMind 也有人在做类似的事情,各个大学也有人在研究这个。

所以问题是,这什么时候能从有趣的科研论文(展示新架构下的新能力)发展到大规模的、能广泛应用、能解决新问题(无需专门训练)的实用架构?

这在未来三年内不会发生,但可能在 3 到 5 年内发生,差不多是这样。这与我们现在看到的投资增长速度大致相符。这是第一点。

现在,第二点很重要,那就是不会有一个秘密的“万能灵药”,由某家公司或某群人发明出来就能解决问题。这将是许多不同想法、大量努力的成果,有一些原则是每个人都会依据的,有些人可能不认同这些原则,会走向最终被证明是死胡同的方向。所以,不会是某一天之前没有通用人工智能(AGI),之后就有了。这不会是一个事件;它将是持续的概念性想法,随着时间的推移,这些想法会变得更大、更具规模,并且运作得更好。它不会来自单一实体;它将来自全球整个研究社区。而那些分享研究成果的人会比不分享的人进步更快。所以,如果你认为某个地方有个五人初创公司发现了通用人工智能的秘密,你就该给他们投 50 亿美元,那你就大错特错了。

这些架构将不是生成式的

主持人:我一直很享受我们的对话,因为我们总能得到一些真正的答案。我记得即便是上次对话,我也会时常回顾那次谈话,对自己说:“好吧,这是杨说的,那是其他人说的。我很确定这才是基准点。”事实也证明如此。我知道这次对话也会是这样。现在你为我们接下来的谈话引出了两个有趣的线索。首先是对物理和现实世界的理解,其次是开源。

我想和你聊聊物理学。你曾经让我给 ChatGPT 写道:“如果我双手水平拿着一张纸,然后松开左手,会发生什么?”我写了,它很自信地说,根据物理学,纸会向你的左手方向飘去。我还信誓旦旦地大声读了出来,结果你说:“它就是胡说八道,你还信了。”事情就是这样。

现在两年过去了。我今天又用这个问题测试了 ChatGPT。它说:“当你松开左手时,重力会导致纸的左侧下落,而仍然由右手托住的右侧则保持原位。这就产生了一个杠杆效应,纸张会围绕你右手持握的点旋转。”所以现在它答对了。

杨立昆:它吸取教训了。很可能是 OpenAI 雇的人把这个问题和答案喂给了系统,然后对系统进行了微调。显然,你可以想象出无数个这样的问题。这就是所谓的大语言模型(LLM)的“后训练”变得昂贵的地方,也就是说,你需要覆盖多少种提问方式,才能让系统基本上覆盖人们可能提出的所有问题的 90%、95%或某个百分比?但是问题存在长尾效应,你不可能训练系统回答所有可能的问题,因为问题数量几乎是无限的。而且系统无法回答的问题远比它能回答的多。你不可能在训练集中覆盖所有可能的训练问题。

主持人:是的。因为我记得我们上次谈话时你说,因为这些行为,比如你松开手后纸张会发生什么,在文本中没有被广泛涵盖,所以模型不会真正知道如何处理。因为除非文本中提到过,否则模型不会有那种理解,不会有对现实世界固有的理解。我一度也这么认为。然后我说:“你知道吗?让我们试试生成一些 AI 视频吧。”

我发现 AI 视频中一个有趣的事情是,它们对物理世界如何运作有某种程度的理解,这在 9 年前我们第一次见面时,你说最难的事情之一是你问 AI:“如果你把一支笔垂直立在桌上然后松手,它会倒吗?”这里面有无数种可能性,AI 很难弄明白,因为它本身不理解物理。但现在你用像 Sora 这样的工具,说“给我看一个男人坐在椅子上踢腿的视频”,你就能得到。那个人坐在椅子上,踢着腿。而且腿不会从胯骨掉下来之类的,它们会在关节处弯曲。

杨立昆:而且他们没有三条腿。

主持人:而且他们没有三条腿。那么,这难道不意味着这些大模型的能力有所提升吗?

杨立昆:不。为什么?因为你仍然会看到那些视频生成系统制作的视频里,比如你打翻一杯酒,酒却漂在空中、飞走或者消失了,诸如此类。当然,对于每一种具体情况,你总能收集更多关于该情况的数据,然后训练你的模型来处理它。但这并不是真正理解了潜在的现实。这只是用越来越多的数据来弥补理解上的不足。

儿童用很少的数据就能理解像重力这样的简单概念。你可以做一个有趣的计算。如果你拿一个典型的大语言模型,比如用 30 万亿个 tokens 训练的,大约是 3 x 10^13 个 tokens。一个 token 大约是 3 个字节。所以那是 0.9 x 10^14 字节。我们就凑个整,算 10^14 字节吧。这段文本,我们中任何一个人可能都需要花大约 40 万年,每天读 12 个小时才能读完。好了,一个四岁的孩子总共清醒了 16000 小时。你可以乘以 3600 得到秒数。然后你可以估算出有多少数据通过视神经进入了你的视觉皮层。每条视神经,我们有两条,每秒大约传输 1MB 的数据。所以是每秒 2MB,乘以 3600,再乘以 16000。这正好大约是 10^14 字节。

所以,四年里,一个孩子通过视觉或触觉接触到的数据量,和最大的大语言模型看到的一样多。这清楚地告诉你,我们不可能仅通过文本训练就达到人类水平的 AI。文本的信息量根本不够丰富。顺便说一句,16000 小时并不算多;大概相当于 YouTube 上传 30 分钟视频的数据量。我们现在很容易就能获得这些。一个婴儿在 9 个月里,比如说,看到了 10^13 字节的数据,这也不算多。但在这段时间里,婴儿基本上已经学会了我们所知的所有直觉物理学:动量守恒、重力、物体不会自发消失、即使被藏起来它们依然存在。这些都是我们在生命最初几个月里学到的关于世界的一些非常基本的东西。这正是我们需要用机器复制的:这种学习方式,去弄清楚世界上什么是可能的,什么是不可能的,你采取一个行动会产生什么结果,这样你才能规划一系列行动来达到特定目标。

这就是世界模型的想法。现在,联系到关于视频生成系统的问题:解决这个问题的正确方法是训练越来越好的视频生成系统吗?我的答案是绝对不是。理解世界的问题,其解决方案并不在于生成像素级别的视频。

如果我拿起这杯水打翻它,我无法完全预测水在桌子上的确切路径、它会形成什么形状以及会发出什么声音等等。但在某个抽象层面上,我可以预测水会洒出来,可能会弄湿我的手机之类的。所以我无法预测所有细节,但我可以在某个抽象层面上进行预测。我认为这是一个非常关键的概念:如果你想让一个系统能够学习理解世界、明白世界如何运作,它需要能够学习一个世界的抽象表征,这个表征能让你做出那些预测。这意味着这些架构将不是生成式的

主持人:所以,模型不能是生成式的才能理解真实世界。你正在研究一种叫做 V-JEPA(视频联合嵌入预测架构)的东西。你还有用于图像的 I-JEPA,对吧?

杨立昆:JEPA 可以用于各种东西。

主持人:文本也行,纯文本。那么请解释一下,这将如何解决让机器能够抽象地表征现实世界中发生的事情的问题。

杨立昆:AI,尤其是过去几年自然语言理解和聊天机器人的成功,在某种程度上也包括计算机视觉的成功,其关键在于自我监督学习。那么什么是自我监督学习呢?

拿一个输入——无论是图像、视频、一段文本,任何东西——以某种方式损坏它,然后训练一个大型神经网络来重建它,基本上是恢复它未损坏的版本,或者未失真的版本,或者采取某个行动后会产生的转换版本。例如,在文本的上下文中,拿一段文本,去掉一些词,然后训练某个大型神经网络来预测缺失的词。

拿一张图片,去掉一部分,然后训练一个大型神经网络来恢复完整的图片。拿一段视频,去掉一部分,训练你的神经网络来预测缺失的部分。大语言模型(LLM)是其中的一个特例,你拿一段文本,训练一个系统仅仅是复制这段文本。你不需要损坏文本,因为系统的设计方式使得它在预测文本中某个特定的词或 token 时,只能看到它左边的 token。所以,实际上,系统在其架构中硬编码了它不能看现在和未来来预测现在——它只能看过去。但基本上,你训练系统只是在输出端重现其输入。这种架构被称为因果架构,这就是 LLM,一个大型自回归模型。世界上所有的聊天机器人都是基于这个的。

拿一段文本,训练系统只是在其输出端重现那段文本。要预测某个特定的词,它只能看它左边的词。所以现在你有了一个系统,给定一段文本,它可以预测这段文本后面的词。你可以把你预测的那个词移到输入端,然后预测第二个词,再把那个词移到输入端,预测第三个词。这叫做自回归预测。这不是一个新概念,很老了。自我监督学习并不训练系统完成某个特定任务,而是捕捉数据的内部结构。它不需要任何人工标注。

把这个应用到图像上:拿一张图片,遮住一部分,比如一些补丁,然后训练一个神经网络来重建缺失的部分。现在,把系统学到的图像内部表征作为后续下游任务(如图像识别、分割等)的输入。

这在一定程度上有效,但效果不是很好。FAIR 有一个类似的大项目,叫做 MAE(Masked Autoencoders,掩码自编码器)。它是去噪自编码器的一个特例,而去噪自编码器本身就是我从中衍生出自我监督学习这个想法的通用框架。它效果不太好。而且有很多方法……如果你把这个应用到视频上,我研究这个也快 20 年了。

拿一段视频,只展示视频的一部分,然后训练系统预测接下来视频里会发生什么。和文本的想法一样,只是针对视频。这个效果也不是很好。为什么它对文本有效,而对视频无效呢?答案是,预测文本后面的一个词很容易。你无法准确预测某个文本后面会跟哪个词,但你可以生成类似字典中所有可能词语、所有可能 token 的概率分布。大概只有 10 万个可能的 token。所以如果你只是生成一个包含 10 万个不同数字的大向量,这些数字都是正数且总和为一,那就没问题。

那你要怎么表示视频中所有可能帧的概率分布,或者图像所有可能缺失部分的概率分布呢?我们不知道如何妥善处理。事实上,在高维连续空间中表示分布在数学上是难以处理的。我们不知道如何以有用的方式做到这一点。我长期以来一直试图为视频做这件事。这就是为什么那些使用生成模型的自我监督学习想法迄今为止都失败了。这也是为什么试图训练一个视频生成系统来让系统理解世界如何运作,是行不通的。

那么替代方案是什么?替代方案是一种非生成式架构,我们称之为 JEPA:联合嵌入预测架构(Joint Embedding Predictive Architecture)。

我们知道这种方法比尝试重建要好得多。我们多年前就有关于学习图像良好表征的实验结果,其中我们不是拿一张图像,损坏它,然后尝试重建这张图像,而是拿原始的完整图像和损坏版本。我们都将它们通过神经网络处理。这些神经网络会产生这两张图像(原始图像和损坏图像)的表征。然后我们训练另一个神经网络,一个预测器,从损坏图像的表征中预测完整图像的表征。

如果你成功了,你就训练出了这样一个系统。它不是被训练来重建任何东西的。它只是被训练来学习一个表征,以便你可以在表征层内进行预测。你必须确保表征包含尽可能多的关于输入的信息,这才是困难之处。实际上,这才是训练这些系统的难点。所以这就是 JEPA。为了训练一个系统学习图像的良好表征,这些联合嵌入架构比那些生成式的、通过重建训练的架构效果要好得多。

现在我们也有一个适用于视频的版本。我们拿一段视频,通过遮盖其中一大块来损坏它。我们将完整的视频和损坏的视频通过相同的编码器处理。然后,以类似的方式,我们训练一个预测器,从部分视频的表征中预测完整视频的表征。当系统学习到的视频表征被输入到一个试图告诉你,例如,视频中发生了什么动作,或者视频是否可能或不可能,或者类似事情的系统时,它实际上运作得相当好。

主持人:酷,所以它能进行抽象思维。

杨立昆:是的,在某种程度上。我们的实验结果表明,这种联合嵌入训练——我们有好几种方法来实现它,一种叫做 DINO,另一种叫做 VC-Reg,还有一种叫做 VICReg,另一种叫做 I-JEPA,这有点像一种蒸馏方法——有好几种不同的途径。其中一种将会导出一个配方,基本上给我们提供一种训练这些 JEPA 架构的通用方法。

它不是生成式的,因为系统不是试图重新生成输入的那部分;它是试图生成一个输入的表征,一个抽象的表征。这样做的好处是,你可以忽略输入中所有那些真正不可预测的细节。就像你垂直放在桌上的那支笔,当你松手时,你无法预测它会朝哪个方向倒下。但在某个抽象的层面上,你可以说笔会倒下,而不用表示方向。这就是 JEPA 的想法。我们开始在让系统(例如 V-JEPA 系统)通过大量自然视频进行训练方面取得良好成果。然后你可以给它看一个不可能的视频,比如一个物体消失或改变形状的视频。你可以用游戏引擎之类的东西生成这个,或者一个情景:你有一个球在滚动,它滚到一个屏幕后面,然后屏幕降下来,球不见了。诸如此类的事情,你测量系统的预测误差。这个系统被训练来预测,不一定是在时间上预测,但基本上是预测视频的连贯性。所以当你向系统展示视频时,你测量预测误差。当不可能的事情发生时,预测误差会飙升。

所以你可以检测出系统是否整合了关于物理上什么是可能的或什么是不可能的的一些想法,仅仅通过用物理上可能的自然视频进行训练。这真的很有趣。这是系统获得某种常识的第一个迹象。

我们也有这些系统的所谓“动作条件化”(action-conditioned)版本。基本上,我们有一些东西,比如在 t 时刻世界状态的一段视频或一张图像,然后采取一个动作,比如移动一个机器人手臂之类的。然后,当然,我们可以观察到这个动作的结果。所以现在当我们训练一个 JEPA 模型时,基本上,你可以说,“这是 t 时刻的世界状态,这是你可能采取的一个动作。”我可以在这个抽象表征空间中预测 t+1 时刻的世界状态。

主持人:这就是 AI 对世界如何运作的学习。

杨立昆:这样做最酷的地方在于,现在你可以想象让系统想象一系列行动的结果会是什么。如果你给它一个目标,说:“我希望世界最终看起来是这样,你能想出一系列行动来达到那个目标吗?”它实际上可以通过搜索找到能产生结果的行动序列。这就是规划,这就是推理,是真正的推理和真正的规划。

开源世界的进展肯定更快

主持人:你能否谈谈你对 DeepSeek 的看法,以及开源模型现在是不是已经超越闭源模型了?我们必须把时间限制在 60 秒内,否则你的团队会杀了我的。

杨立昆:“超越”这个词有点重了。但我认为开源世界的进展肯定更快,这是毫无疑问的。当然,那些闭源的公司也从开源世界的进步中获益;它们和其他人一样能接触到那些信息。显而易见的是,开源世界涌现出的有趣想法远比任何一家公司,无论其规模多大,所能想出的要多得多。

没有人能垄断好点子。开源世界的奇妙效率在于它能从世界各地招募人才。我们从 DeepSeek Coder 身上看到,如果你组建一个小团队,给他们相对宽松的权限和较少的限制,让他们去开发下一代大语言模型,他们确实能想出别人想不到的新点子。他们可以某种程度上重新发明做事的方式。然后如果他们与世界其他地方分享,那么整个世界都会进步。开源进展更快。更多的创新可以在开源世界发生,而闭源世界可能很难跟上。运行成本也更低。

我们看到,和我们交谈的合作伙伴说:“嗯,我们的客户在做原型时可能会用闭源 API。但真到部署产品的时候,他们实际上会用 Llama 或其他开源引擎,因为更便宜、更安全、更可控。你可以在本地运行。”有很多优势。

我们看到一些人最初担心开源会,比如说,帮助中国人或其他什么,如果你出于某些地缘政治原因认为这是个坏主意,他们的想法发生了很大转变。

但 DeepSeek 的例子表明,中国人并不需要我们。他们自己就能想出非常好的点子。我们都知道中国有非常非常优秀的科学家,但有一件事不太为人所知,那就是整个科学界被引用次数最多的单篇论文是 2015 年的一篇关于深度学习的论文,它来自北京。那篇论文叫做 ResNet。它是一种特殊类型的神经网络架构,基本上,默认情况下,深度学习系统中的每个阶段都计算恒等函数;它只是将其输入复制到其输出。神经网络所做的是计算与此恒等函数的偏差。这使得我们能够训练出具有数十层,甚至 100 层的极深神经网络。

那篇论文的第一作者是何恺明。当时他在微软亚洲研究院工作。那篇论文发表后不久,他加入了加州的 FAIR。所以我雇用了他,他在 FAIR 工作了大约八年,最近离开,现在是麻省理工学院的教授。

世界各地都有非常非常优秀的科学家。没有人能垄断好点子。当然,硅谷也没有垄断好点子。另一个例子实际上是第一个 Llama 模型来自巴黎。它来自巴黎的 FAIR 实验室,一个只有 12 人的小团队。如果想让科学技术快速发展,你就必须利用全

来源:人工智能学家

相关推荐