摘要:杨立昆:AI领域的先驱者,认为如今的LLM(大语言模型)表征世界几乎已经过时,未来是LLM+物理世界模型。杨立昆谈如何教AI 一些物理常识如运动及驾驶汽车。杨立昆教授与辛顿教授关于AI未来观点迥异,立昆非常乐观,辛顿有点悲观。立昆认为未来组织世界,每人都是CE
杨立昆:AI领域的先驱者,认为如今的LLM(大语言模型)表征世界几乎已经过时,未来是LLM+物理世界模型。杨立昆谈如何教AI 一些物理常识如运动及驾驶汽车。杨立昆教授与辛顿教授关于AI未来观点迥异,立昆非常乐观,辛顿有点悲观。立昆认为未来组织世界,每人都是CEO,每人至少有一群下属:一群智能助手。
发布日期:2025年4月2日
作者 Gabriel Snyder Newsweek Nexus的编辑总监
目录
1悖论令人震惊
2杨立昆教授个人简介
3联合嵌入预测架构(JEPA)的替代方法
4未来AI是LLM+物理模型共存时代
5杨立昆教授并不是AI技术悲观主义而是乐观派
6杨立昆教授与辛顿教授的AI未来观点差异
7增强智能:与杨立昆教授的对话的反思
序
请问Meta的首席人工智能科学家、图灵奖得主、纽约大学数据科学家之一以及人工智能先驱之一杨立昆对于像OpenAI的ChatGPT、Google的Gemini、Meta的Llama和Anthropic的Claude这样的大型自然语言模型(LLMs)的未来的看法,他的答案可能会让您震惊:他认为LLMs在五年内将基本过时。
"如果我们在Facebook AI Research 和NYU 的同事们一直在探索的道路上,能够在三到五年内实现这一目标,那么我们将拥有一个更好的系统范式,可以进行推理和规划," 立昆 在最新一期《Newsweek》与Marcus Weldon 的AI Impact 采访系列中解释道,他的团队最近在他们的联合嵌入预测架构(JEPA)上的工作。他希望这种方法将会使目前基于LLM的AI方法过时,因为这些新系统将包含对世界的真实表示,并且,他说,它们将是"可控的,即您可以为它们设定目标,并通过构造,它们唯一能做的就是实现这些目标。"
他的信念是如此坚定,以至于在去年的一次会议上,他建议年轻的开发人员,“不要在LLM 上工作。[这些模型] 掌握在大公司手中,你没有什么可以拿来的。您应该致力于开发能够消除LLM 限制的下一代AI 系统。
在这个未来中,人类将转向更多的管理角色,将人工智能系统作为工具而不是被取代。立昆说:“每个人都将成为某种CEO,或者至少是经理。”“我们将看到人类在等级制度中迈向更高的层次。我们将拥有一个低于我们的层次,那就是那些人工智能系统。”但是,他强调说,“它们可能比我们更聪明,但它们将听从我们的指挥。”,这个深以为然。
1 悖论令人震惊悖论令人震惊:当今AI 热潮背后的主要架构师之一也是最著名的怀疑论者之一。当公司竞相部署更复杂的对话智能体,投资者向大型语言模型初创公司和数据中心投入数十亿美元以支持它们时,尽管 立昆 的团队制作了当今使用的领先基础模型之一:Llama,但他仍然对许多人认为的人工智能前沿技术不以为然。
对于立昆来说,如今的人工智能模型,即使是那些带有他智慧烙印的模型,都是在一个简单的、离散的空间——语言中运行的相对专门化工具,缺乏对人类和动物轻松航行的物理世界的任何有意义的理解。立昆的警示与Rodney Brooks有关“AI的神奇思维”的警告一致,Brooks在早前一次与《Newsweek》的访谈中解释说,当AI系统在有限领域表现良好时,我们往往会给AI系统赋予拟人化,错误地假设其具有更广泛的能力。
立昆的警示呼吁有充分的理由:立昆几十年来一直致力于开创神经网络技术,这些技术支撑着今天的人工智能繁荣,他与辛顿和本杰奥(Geoffrey Hinton和Yoshua Bengio)并称为“深度学习的三剑客”,他们在2018年共同荣获图灵奖,以表彰他们对该领域的贡献。
杨立昆在Newsweek的AI Impact Interview系列中发表讲话。
2 杨立昆教授个人简介1960年出生于法国,立昆从小就对人工智能充满了兴趣。他在巴黎时只有9岁,第一次看到史丹利·库布里克的《2001太空漫游》,这一经历塑造了他的职业轨迹。立昆回忆道:“这部电影涵盖了我孩提时期着迷的所有主题,如太空旅行、人工智能、人类智慧的出现。”
最让年轻的 立昆 印象深刻的是,智能可以是自组织的——复杂的行为可能来自相互交互的简单元素。这个概念将成为他整个职业生涯的指导原则,即使他遇到了来自学术机构的阻力。
当 立昆 在1980 年代开始他的工作时,神经网络在计算机科学领域已经式微。马文·明斯基(Marvin Minsky)和塞摩尔·帕珀特(Seymour Papert)在1969 年的一本书中,有效地杀死了研究的兴趣,强调了简单的“感知器”(perceptrons)的局限性,这些最早的神经网络是在1950 年代首次引入的,人工智能领域已经明显转向符号和基于规则的系统。
“当时你不能提到神经网络这个词。这是在感知器死后仅仅15年,它仍然被视为工程上的禁忌,不仅仅是计算机科学上的,”立昆解释道。“但这个领域是被那些不在意这段历史,或者并不了解这段历史的人重新激活起来的,他们将统计物理学和理论神经科学中的一些方法与神经网络联系起来,现在这项工作已经获得了诺贝尔奖。”
AI“教父”杨立昆:LLMs已接近尾声,但更好的人工智能即将到来。
AI正被用于设计未来的汽车、火车和飞机
在上世纪80年代中期在皮埃尔和玛丽居里大学攻读博士学位期间,立昆通过开发一个早期形式的现在著名的反向传播算法,首次为深度学习领域做出了重要贡献。所谓的“反向传播”是一种数学技术,允许神经网络根据检测到的输出错误进行学习,然后通过神经网络“反向传播”来调整内部权重,以实现更高的准确度输出。这种方法后来成为几乎所有现代神经网络训练的基础,构成了从语音和图像识别系统到聊天机器人和自动驾驶系统的学习支柱。
1987年获得博士学位后,立昆前往多伦多大学,在Geoffrey Hinton(图灵奖和诺贝尔物理奖获得者:辛顿教授)的指导下进行博士后研究。一年后,他加入贝尔实验室,可能做出了他最具变革性的贡献:卷积神经网络(CNNs)的发展。受哺乳动物视觉皮层结构启发,CNNs使用专门的层在图像上扫描以检测特征——如边缘、纹理和形状——而不受其在视觉领域中的位置影响。这种结构通过使机器能够识别出尽管在位置、大小或方向上有变化的模式而极大地改善了计算机视觉。
贝尔实验室的创新成果导致了实用应用的出现,静悄悄地革新了日常系统。立昆 开发的手写识别技术被美国邮政和银行采用,在1990 年代末和2000 年代初已经读取了美国超过10% 的支票。如今,卷积网络仍然是现代计算机视觉的基础,实现了从面部识别和医学图像分析到自动驾驶和增强现实等各种功能。
在历经AT&T实验室和NEC研究所后,立昆于2003年加入纽约大学,目前仍担任银牌教授。2013年,马克·扎克伯格聘请他成为Facebook人工智能研究(FAIR)部门的首任主任,这个角色演变成了他当前的职位,即Meta的首席人工智能科学家。
回到讨论LLM的限制这个话题,立昆解释道:“一个LLM产生一个接着一个的标记。它经过固定量的计算来生成一个标记,这显然是系统1-它是反应性的,对吧?没有推理。”这是对丹尼尔·卡尼曼影响深远的框架的引用,该框架区分了人脑快速直觉思维的方法(系统1)和较为缓慢、更审慎的推理方法(系统2)。
这种方法的局限性在考虑到莫拉维克悖论时变得清晰——在1980年代末,计算机科学家和机器人学家汉斯·莫拉维克观察到,相比看起来基本的人类能力,如感知和运动,教授人工智能系统高阶技能,如下棋或通过标准化测试,要容易得多。莫拉维克提出的理由是,从人类身体如何在世界中导航中衍生出的技能是数十亿年演化的产物,非常发达,可以被人类自动化,而新皮层理解技能则较晚出现,需要更多的有意识的认知努力来掌握。然而,对于机器来说情况正好相反。简单来说,我们设计机器来辅助我们在我们缺乏能力的领域,比如体力或计算。
LLMs的奇怪悖论在于,它们掌握了语言的高阶技能,却没有学习任何基础的人类能力。“我们有这些语言系统,可以通过律师考试,可以解方程,计算积分,但我们的家用机器人在哪里呢?”立昆问道。“一个与猫在现实世界中一样优秀的机器人在哪里?我们认为猫能完成的任务并不聪明,但实际上,它们是。”
这种差距存在是因为语言,尽管其复杂性,与混乱连续的真实世界相比,在一个相对受限制的领域内运作。“原来语言相对简单,因为它具有强大的统计特性,”立昆说。这是一个低维度、离散的空间,基本上是我们思维的串行版本。
并且,立昆指出,人类能够处理比我们最贪婪的先进人工智能系统更多的数据。"如今一个大型LLM的训练数据大约是10的14次方字节。任何人都需要花费40万年才能把它读完。"听起来很多,但他接着指出,人类能够接受更庞大的视觉数据量。
立昆 建议,考虑一个已经成型学习了16,000 小时的4 岁孩子。“视神经的带宽大约是每秒1 兆字节。将其乘以16,000 小时,大约是四年内10 的14 次方,而不是400,000 次方。这引发了一个关键的推论:“这清楚地告诉你,我们永远无法仅通过文本训练来达到人类水平的智能。这永远不会发生,“立昆 总结道。
当被问及如何定义智能时,立昆通常会非常精确地回答:“你可以将智能看作是两到三个方面。
一个是一系列技能,但更重要的是,是一种快速获得新技能的能力,可能不需要任何学习。”他用一个日常例子加以说明:“你问你的10岁孩子,‘你能收拾餐桌吗?’即使是一个从未做过这件事情的10岁孩子,或者可能只看过几次别人做的情况,由于对世界的背景知识已经足够,可以在第一次做这件事时无需训练就能完成。”
这种将现有知识应用到新颖情况中的能力,代表着如今人工智能系统与人类认知之间的深刻差距。勒坤沉思道:“一个17岁的人可以在约20小时的练习中学会开车,甚至更短,基本上不会造成任何事故。我们有数百万小时的人们开车的训练数据,但我们仍然没有无人驾驶汽车。这意味着我们正在缺失一些非常非常重要的东西。”
像布鲁克斯强调身体化和与物理世界的互动的重要性一样,立昆认为智能与我们建模和预测物理现实的能力密切相关——当前的语言模型无法做到这一点。这种观点r与大卫·伊格尔曼 (David Eagleman) 关于大脑如何基于其“世界模型”不断运行模拟,将预测与感官输入进行比较的描述相呼应。
对 立昆 来说,区别在于我们的心智模型——世界如何运作的内部表示,使我们能够预测后果并相应地计划行动。人类从婴儿时期开始就通过观察和与物理世界的互动来开发这些模型。婴儿在大约九个月后学会了无支撑的物体会掉落(重力);他们逐渐明白,即使物体不在视线范围内,物体也会继续存在(物体永久)。他观察到这些模型是分层排列的,从关于即时物理交互的非常低级预测到支持长期规划的高级概念理解。
立昆提供了一个优雅的例子:"假设我们今天在纽约,决定明天早上在巴黎。我们无法通过肌肉控制来计划整个旅程- 这将是一个完全棘手的任务。但在一个非常高的抽象层面上,我们可以说,'我需要去机场并赶飞机。' 所以,现在我有了一个目标。我该怎么去机场?我在纽约,所以我走上街头叫了一辆出租车。好的,我怎么能下到街上?嗯,我必须从椅子上站起来,搭乘电梯下去,然后..."
这种层次式规划依赖于LLM不具备的心智模型。虽然它们可以生成听起来合理的文本,但它们缺乏对物理现实的基础,并且无法像甚至很小的孩子那样推理出关于新颖情况的结论。
3 联合嵌入预测架构(JEPA)和为V-JEPA 的最新模型所以,立昆教授没有选择继续扩大语言模型的道路,而是开创了一种名为联合嵌入预测架构(JEPA)的替代方法,旨在基于视觉输入创建物理世界的表征。“通过训练系统来预测视频中即将发生的事情,从而训练系统理解世界运作的想法是一个非常古老的概念。” 立昆教授指出,“我至少已经以某种形式致力于这个领域20年了。”
JEPA背后的基本见解是,预测不应该发生在原始感官输入空间中,而应该发生在一个抽象的表征空间中。当人类预测接下来会发生什么时,我们不会在脑海中生成像素完美的未来图像,而是以对象、它们的属性以及它们如何相互作用为思考方式。
"如果你做了天真的事情,就像我已经做过的,以及我的许多同事们尝试过的那样,训练一个大型神经网络来预测视频中接下来的几帧,这样并不奏效。你会得到模糊的预测,因为系统无法准确地预测逐像素发生的事情。"立昆解释道。
但最近的突破使一种不同的基于视频的方法变得可行。在一项名为DINO World Model 的实验中,Meta 的研究人员使用了一个预先训练的编码器,该编码器学会了通过自我监督学习从图像中提取特征,然后训练了一个预测器来预测当采取某些作时这些特征将如何变化。
"然后您可以给它一个任务,即到达某个目标状态,并通过优化,规划一系列动作,以便您的模型预测您将实现这一目标,"立昆说。这使系统能够规划新颖的动作序列以实现指定的目标——一种初级形式的推理和规划。
对于另一个名为V-JEPA (Video-JEPA) 的最新模型,立昆 的团队训练了一个系统来完成部分遮挡的视频。当播放视频中发生了物理上不可能的事情时(例如物体自发地改变形状或在应该可见时消失),系统的预测误差会急剧增加,这表明它已经隐含地学习了基本的物理原理。
这种方法与语言模型的运作方式有根本的不同。这些系统不是通过以概率方式预测序列中的下一个标记,而是学习以多个抽象级别表示世界,并预测它们的表示在不同条件下如何演变。
立昆认为,未来可能仍存在语言模型,但它们将发挥更狭窄的作用:“LLM有一个小小的作用,那就是将抽象的思维转化为语言。” 他提出了一个神经学类比:“在人类大脑中,这一功能由布洛卡区负责,就在这里”,他指着自己左太阳穴附近的一个小区域说道。“这个功能只是在几十万年前才出现的。如果你失去[布洛卡区的功能],你可以思考,只是无法表达你的想法。”
尽管立昆教授(立昆)批评了如今的人工智能系统:“我们远远没有达到人类水平的智能。明天不会发生。”,但他并不是一位技术悲观主义者。相反,他认为,“人工智能将对社会产生类似15世纪印刷术所产生的转变性影响。”但在他的愿景中,影响将通过增强人类智能而不是取代它来体现。“人类工作的本质将在概念上和质量上发生变化。”他预测说,“我认为这与以往技术革命所发生的事情并没有太大不同,物理力量被机器力量取代,一些智力或办公任务被计算机取代。”
立昆与许多AI 未来学家(包括他的前博士后导师和联合图灵奖得主及诺贝尔奖Geoffrey Hinton)的不同之处在于他对生存风险的评估。当Hinton 于2023 年从谷歌退休时,他警告说,“存在一个严重的危险,我们很快就会变得比我们更聪明,而这些事情可能会产生不良动机并取得控制权,”并补充说,“这不仅仅是一个科幻小说中的问题。这是一个严重的问题,可能很快就会出现。去年12 月,辛顿教授 估计,到2030 年,当前的AI 系统有10% 到20% 的可能性导致人类灭绝。
立昆强硬地反驳了这种担忧。他坚称:“这完全不正确,因为首先,我认为人们过分赞扬和给予纯智力太多权力。”他简洁地补充道:“看看今天的政治局势,很难说智力实际上是如此重要的因素。那些最聪明的人通常不是领导者或首领。”
立昆的乐观主要源于对人工智能系统在物理世界中可以实际控制的实际评估。虽然电影情节经常描绘人工智能失控,控制着广阔资源并控制重要基础设施,立昆指出,这样的能力不仅需要智能,还需要人工智能系统无法具备的物理控制和访问权限。他还认为人工智能系统很容易受到限制。“关于人工智能系统的好处在于,你可以设计得它无法突破限制。人类可以违法是因为我们有自由意志。”
他还对智力和控制相关的假设提出质疑,指出历史上许多最杰出的头脑,比如爱因斯坦或费曼,既不富裕也不具有权力。在他看来,单单把太多的权力归因于智力会忽视其他潜在更危险的人类弱点:“我们喜欢认为智力是人类的一切,但一种病毒可以让我们崩溃,它们并不特别聪明。”
他设想了一个未来,在那里AI系统形成一种自我调节的生态系统:“这将是一个机器之间互动的社会,”他预测道。如果一个系统表现不端,他表示,“你会有其他更聪明的AI系统可以将其关闭。这将像是我的智能AI警察对抗你的叛逆AI。”
作者:Marcus Weldon,《新闻周刊》AI特约编辑兼贝尔实验室名誉总裁
我一直对杨立昆产生的多学科见解印象深刻。很少能找到一个对如此多样的主题有着有意义水平的知识和理解,并且单独敢于直言不讳的人。对于其中一个最有技能和创新精神的人来说,他既不吹捧也不贬低当前的技术,而只是把它们放在适当的背景下,这是特别令人耳目一新的。有五个关键主题对我来说尤为突出,我在这里更深入地探讨:
生成式人工智能模型基本上存在局限性,因为它们无法代表表征我们世界几乎所有方面的连续高维空间。
因此,AI的未来不能是扩展这些固有缺陷的模型,而必须构建包含我们世界的抽象表示的模型,这些模型可以被探索、可以预测和可以规划
人类智能,乃至类人机器智能,是分层的,由许多层次、类型和时间尺度组成,我们目前远未能够代表这种丰富的功能和能力的纺织结构。
智力并非一切,它当然是一个关键因素,但比起受激励的身体、心理或生物力量来说,它的影响力要小得多。因此,人工智能并不是一个自然存在的威胁。
未来将由具有系统1 和系统2 能力的“机器社会”组成,这些机器将增强人类的能力。它们将存在于我们下方的一个新的人机社会等级制度中,因为它们受到这些系统中内置的护栏的约束,而必须按照我们的要求行事。
这些课程补充和加强了我之前与Rodney Brooks和David Eagleman的对话,形成了我们AI丰富未来的清晰和一致的新兴图景。
在这个未来中,人类将转向更多的管理角色,将人工智能系统作为工具而不是被取代。立昆建议说:“每个人都将成为某种CEO,或者至少是经理。”“我们将看到人类在等级制度中迈向更高的层次。我们将拥有一个低于我们的层次,那就是那些人工智能系统。”但是,他强调说,“它们可能比我们更聪明,但它们将听从我们的指挥。”
这种增强而不是取代的愿景与Brooks和Eagleman的观点一致。正如Eagleman告诉《新闻周刊》的那样,“现在,一切都在共同驾驶,我们正在走向一个未来,在那里会有越来越多的自主系统来照顾事情。”
为了这种未来能够安全和公平地实现,立昆 强烈主张AI 技术的开源开发。他认为:"开源是必要的,因为没有一个国家能够在没有开源模型的情况下拥有AI 主权,因为他们可以在其基础上建立自己的主权。"
立昆回到今天人工智能与他认为最终会取代它们的系统之间的基本区别。他说,目前的语言系统只是被训练“只是预测文本中的下一个单词”。要使这些系统在复杂的知识任务上更加熟练,“那么就会有一个日益昂贵的微调阶段。因此,你训练它们回答特定类型的问题,但你不训练它们去为以前从未遇到的新问题创造新解决方案。”
他对比了两种编程方法:系统1 方法(快思考)是使用AI 生成统计上合理的代码,然后反复测试它,进行更改直到它正常工作。关于后一种方法(慢思考),杨立昆教授说:“它很昂贵,因为它是测试时计算。它是指数级的— 成本高出n 倍,因为可能性之树越来越宽。相反,人类的System 2 方法更加线性,因为它由一个明确的目标和为实现该目标而构建的代码组成,在经验丰富的编码人员手中,这些目标更有可能大部分是正确的,只有少数错误需要修复。
消除当前人工智能系统与最佳解决方案之间的指数效率差距,这就是为什么杨立昆认为,专注于世界模型和规划的方法最终将超越当今在狭窄领域中令人印象深刻的大型语言模型。“我已经多次说过,如果在我退休时我们有像猫一样聪明的系统,那我会很高兴,”杨立昆笑着说道。“顺便说一句,退休的日子即将到来,所以我没多少时间了!”
来源:人工智能学家