摘要:最近的一两周时间里,65 岁图灵奖得主 、Meta首席AI科学家Yann LeCun(杨立昆) 先后出现在新加坡国立大学与宾大工程学院的讲台。他没有谈参数,也没有夸算力,而是抛出一句让全场安静的反问——
最近的一两周时间里,65 岁图灵奖得主 、Meta首席AI科学家Yann LeCun(杨立昆) 先后出现在新加坡国立大学与宾大工程学院的讲台。他没有谈参数,也没有夸算力,而是抛出一句让全场安静的反问——
“当模型连‘杯子在桌子上’都可能答错,为什么我们敢说它懂世界?”
随后,LeCun把今天的大模型困境归结为 3 道“认知墙”:
世界模型缺席——读了亿级文本,却没真正“看过”世界持久记忆短缺——对话稍微拉长就“失忆”,更别提常识沉淀因果推理断裂——只会预测下一个词,却推不出“如果…那么…”他直言:“算力再翻十倍,也翻不出常识。”
这场“现场追问”并非学术争鸣,而是对整条 AI 产业链的敲钟:
如果世界模型仍是空白,下一轮突破靠什么?长时记忆补不上,企业数据如何转化为生产力?因果推理不成型,何谈真正的通用智能(AGI)?本文基于两场对话的完整实录与 Q&A 记录,拆开 LeCun 提到的 3 道墙各自的技术症结、产业影响与破局路线,让你在 5 分钟内画出下一代 AI 的真正起跑线。
“我们最聪明的 AI 系统,连猫都不如。它们不能理解物理世界的常识。” ——Yann LeCun
LeCun 在演讲一开始,抛出了一个令人不安的比喻。
他举了个简单例子: 如果你把一个球在桌上滚出去,人类——哪怕是三岁的孩子,或者你的宠物狗——都知道球会出现在桌子的另一侧。
但今天的大语言模型不行。
它们不懂 “物体永久性” 这个简单的概念。甚至不会意识到一个物体在离开视野后,并没有从世界上消失。这是人类发展心理学中儿童18个月大时就能掌握的基本常识。LeCun直言:
“我们现在的 AI 系统,在这方面连狗都不如。”
问题不在于数据,而在于“看世界的方式”
听起来不可思议:训练了30万亿个 token 的 LLM,居然理解不了一个掉下去的杯子?
但 LeCun 提醒我们:语言,不等于理解;token,不等于世界。
“我们可以喂它几十万亿个token,它依然不知道物体会掉落、会滚动、会被遮挡后再次出现。”
这是第一道认知墙:当前主流的 AI 系统,是从语言出发的,而不是从世界出发的。
它看到的是文字,不是实体。它预测的是下一个词,不是下一个状态。
它没有感知,没有因果,也没有具身经验。只是在文字世界里“猜下一步”。
LeCun的解法:预测真实,而非生成语言
LeCun认为,越过这堵“物理常识缺失”的墙,关键不在于调模型、堆算力,而在于:
让系统具备对现实的抽象建模能力,而不是只是生成语言。
他指出,真正的路径不是生成语言,而是预测现实的状态变化。
这个方向,我们将在下面详细展开。
为什么这堵墙最难,但也最值得跨越?
如果说第一代AI是识别图像,第二代AI是生成语言,那第三代AI,就必须是理解现实本身。
LeCun提醒我们:大语言模型很实用,但它们解决的,是表达,不是理解。
今天的AI,可以告诉你‘这个杯子掉了’,但它不知道‘为什么会掉’。
而真正的智能,正是从“因果理解”开始的。
不是让AI变得更能“说”,而是更能“懂”。
“大语言模型并不真正拥有记忆。它们只是看得更多,但记不住任何事。” ——Yann LeCun
如果说第一道墙让我们发现 AI 看不懂现实,那第二道墙揭示的是:它根本记不住自己看过的东西。
这不是工程问题,而是结构性缺陷。
当前主流模型使用的是窗口式上下文机制:你告诉它一段话,它在这个窗口内预测输出。但一旦窗口过去,它就什么都忘了。
LeCun打了个数据比喻:
“我们一个4岁的孩子在成长过程中大概接收了 10¹⁴ 字节的信息。而一个 GPT 级别的模型,也训练了 10¹⁴ 字节的 token。”
数据量看起来相似,但差别巨大。
人类不是只“看”这么多——而是整合、抽象、积累并持续更新。而大模型只是“扫一遍,然后忘掉”。
这就是为什么模型越大,输出却越来越“无主体感”
它没有长期记忆去形成一个“世界状态”;它也无法在一次对话中持续建立角色、目标、意图等抽象信息;它只是在短期输入上反复压缩、临时预测。这也是你为什么和一个 AI 聊天,常常感到“它好像聪明,但又不稳定、没逻辑”。它不是逻辑崩塌了,它只是从来没有建立起逻辑。
LeCun并没有回避难题。他明确指出,要跨越这道墙,AI系统必须具备:
长期可更新的记忆结构(persistent memory)+ 抽象表征系统(abstract representation)
这不是把上下文窗口加长那么简单,而是:
系统要能“记得住概念”;要能形成“角色、关系、目标”等非语言性模型;更重要的是,要能在未来使用这些记忆进行推理与判断。这已经不是NLP范畴的问题了,而是认知科学的问题。
所以,它可以生成一千种方案,但无法回忆昨天哪一种成功。
这是第二道墙。
“我们今天的大语言模型,不是在思考,而是在猜下一个词。” ——Yann LeCun
大语言模型能一口气写出一篇合格的新闻稿,却写不出推理链。不是因为它逻辑差,而是根本就没有逻辑结构。
LeCun指出:当前 LLM 的核心机制,本质是“自回归生成”—— 它看一串词,预测下一个词。 再看这串词,再继续猜。
这就是第三道认知墙:语言模型没有推理结构,只有续写机制。
这是一种语言压缩机制,不是推理过程。
推理,意味着目标导向的结构展开
真正的推理不是“接下来该说什么”,而是:
面对一个从未遇见的问题;在脑中调用规则、模型和假设;一步步演绎、分解、验证。LeCun强调,大语言模型在结构上根本不具备这套能力:
“语言模型不是问题求解器,它只是一个自编码器,以预测为本能。”
他公开反对“奖励足够了”这类路径幻想
在一次回答中,他直接点名:“我完全、百分之百不同意《奖励足够了》这篇论文的观点。”
这篇由 David Silver 和 DeepMind 团队撰写的文章主张:智能可以纯粹通过强化学习、奖励信号逐步涌现。
LeCun认为,这种想法过于理想化——
强化学习或奖励机制可以塑造行为,但不能构建结构化世界模型; 更不能解释人类解决问题时,所依赖的抽象、因果、归纳等能力从何而来。
没有内部模型,AI 只能“碰运气”
这也是为什么,当前 LLM 在处理复杂任务时需要:
提示词编排;Chain-of-Thought 提示引导;工程师人为干预。换句话说,它不是在“理解”问题,而是在“配合”提示。
真正的智能,不是靠提示生出来的。
“我们要让系统预测现实,而不是续写句子。” ——Yann LeCun
面对三道认知墙,LeCun没有回避,而是给出了解决路径。
不是训练更大的语言模型,也不是堆更多GPU, 而是——重新设计智能系统的基本架构。
他提出的方向叫做:JEPA,全称 Joint Embedding Predictive Architecture,中文可译为“联合嵌入预测架构”。
JEPA 的核心思想:不是生成内容,而是预测状态
LLM 是语言驱动的,JEPA 是感知驱动的。
LeCun强调,它不依赖 token,不生成句子,也不进行语言建模。 它的目标,是在抽象的“世界表示空间”中,预测下一种状态的潜在表示。
我们不是让系统在像素层面重建视频,而是在高层抽象空间中预测接下来会发生什么。
为什么要预测表示,而不是还原原始数据?
LeCun指出:视频、音频等连续信号高度复杂,预测像素几乎不可能。 但我们可以先学习一个低维度的、抽象的“潜在表示空间”,再在这个空间中进行预测。
这类似人脑在看见一段动作后,不是还原每一帧,而是形成一个动态理解模型。
JEPA 的区别在哪里?
JEPA 是 LeCun 概念中的“高级机器智能”(AMI)架构的底座。
JEPA 不是商业上的“下一代模型”,而是方向上的重新定向。
LeCun的回答很清晰:如果我们不改变底层架构,就永远造不出真正懂世界的 AI。
LeCun并不回避“通用人工智能”这个话题。但他的态度很明确:他不信 AGI,也不追 AGI。
他认为这个概念存在两个根本问题:
误判了人类智能的本质掩盖了真正的系统设计路径人类智能,从来不是“通用”的
人类智能是非常专门化的,只是在我们擅长的任务上看起来很强。
LeCun提出一个看似挑衅,实则深刻的观点:我们之所以觉得自己“通用”,是因为我们无法意识到那些我们永远无法理解的事物。
所以我们误以为:我们能理解的,就是全部。
而 AGI,恰恰建立在这种错觉之上。
AMI:比“通用”更现实的目标
LeCun提出一个替代概念:AMI(Advanced Machine Intelligence)
它的特征不是“无所不能”,而是具备以下核心能力:
对现实有抽象建模能力(世界模型)有持久记忆和状态追踪机制能规划、分解任务、做中长期推理能通过多模态感知和环境互动逐步学习AMI 不是试图“模拟人类”,而是构建适合机器自身的智能系统架构。这是一种系统理性,而非幻想超越。
为什么 AMI 更重要?
AGI是一个故事,AMI是一个系统。
前者吸引投资,后者真正推进能力边界。
LeCun的选择很明确:他不站在 hype 上,他站在架构底层。
“学术界不该再追 LLM,应该去做工业界没时间做的事。” ——Yann LeCun
LeCun的这句话,像是对整个AI创业圈泼下的一盆冷水。
所有人都在调模型、堆RAG、炼提示词。 但在他看来,这种热闹的局面,本质上是资源错配。
LLM 已是产业路线,创新窗口正迅速关闭
LeCun点出一个现实:“LLM 已经掌握在工业界手里,几家公司用几千张 GPU,配几百名工程师在打磨。学术界很难再贡献突破性的东西。”
这话也适用于大多数 AI 初创公司。
如果你做的,是“训练大模型”或“在大模型上包皮”,那么你面临的,不是技术门槛,而是资源垄断与同质化淘汰赛。
真正的“空白地带”,藏在三道认知墙之后
LeCun给出了新的方向:
具身智能(Embodied AI)多模态感知(视觉+触觉+动作)表示学习与预测建模(JEPA架构)长期记忆与推理能力这些并不是市场热点,但它们有一个共同特征:
没人有现成方案,没人规模化做,没人垄断 GPU。
这才是技术创业者最应该押注的地方。
创业机会,不在模型后缀,而在架构前提
不是 GPT-Next、Claude-Plus、LLaMA-Max, 而是:
谁能构建新一代“表示系统”;谁能让 AI 理解连续世界;谁能让系统从行动中自主学习。LLM 是终点,JEPA 是起点。
真正的下一代 AI,不是能说得更顺,而是能想得更深。
我们理解的“智能”,到底是什么?
当全世界都在追求更大的模型、更低的token成本、更快的输出速度, LeCun却回到起点,追问了三件事:
AI 看得见世界,但看得懂吗?它能说一段话,但能记住刚才那句话吗?它能接得上节奏,但知道要往哪去吗?如果这些都不能,智能不过是算法的幻觉。
在这场由 OpenAI 引爆的大模型竞赛中, 越来越多的人误把 token 的生成能力,当成智能的全部。
能不能建构世界模型?能不能规划行动?能不能拥有自己的“认知系统”?来源:趣闻捕手一点号