图灵奖得主现场追问：AI 还没越过这 3 道认知墙，谈什么通用智能？

摘要：最近的一两周时间里，65 岁图灵奖得主、Meta首席AI科学家Yann LeCun（杨立昆）先后出现在新加坡国立大学与宾大工程学院的讲台。他没有谈参数，也没有夸算力，而是抛出一句让全场安静的反问——

最近的一两周时间里，65 岁图灵奖得主、Meta首席AI科学家Yann LeCun（杨立昆）先后出现在新加坡国立大学与宾大工程学院的讲台。他没有谈参数，也没有夸算力，而是抛出一句让全场安静的反问——

“当模型连‘杯子在桌子上’都可能答错，为什么我们敢说它懂世界？”

随后，LeCun把今天的大模型困境归结为 3 道“认知墙”：

世界模型缺席——读了亿级文本，却没真正“看过”世界持久记忆短缺——对话稍微拉长就“失忆”，更别提常识沉淀因果推理断裂——只会预测下一个词，却推不出“如果…那么…”

他直言：“算力再翻十倍，也翻不出常识。”

这场“现场追问”并非学术争鸣，而是对整条 AI 产业链的敲钟：

如果世界模型仍是空白，下一轮突破靠什么？长时记忆补不上，企业数据如何转化为生产力？因果推理不成型，何谈真正的通用智能（AGI）？

本文基于两场对话的完整实录与 Q&A 记录，拆开 LeCun 提到的 3 道墙各自的技术症结、产业影响与破局路线，让你在 5 分钟内画出下一代 AI 的真正起跑线。

“我们最聪明的 AI 系统，连猫都不如。它们不能理解物理世界的常识。” ——Yann LeCun

LeCun 在演讲一开始，抛出了一个令人不安的比喻。

他举了个简单例子：如果你把一个球在桌上滚出去，人类——哪怕是三岁的孩子，或者你的宠物狗——都知道球会出现在桌子的另一侧。

但今天的大语言模型不行。

它们不懂 “物体永久性” 这个简单的概念。甚至不会意识到一个物体在离开视野后，并没有从世界上消失。这是人类发展心理学中儿童18个月大时就能掌握的基本常识。LeCun直言：

“我们现在的 AI 系统，在这方面连狗都不如。”

问题不在于数据，而在于“看世界的方式”

听起来不可思议：训练了30万亿个 token 的 LLM，居然理解不了一个掉下去的杯子？

但 LeCun 提醒我们：语言，不等于理解；token，不等于世界。

“我们可以喂它几十万亿个token，它依然不知道物体会掉落、会滚动、会被遮挡后再次出现。”

这是第一道认知墙：当前主流的 AI 系统，是从语言出发的，而不是从世界出发的。

它看到的是文字，不是实体。它预测的是下一个词，不是下一个状态。

它没有感知，没有因果，也没有具身经验。只是在文字世界里“猜下一步”。

LeCun的解法：预测真实，而非生成语言

LeCun认为，越过这堵“物理常识缺失”的墙，关键不在于调模型、堆算力，而在于：

让系统具备对现实的抽象建模能力，而不是只是生成语言。

他指出，真正的路径不是生成语言，而是预测现实的状态变化。

这个方向，我们将在下面详细展开。

为什么这堵墙最难，但也最值得跨越？

如果说第一代AI是识别图像，第二代AI是生成语言，那第三代AI，就必须是理解现实本身。

LeCun提醒我们：大语言模型很实用，但它们解决的，是表达，不是理解。

今天的AI，可以告诉你‘这个杯子掉了’，但它不知道‘为什么会掉’。

而真正的智能，正是从“因果理解”开始的。

不是让AI变得更能“说”，而是更能“懂”。

“大语言模型并不真正拥有记忆。它们只是看得更多，但记不住任何事。” ——Yann LeCun

如果说第一道墙让我们发现 AI 看不懂现实，那第二道墙揭示的是：它根本记不住自己看过的东西。

这不是工程问题，而是结构性缺陷。

当前主流模型使用的是窗口式上下文机制：你告诉它一段话，它在这个窗口内预测输出。但一旦窗口过去，它就什么都忘了。

LeCun打了个数据比喻：

“我们一个4岁的孩子在成长过程中大概接收了 10¹⁴ 字节的信息。而一个 GPT 级别的模型，也训练了 10¹⁴ 字节的 token。”

数据量看起来相似，但差别巨大。

人类不是只“看”这么多——而是整合、抽象、积累并持续更新。而大模型只是“扫一遍，然后忘掉”。

这就是为什么模型越大，输出却越来越“无主体感”

它没有长期记忆去形成一个“世界状态”；它也无法在一次对话中持续建立角色、目标、意图等抽象信息；它只是在短期输入上反复压缩、临时预测。

这也是你为什么和一个 AI 聊天，常常感到“它好像聪明，但又不稳定、没逻辑”。它不是逻辑崩塌了，它只是从来没有建立起逻辑。

LeCun并没有回避难题。他明确指出，要跨越这道墙，AI系统必须具备：

长期可更新的记忆结构（persistent memory）+ 抽象表征系统（abstract representation）

这不是把上下文窗口加长那么简单，而是：

系统要能“记得住概念”；要能形成“角色、关系、目标”等非语言性模型；更重要的是，要能在未来使用这些记忆进行推理与判断。

这已经不是NLP范畴的问题了，而是认知科学的问题。

所以，它可以生成一千种方案，但无法回忆昨天哪一种成功。

这是第二道墙。

“我们今天的大语言模型，不是在思考，而是在猜下一个词。” ——Yann LeCun

大语言模型能一口气写出一篇合格的新闻稿，却写不出推理链。不是因为它逻辑差，而是根本就没有逻辑结构。

LeCun指出：当前 LLM 的核心机制，本质是“自回归生成”—— 它看一串词，预测下一个词。再看这串词，再继续猜。

这就是第三道认知墙：语言模型没有推理结构，只有续写机制。

这是一种语言压缩机制，不是推理过程。

推理，意味着目标导向的结构展开

真正的推理不是“接下来该说什么”，而是：

面对一个从未遇见的问题；在脑中调用规则、模型和假设；一步步演绎、分解、验证。

LeCun强调，大语言模型在结构上根本不具备这套能力：

“语言模型不是问题求解器，它只是一个自编码器，以预测为本能。”

他公开反对“奖励足够了”这类路径幻想

在一次回答中，他直接点名：“我完全、百分之百不同意《奖励足够了》这篇论文的观点。”

这篇由 David Silver 和 DeepMind 团队撰写的文章主张：智能可以纯粹通过强化学习、奖励信号逐步涌现。

LeCun认为，这种想法过于理想化——

强化学习或奖励机制可以塑造行为，但不能构建结构化世界模型；更不能解释人类解决问题时，所依赖的抽象、因果、归纳等能力从何而来。

没有内部模型，AI 只能“碰运气”

这也是为什么，当前 LLM 在处理复杂任务时需要：

提示词编排；Chain-of-Thought 提示引导；工程师人为干预。

换句话说，它不是在“理解”问题，而是在“配合”提示。

真正的智能，不是靠提示生出来的。

“我们要让系统预测现实，而不是续写句子。” ——Yann LeCun

面对三道认知墙，LeCun没有回避，而是给出了解决路径。

不是训练更大的语言模型，也不是堆更多GPU，而是——重新设计智能系统的基本架构。

他提出的方向叫做：JEPA，全称 Joint Embedding Predictive Architecture，中文可译为“联合嵌入预测架构”。

JEPA 的核心思想：不是生成内容，而是预测状态

LLM 是语言驱动的，JEPA 是感知驱动的。

LeCun强调，它不依赖 token，不生成句子，也不进行语言建模。它的目标，是在抽象的“世界表示空间”中，预测下一种状态的潜在表示。

我们不是让系统在像素层面重建视频，而是在高层抽象空间中预测接下来会发生什么。

为什么要预测表示，而不是还原原始数据？

LeCun指出：视频、音频等连续信号高度复杂，预测像素几乎不可能。但我们可以先学习一个低维度的、抽象的“潜在表示空间”，再在这个空间中进行预测。

这类似人脑在看见一段动作后，不是还原每一帧，而是形成一个动态理解模型。

JEPA 的区别在哪里？

JEPA 是 LeCun 概念中的“高级机器智能”（AMI）架构的底座。

JEPA 不是商业上的“下一代模型”，而是方向上的重新定向。

LeCun的回答很清晰：如果我们不改变底层架构，就永远造不出真正懂世界的 AI。

LeCun并不回避“通用人工智能”这个话题。但他的态度很明确：他不信 AGI，也不追 AGI。

他认为这个概念存在两个根本问题：

误判了人类智能的本质掩盖了真正的系统设计路径

人类智能，从来不是“通用”的

人类智能是非常专门化的，只是在我们擅长的任务上看起来很强。

LeCun提出一个看似挑衅，实则深刻的观点：我们之所以觉得自己“通用”，是因为我们无法意识到那些我们永远无法理解的事物。

所以我们误以为：我们能理解的，就是全部。

而 AGI，恰恰建立在这种错觉之上。

AMI：比“通用”更现实的目标

LeCun提出一个替代概念：AMI（Advanced Machine Intelligence）

它的特征不是“无所不能”，而是具备以下核心能力：

对现实有抽象建模能力（世界模型）有持久记忆和状态追踪机制能规划、分解任务、做中长期推理能通过多模态感知和环境互动逐步学习

AMI 不是试图“模拟人类”，而是构建适合机器自身的智能系统架构。这是一种系统理性，而非幻想超越。

为什么 AMI 更重要？

AGI是一个故事，AMI是一个系统。

前者吸引投资，后者真正推进能力边界。

LeCun的选择很明确：他不站在 hype 上，他站在架构底层。

“学术界不该再追 LLM，应该去做工业界没时间做的事。” ——Yann LeCun

LeCun的这句话，像是对整个AI创业圈泼下的一盆冷水。

所有人都在调模型、堆RAG、炼提示词。但在他看来，这种热闹的局面，本质上是资源错配。

LLM 已是产业路线，创新窗口正迅速关闭

LeCun点出一个现实：“LLM 已经掌握在工业界手里，几家公司用几千张 GPU，配几百名工程师在打磨。学术界很难再贡献突破性的东西。”

这话也适用于大多数 AI 初创公司。

如果你做的，是“训练大模型”或“在大模型上包皮”，那么你面临的，不是技术门槛，而是资源垄断与同质化淘汰赛。

真正的“空白地带”，藏在三道认知墙之后

LeCun给出了新的方向：

具身智能（Embodied AI）多模态感知（视觉+触觉+动作）表示学习与预测建模（JEPA架构）长期记忆与推理能力

这些并不是市场热点，但它们有一个共同特征：

没人有现成方案，没人规模化做，没人垄断 GPU。

这才是技术创业者最应该押注的地方。

创业机会，不在模型后缀，而在架构前提

不是 GPT-Next、Claude-Plus、LLaMA-Max，而是：

谁能构建新一代“表示系统”；谁能让 AI 理解连续世界；谁能让系统从行动中自主学习。

LLM 是终点，JEPA 是起点。

真正的下一代 AI，不是能说得更顺，而是能想得更深。

我们理解的“智能”，到底是什么？

当全世界都在追求更大的模型、更低的token成本、更快的输出速度， LeCun却回到起点，追问了三件事：

AI 看得见世界，但看得懂吗？它能说一段话，但能记住刚才那句话吗？它能接得上节奏，但知道要往哪去吗？

如果这些都不能，智能不过是算法的幻觉。

在这场由 OpenAI 引爆的大模型竞赛中，越来越多的人误把 token 的生成能力，当成智能的全部。

能不能建构世界模型？能不能规划行动？能不能拥有自己的“认知系统”？

来源：趣闻捕手一点号

标签：智能 llm 通用图灵奖 yann

本文地址：https://news.43u.com.cn/a/1590988.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐