图灵奖得主现场追问:AI 还没越过这 3 道认知墙,谈什么通用智能?

360影视 国产动漫 2025-05-15 17:23 1

摘要:最近的一两周时间里,65 岁图灵奖得主 、Meta首席AI科学家Yann LeCun(杨立昆) 先后出现在新加坡国立大学与宾大工程学院的讲台。他没有谈参数,也没有夸算力,而是抛出一句让全场安静的反问——

最近的一两周时间里,65 岁图灵奖得主 、Meta首席AI科学家Yann LeCun(杨立昆) 先后出现在新加坡国立大学与宾大工程学院的讲台。他没有谈参数,也没有夸算力,而是抛出一句让全场安静的反问——

“当模型连‘杯子在桌子上’都可能答错,为什么我们敢说它懂世界?”

随后,LeCun把今天的大模型困境归结为 3 道“认知墙”:

世界模型缺席——读了亿级文本,却没真正“看过”世界持久记忆短缺——对话稍微拉长就“失忆”,更别提常识沉淀因果推理断裂——只会预测下一个词,却推不出“如果…那么…”

他直言:“算力再翻十倍,也翻不出常识。”

这场“现场追问”并非学术争鸣,而是对整条 AI 产业链的敲钟:

如果世界模型仍是空白,下一轮突破靠什么?长时记忆补不上,企业数据如何转化为生产力?因果推理不成型,何谈真正的通用智能(AGI)?

本文基于两场对话的完整实录与 Q&A 记录,拆开 LeCun 提到的 3 道墙各自的技术症结、产业影响与破局路线,让你在 5 分钟内画出下一代 AI 的真正起跑线。

“我们最聪明的 AI 系统,连猫都不如。它们不能理解物理世界的常识。” ——Yann LeCun

LeCun 在演讲一开始,抛出了一个令人不安的比喻。

他举了个简单例子: 如果你把一个球在桌上滚出去,人类——哪怕是三岁的孩子,或者你的宠物狗——都知道球会出现在桌子的另一侧。

但今天的大语言模型不行。

它们不懂 “物体永久性” 这个简单的概念。甚至不会意识到一个物体在离开视野后,并没有从世界上消失。这是人类发展心理学中儿童18个月大时就能掌握的基本常识。LeCun直言:

“我们现在的 AI 系统,在这方面连狗都不如。”

问题不在于数据,而在于“看世界的方式”

听起来不可思议:训练了30万亿个 token 的 LLM,居然理解不了一个掉下去的杯子?

但 LeCun 提醒我们:语言,不等于理解;token,不等于世界。

“我们可以喂它几十万亿个token,它依然不知道物体会掉落、会滚动、会被遮挡后再次出现。”

这是第一道认知墙:当前主流的 AI 系统,是从语言出发的,而不是从世界出发的。

它看到的是文字,不是实体。它预测的是下一个词,不是下一个状态。

它没有感知,没有因果,也没有具身经验。只是在文字世界里“猜下一步”。

LeCun的解法:预测真实,而非生成语言

LeCun认为,越过这堵“物理常识缺失”的墙,关键不在于调模型、堆算力,而在于:

让系统具备对现实的抽象建模能力,而不是只是生成语言。

他指出,真正的路径不是生成语言,而是预测现实的状态变化。

这个方向,我们将在下面详细展开。

为什么这堵墙最难,但也最值得跨越?

如果说第一代AI是识别图像,第二代AI是生成语言,那第三代AI,就必须是理解现实本身。

LeCun提醒我们:大语言模型很实用,但它们解决的,是表达,不是理解。

今天的AI,可以告诉你‘这个杯子掉了’,但它不知道‘为什么会掉’。

而真正的智能,正是从“因果理解”开始的。

不是让AI变得更能“说”,而是更能“懂”。

“大语言模型并不真正拥有记忆。它们只是看得更多,但记不住任何事。” ——Yann LeCun

如果说第一道墙让我们发现 AI 看不懂现实,那第二道墙揭示的是:它根本记不住自己看过的东西。

这不是工程问题,而是结构性缺陷。

当前主流模型使用的是窗口式上下文机制:你告诉它一段话,它在这个窗口内预测输出。但一旦窗口过去,它就什么都忘了。

LeCun打了个数据比喻:

“我们一个4岁的孩子在成长过程中大概接收了 10¹⁴ 字节的信息。而一个 GPT 级别的模型,也训练了 10¹⁴ 字节的 token。”

数据量看起来相似,但差别巨大。

人类不是只“看”这么多——而是整合、抽象、积累并持续更新。而大模型只是“扫一遍,然后忘掉”。

这就是为什么模型越大,输出却越来越“无主体感”

它没有长期记忆去形成一个“世界状态”;它也无法在一次对话中持续建立角色、目标、意图等抽象信息;它只是在短期输入上反复压缩、临时预测。

这也是你为什么和一个 AI 聊天,常常感到“它好像聪明,但又不稳定、没逻辑”。它不是逻辑崩塌了,它只是从来没有建立起逻辑。

LeCun并没有回避难题。他明确指出,要跨越这道墙,AI系统必须具备:

长期可更新的记忆结构(persistent memory)+ 抽象表征系统(abstract representation)

这不是把上下文窗口加长那么简单,而是:

系统要能“记得住概念”;要能形成“角色、关系、目标”等非语言性模型;更重要的是,要能在未来使用这些记忆进行推理与判断。

这已经不是NLP范畴的问题了,而是认知科学的问题。

所以,它可以生成一千种方案,但无法回忆昨天哪一种成功。

这是第二道墙。

“我们今天的大语言模型,不是在思考,而是在猜下一个词。” ——Yann LeCun

大语言模型能一口气写出一篇合格的新闻稿,却写不出推理链。不是因为它逻辑差,而是根本就没有逻辑结构。

LeCun指出:当前 LLM 的核心机制,本质是“自回归生成”—— 它看一串词,预测下一个词。 再看这串词,再继续猜。

这就是第三道认知墙:语言模型没有推理结构,只有续写机制。

这是一种语言压缩机制,不是推理过程。

推理,意味着目标导向的结构展开

真正的推理不是“接下来该说什么”,而是:

面对一个从未遇见的问题;在脑中调用规则、模型和假设;一步步演绎、分解、验证。

LeCun强调,大语言模型在结构上根本不具备这套能力:

“语言模型不是问题求解器,它只是一个自编码器,以预测为本能。”

他公开反对“奖励足够了”这类路径幻想

在一次回答中,他直接点名:“我完全、百分之百不同意《奖励足够了》这篇论文的观点。”

这篇由 David Silver 和 DeepMind 团队撰写的文章主张:智能可以纯粹通过强化学习、奖励信号逐步涌现。

LeCun认为,这种想法过于理想化——

强化学习或奖励机制可以塑造行为,但不能构建结构化世界模型; 更不能解释人类解决问题时,所依赖的抽象、因果、归纳等能力从何而来。

没有内部模型,AI 只能“碰运气”

这也是为什么,当前 LLM 在处理复杂任务时需要:

提示词编排;Chain-of-Thought 提示引导;工程师人为干预。

换句话说,它不是在“理解”问题,而是在“配合”提示。

真正的智能,不是靠提示生出来的。

“我们要让系统预测现实,而不是续写句子。” ——Yann LeCun

面对三道认知墙,LeCun没有回避,而是给出了解决路径。

不是训练更大的语言模型,也不是堆更多GPU, 而是——重新设计智能系统的基本架构。

他提出的方向叫做:JEPA,全称 Joint Embedding Predictive Architecture,中文可译为“联合嵌入预测架构”。

JEPA 的核心思想:不是生成内容,而是预测状态

LLM 是语言驱动的,JEPA 是感知驱动的。

LeCun强调,它不依赖 token,不生成句子,也不进行语言建模。 它的目标,是在抽象的“世界表示空间”中,预测下一种状态的潜在表示。

我们不是让系统在像素层面重建视频,而是在高层抽象空间中预测接下来会发生什么。

为什么要预测表示,而不是还原原始数据?

LeCun指出:视频、音频等连续信号高度复杂,预测像素几乎不可能。 但我们可以先学习一个低维度的、抽象的“潜在表示空间”,再在这个空间中进行预测。

这类似人脑在看见一段动作后,不是还原每一帧,而是形成一个动态理解模型。

JEPA 的区别在哪里?

JEPA 是 LeCun 概念中的“高级机器智能”(AMI)架构的底座。

JEPA 不是商业上的“下一代模型”,而是方向上的重新定向。

LeCun的回答很清晰:如果我们不改变底层架构,就永远造不出真正懂世界的 AI。

LeCun并不回避“通用人工智能”这个话题。但他的态度很明确:他不信 AGI,也不追 AGI。

他认为这个概念存在两个根本问题:

误判了人类智能的本质掩盖了真正的系统设计路径

人类智能,从来不是“通用”的

人类智能是非常专门化的,只是在我们擅长的任务上看起来很强。

LeCun提出一个看似挑衅,实则深刻的观点:我们之所以觉得自己“通用”,是因为我们无法意识到那些我们永远无法理解的事物。

所以我们误以为:我们能理解的,就是全部。

而 AGI,恰恰建立在这种错觉之上。

AMI:比“通用”更现实的目标

LeCun提出一个替代概念:AMI(Advanced Machine Intelligence)

它的特征不是“无所不能”,而是具备以下核心能力:

对现实有抽象建模能力(世界模型)有持久记忆和状态追踪机制能规划、分解任务、做中长期推理能通过多模态感知和环境互动逐步学习

AMI 不是试图“模拟人类”,而是构建适合机器自身的智能系统架构。这是一种系统理性,而非幻想超越。

为什么 AMI 更重要?

AGI是一个故事,AMI是一个系统。

前者吸引投资,后者真正推进能力边界。

LeCun的选择很明确:他不站在 hype 上,他站在架构底层。

“学术界不该再追 LLM,应该去做工业界没时间做的事。” ——Yann LeCun

LeCun的这句话,像是对整个AI创业圈泼下的一盆冷水。

所有人都在调模型、堆RAG、炼提示词。 但在他看来,这种热闹的局面,本质上是资源错配。

LLM 已是产业路线,创新窗口正迅速关闭

LeCun点出一个现实:“LLM 已经掌握在工业界手里,几家公司用几千张 GPU,配几百名工程师在打磨。学术界很难再贡献突破性的东西。”

这话也适用于大多数 AI 初创公司。

如果你做的,是“训练大模型”或“在大模型上包皮”,那么你面临的,不是技术门槛,而是资源垄断与同质化淘汰赛。

真正的“空白地带”,藏在三道认知墙之后

LeCun给出了新的方向:

具身智能(Embodied AI)多模态感知(视觉+触觉+动作)表示学习与预测建模(JEPA架构)长期记忆与推理能力

这些并不是市场热点,但它们有一个共同特征:

没人有现成方案,没人规模化做,没人垄断 GPU。

这才是技术创业者最应该押注的地方。

创业机会,不在模型后缀,而在架构前提

不是 GPT-Next、Claude-Plus、LLaMA-Max, 而是:

谁能构建新一代“表示系统”;谁能让 AI 理解连续世界;谁能让系统从行动中自主学习。

LLM 是终点,JEPA 是起点。

真正的下一代 AI,不是能说得更顺,而是能想得更深。

我们理解的“智能”,到底是什么?

当全世界都在追求更大的模型、更低的token成本、更快的输出速度, LeCun却回到起点,追问了三件事:

AI 看得见世界,但看得懂吗?它能说一段话,但能记住刚才那句话吗?它能接得上节奏,但知道要往哪去吗?

如果这些都不能,智能不过是算法的幻觉。

在这场由 OpenAI 引爆的大模型竞赛中, 越来越多的人误把 token 的生成能力,当成智能的全部。

能不能建构世界模型?能不能规划行动?能不能拥有自己的“认知系统”?

来源:趣闻捕手一点号

相关推荐