摘要:据外媒Business Insider报道,今年早些时候在巴黎举行的AI Action Summit上,Meta首席人工智能(AI)科学家杨立昆(Yann LeCun)指出,当前AI虽在多个领域展现惊人能力,其仍缺乏理解物理世界、持久记忆、逻辑推理与分层规划四
编译 | 王涵
编辑 | 漠影
智东西5月27日消息,据外媒Business Insider报道,今年早些时候在巴黎举行的AI Action Summit上,Meta首席人工智能(AI)科学家杨立昆(Yann LeCun)指出,当前AI虽在多个领域展现惊人能力,其仍缺乏理解物理世界、持久记忆、逻辑推理与分层规划四大人类智能核心特征。
据外媒VentureBeat此前报道,科技巨头们的行动印证了这一判断,开始从“打补丁”式优化转向“世界模型”架构革新,谷歌等企业已将其纳入战略布局。
这场围绕AI本质的探索,不仅关乎技术突破,更指向人机认知边界的未来走向。
一、AI模型缺乏4个人类特征:理解、记忆、推理与规划所有智能生命的共同点是什么?今年早些时候在巴黎举行的AI Action Summit上,图灵奖得主、Meta首席AI科学家杨立昆与IBM AI负责人安东尼·安农齐亚塔(Anthony Annunziata)分享了其对智能行为的基准定义:
“所有动物——至少是相对聪明的动物——都具备四种基本智能特征,人类当然也不例外,”杨立昆阐述道,“理解物理世界、拥有持久记忆、进行逻辑推理,以及制定复杂行动计划的能力,特别是分层规划能力。”
杨立昆认为,当前AI(尤其是大语言模型)尚未达到该阈值,要实现这些能力需变革训练范式。他解释这正是科技巨头们在AI竞赛中不断为现有模型“打补丁”的原因:“为理解物理世界,就训练独立的视觉系统然后硬塞进LLM;为实现记忆功能,要么采用RAG(检索增强生成),要么外挂关联记忆模块,或者简单粗暴地扩大模型规模。”
Meta首席AI科学家杨立昆(Yann LeCun)
二、“世界模型”构建抽象层级来理解物理世界但杨立昆直言这些只是“权宜之计”。他多次倡导的“世界模型”(world model)替代方案,是通过现实场景训练、具备比模式识别AI更高认知水平的架构。在与安农齐亚塔对话中,他给出新定义:“获取时间T的世界状态后,设想可能采取的行动,世界模型就能预测行动后的新状态。”
不过现实世界演化存在无限不可预测性,杨立昆认为唯一训练途径是抽象化。Meta今年2月开源的V-JEPA模型正进行相关实验,让这个非生成式模型通过预测视频缺失片段来学习。“关键是不做像素级预测,而是训练系统构建视频抽象表征,在此维度进行预测时自动过滤不可预测的细节。”他解释道。
这种抽象层级思想类似化学物质构成体系:“我们建立粒子→原子→分子→材料的层级,每上升一层就剔除下层与当前任务无关的信息。”杨立昆说,这本质上是通过构建抽象层级来理解物理世界的另一种表述。
三、谷歌将“世界模型”与其短期策略紧密结合无独有偶,在上周硅谷举行的Google I/O 2025开发者大会上,除却夺人眼球的炫酷功能,谷歌也提到要打造AI时代的操作系统,即能理解物理环境并代人类推理决策的“世界模型”。
自2024年末以来,DeepMind首席执行官德米斯·哈萨比斯就在持续完善“世界模型→通用AI助手”理论体系。此次I/O大会上,CEO桑达尔·皮查伊(Sundar Pichai)与Gemini负责人乔希·伍德沃德(Josh Woodward)同台呼应这一愿景。相较微软、OpenAI和xAI对世界模型的抽象讨论,谷歌独树一帜地将其与短期战略紧密结合。
Gemini负责人乔希·伍德沃德(Josh Woodward)(图源:谷歌I/O)
若真能打造出理解物理环境的“通用AI助手”,谷歌或将成为连接用户、企业与技术的“隐形操作系统”。对追求尖端AI的企业而言,利用谷歌的“世界模型”研究、多模态能力(如I/O大会展示的Veo 3和Imagen 4)及其AGI发展路径,将开启重大创新通道。
结语:世界模型是AI大模型的未来杨立昆揭示的AI四大能力鸿沟不仅暴露了现有模型的局限,更指明了技术突破的方向。科技巨头们的行动印证了这一判断:无论是Meta通过V-JEPA模型探索抽象表征训练,还是谷歌将“世界模型”纳入操作系统级战略,本质上都在重构AI与物理世界的交互方式。
这场角逐的深层意义,在于将AI从模式识别的工具升级为具备物理世界理解能力的认知主体。当行业从“打补丁”式优化转向架构级创新,我们或许正站在通用人工智能(AGI)发展的关键转折点。
未来AI的真正突破,或许不在于参数量的指数级膨胀,而在于能否像人类一样,构建起对世界的深层理解。
来源:智东西