图灵奖得主LeCun团队新作:在世界模型中导航

摘要:继 World Labs(李飞飞)、谷歌 DeepMind 接连发布自己的世界模型研究之后,Meta FAIR 的 Yann LeCun 团队也加入了战场,也在同一周之内发布了导航世界模型(Navigation World Models/NWM)。

机器之心编辑部

现实世界版的 Genie-2?

最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。

继 World Labs(李飞飞)、谷歌 DeepMind 接连发布自己的世界模型研究之后,Meta FAIR 的 Yann LeCun 团队也加入了战场,也在同一周之内发布了导航世界模型(Navigation World Models/NWM)。

我们知道,Yann LeCun 一边在不断唱衰当前主导 LLM 领域的自回归范式,同时也一直是世界模型的「鼓吹者」。上月中旬,该团队就已经发布了一篇世界模型相关研究成果,但那篇研究涉及的模型规模不大,环境也较为简单,参阅机器之心报道《LeCun 的世界模型初步实现!基于预训练视觉特征,看一眼任务就能零样本规划》。

而这一次,LeCun 团队发布的 NWM 看起来能适应更复杂的环境了,并且与 World Labs 和 DeepMind 的世界模型一样,也能基于单张图像生成连续一致的视频。只是 LeCun 团队的这个世界模型更加强调世界模型的导航能力,其能够在已知环境中按照轨迹行进,也能在未知环境中自己寻找前进道路,还能执行路径规划。不过整体而言,与能单图生世界的 DeepMind Genie 2 相比,NWM 的单图生视频还是要稍逊一些。

论文标题:Navigation World Models

论文地址:https://arxiv.org/pdf/2412.03572v1

项目地址:https://www.amirbar.net/nwm/

从其项目网站的演示视频看,NWM 的效果很不错,能够基于单张真实照片执行相当好的导航操作。只能说,世界模型,也开始卷起来了。

NWM 效果演示

在深入了解 NWM 的技术细节之前,我们先来看看它的实际表现如何。

首先是在已知环境中按照轨迹行进的能力。NWM 能够基于单张输入帧和给定的输入动作合成视频,这个过程是自回归式的。另需说明,在这里,模型已经已经训练阶段看过了这个环境,但轨迹是全新的。可以看到,不管是室内环境还是室外环境,NWM 都具有相当不错的场景理解表现。

NWM 也能在未知环境中导航:它不仅适用于已知环境,对于训练中从未见过的单张输入图像,模型也可以根据给定的输入动作自回归式地预测后续帧。

下面是与其它模型的对比情况,可以看到,NWM 在保证合成视频的一致性和稳定性方面以及动作的执行效果方面都更加出色。

另外,该团队也研究了使用 NWM 和外部导航策略 NoMaD 来执行规划。具体来说,就是让 NoMaD 给出轨迹,再让 NWM 来进行排名 —— 后者会生成轨迹视频并选出其中得分最高的轨迹。

整体而言,LeCun 团队的这项 NWM 研究做出了以下贡献:

提出了导航世界模型和一种全新的条件扩散 Transformer(CDiT);相比于标准 DiT,其能高效地扩展到 1B 参数,同时计算需求还小得多。

使用来自不同机器人智能体的视频和导航动作对 CDiT 进行了训练,通过独立地或与外部导航策略一起模拟导航规划而实现规划,从而取得了当前最先进的视觉导航性能。

通过在 Ego4D 等无动作和无奖励的视频数据上训练 NWM,使其能在未曾见过的环境中取得更好的视频预测和生成性能。

导航世界模型

NWM 的数学描述

下面先来看看 NWM 的公式描述。直观地说,NWM 是一个接收当前世界状态(例如,对图像的观察)和导航操作(描述物体移动到哪里以及如何旋转)的模型。然后,该模型根据智能体的视角生成下一个世界状态。

本文给出了一个第一人称的视频数据集,其包含智能体导航动作

,其中

是图像,a_i = (u, ϕ) 是由平移参数

给出的导航命令,控制向前 / 向后和左右运动,以及导航旋转角

。a_i 的导航动作可以被完全观察到。

目标是学习一个世界模型 F,即从先前的潜在观察 s_τ 和动作 a_τ 随机映射到未来的潜在状态表示 s_(t+1 ):

由于此公式简单易懂,因此它可以自然地跨环境共享,并轻松扩展到更复杂的动作空间,例如控制机械臂。

公式 1 模拟了动作,但无法控制时间动态(temporal dynamics)。因此,作者用时移输入 k ∈ [T_min, T_max] 扩展此公式,设置

,因此现在 a_τ 指定时间变化 k,用于确定模型应向未来(或过去)移动多少步。因此,给定当前状态 s_τ ,可以随机选择 k, token 化相应的视频帧。然后可以将导航动作近似为从时间 τ 到 τ + k 的总和:

上述公式既可以学习导航动作,也可以学习时间动态。实际上,本文允许时间偏移最多 ±16 秒。

扩散 Transformer 作为世界模型

条件扩散 Transformer 架构。本文使用的架构是一个时间自回归 transformer 模型,该模型利用高效的 CDiT 块(见图 2)。

CDiT 通过将第一个注意力块中的注意力限制在正在去噪的目标帧中的 token 上,实现了在时间上高效的自回归建模。为了对过去帧中的 token 进行条件处理,本文还整合了一个交叉注意力层,然后,交叉注意力通过跳跃连接层将表示情境化。

使用世界模型进行导航规划

接下来,文章描述了如何使用经过训练的 NWM 来规划导航轨迹。直观地说,如果世界模型熟悉某个环境,可以用它来模拟导航轨迹,并选择那些能够达到目标的轨迹。在未知的、分布外的环境中,长期规划可能依赖于想象力。

形式上,给定潜在编码 s_0 和导航目标 s^∗,目标是寻找动作序列 (a_0, ..., a_T),以最大化到达 s^∗ 的可能性。

定义能量函数,使得最小化能量与最大化未归一化的感知相似度得分相对应, 并遵循关于状态和动作的潜在约束。

相似度的计算方法是,使用预训练的 VAE 解码器将 s^∗ 和 s_T 解码为像素,然后测量感知相似度。

那么问题就简化为寻找最小化该能量函数的动作:

该目标可被重新表述成一个模型预测控制(MPC)问题,并且可使用交叉熵方法(Cross-Entropy Method)来优化它。

导航轨迹排名方法。假设已有一个导航策略 Π(a|s_0, s^∗),可使用 NWM 来对采样得到的轨迹进行排名。这里,该团队的使用了一种 SOTA 的导航策略 NoMaD 来执行机器人导航。在排名时,会从 Π 给出的多个样本中选出能量最低的那个。

实验结果

下面来看看 NWM 在实验中实际表现。

首先,数据集方面,该团队使用了 TartanDrive、RECON 和 HuRoN。NWM 可以获取机器人的位置和角度数据,然后推断在当前位置的相关动作。

评估指标包括绝对轨迹误差 (ATE)和相对姿态误差 (RPE)。对比基线包括 DIAMOND、GNM 和 NoMaD。

消融实验

模型在已知环境 RECON 上对验证集轨迹对单步 4 秒未来预测进行评估。研究人员通过测量 LPIPS、DreamSim 和 PSNR 来评估相对于地面真实框架的性能。图 3 中提供了定性示例:

模型大小和 CDiT。研究人员将 CDiT 与标准 DiT(其中所有上下文标记都作为输入)进行比较。其中假设,对于导航已知环境,模型的容量是最重要的,图 5 中的结果表明,CDiT 确实在具有多达 1B 个参数的模型中表现更好,同时消耗的 FLOP 不到 ×2。令人惊讶的是,即使参数数量相同(例如,CDiT-L 与 DiT-XL 相比),CDiT 也可以快 4 倍,并且表现更好。

目标数量。在给定固定上下文的情况下训练具有可变目标状态数量的模型,将目标数量从 1 更改为 4。每个目标都是在当前状态的 ±16 秒窗口内随机选择的。表 1 中报告的结果表明,使用 4 个目标可显著提高所有指标的预测性能。

上下文大小。研究人员在训练模型的同时将条件帧的数量从 1 变为 4(见表 1)。不出所料,更多的上下文带来了帮助,而对于较短的上下文,模型通常会「迷失方向」,导致预测不佳。

时间和动作条件。研究人员同时使用时间和动作条件训练模型,并测试每个输入对预测性能的贡献程度。结果包含在表 1 中。研究人员发现,使用时间运行模型只会导致性能不佳,而不使用时间条件也会导致性能略有下降。这证实了两种输入对模型都有好处。

视频预测与合成

这里评估的是模型遵从真实动作和预测未来状态的能力。

以第一张图像和上下文帧为条件,该模型需要根据 ground truth 动作,以自回归方式预测下一个状态,并给每个预测提供反馈。

通过比较在 1、2、4、8 和 16 秒的 ground truth 图像,再得出在 RECON 数据集上的 FID 和 LPIPS 值,可以对这些预测结果进行比较。

图 4 展示了在 4 FPS 和 1 FPS 帧率下,NWM 与 DIAMOND 的性能情况。可以明显看到,NWM 的预测准确度比 DIAMOND 好得多。

一开始的时候,NWM 1 FPS 的表现更好,但 8 秒之后,它就会因为累积误差和上下文损失而被 4 FPS 版本超过。

生成质量。为了评估视频质量,该团队以 4 FPS 的速度自回归预测生成了一些 16 秒长的视频,同时这是基于 ground truth 动作的。然后,再使用 FVD 评估生成视频的质量,并与 DIAMOND 进行比较。图 6 中的结果表明 NWM 输出的视频质量更高。

使用 NWM 执行规划

接下来的实验衡量了 NWM 执行导航的能力。

独立规划。实验表明,这个世界模型可以有效地独立执行目标导向的导航。

基于过去的观察和目标图像,NWM 可以使用交叉熵方法找到一条轨迹,同时尽可能降低预测图像和目标图像之间的 LPIPS 相似度,实验结果见下表 2,可以看到 NWM 的规划能力足以比肩 SOTA 策略。

带约束条件的规划。在使用 NWM 进行规划时,还可以指定约束条件,比如要求智能体走直线或只转弯一次。

表 3 的结果表明,NWM 可以在满足约束的同时进行有效规划,并且规划性能变化不大。

下图 9 中包含了左右优先约束下的规划轨迹案例。

使用导航世界模型进行排序。NWM 可以增强目标条件导航中已有的导航策略。研究者根据过去观察结果和目标图像对 NoMaD 进行条件化,采样了 n ∈ {16,32} 条轨迹,其中每条轨迹长度为 8,并通过使用 NWM 来自回归地遵循动作以对这些轨迹进行评估。

最后,研究者通过测量与目标图像的 LPIPS 相似性来对每条轨迹的最终预测结果进行排序,结果如下图 7 所示。他们还在上表 2 中报告了 ATE 和 RPE,发现对轨迹进行排序可以产生 SOTA 导航性能,并且采样的轨迹越多结果越好。

泛化到未知环境的能力

研究者尝试添加未标注的数据,并询问 NWM 是否可以使用想象力在新环境中做出预测。他们在所有域内数据集以及来自 Ego4D 的未标注视频子数据集上训练了一个模型,并且只能访问时移操作。

研究者训练了一个 CDiT-XL 模型,并在 Go Stanford 数据集以及其他随机图像上对该模型进行了测试。结果如下表 4 所示,可以发现,在未标注数据上进行训练可以显著提升各项视频预测结果,包括提高生成质量。

研究者在下图 8 中提供了一些定性案例。相较于域内(上图 3),模型崩溃得更快并且在生成想象环境的遍历时还会产生幻觉路径。

更多实验细节请参阅原论文。

阅读报告全文,请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》

未来今日研究所:2024 技术趋势报告 - 广义计算篇

科睿唯安中国科学院 2024 研究前沿热度指数报告

文本到图像合成:十年回顾

《以人为中心的大型语言模型(LLM)研究综述》

经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告

理解世界还是预测未来?世界模型的综合综述

Google Cloud CSA2024 AI 与安全状况调研报告

英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告

国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

国际可再生能源署 IRENA2024 年全球气候行动报告

Cell: 物理学和化学 、人工智能知识领域的融合

智次方 2025 中国 5G 产业全景图谱报告

未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇

Deepmind:AI 加速科学创新发现的黄金时代报告

PitchBookNVCA2024 年第三季度全球风险投资监测报告

德科 2024 年未来全球劳动力报告

高工咨询 2024 年协作机器人产业发展蓝皮书

国际能源署 IEA2024 年全球能源效率报告

基因慧基因行业蓝皮书 2024 - 2025

普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战

中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书

中移智库 2024 先进感知新技术及新应用白皮书

智次方研究院 2025 中国 AIoT 产业全景图谱报告

未来今日研究所:2024 技术趋势报告 - 人工智能篇

国际电联:迈向衡量数字经济的通用框架的路线图

联合国粮食与农业组织:2024 年世界粮食安全和营养状况

大语言模型综述

李飞飞等,AI 智能体:探索多模式交互的前景综述

哈尔滨工业大学 - ChatGPT 调研报告

2024《美国核部署战略报告》最新文件

清华大学:AIGC 发展研究 3.0 发布版 b 版

OpenAI:2024 年 OpenAI o1 大模型技术报告

Verizon2024 年世界支付安全报告

皇家学会哲学学报 从复杂系统角度评估人工智能风险

复旦大学 大模型 AI 代理的兴起和潜力:综述

经合组织 OECD2024 年气候行动监测报告

Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态

2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch

《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定

瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》

《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告

世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024

ADL 理特咨询 2024 汽车出行未来展望报告

2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道

科学时代的大语言模型中的人工智能

Gartner2025 年重要战略技术趋势报告

CBInsights2024 年第三季度全球人工智能投融资状况报告

TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻

天津大学 2024 大模型轻量化技术研究报告

欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版

美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告

国际原子能机构 2024 年世界聚变展望报告

复旦大学 2024 大语言模型的能力边界与发展思考报告

安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图

YouGov2024 美国公众对人工智能 AI 的态度调研报告

麦肯锡中国报告:《中国与世界》完整版

麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域

Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目

德国研究与创新专家委员会 德国研究创新与科技成果报告

2024 年欧洲关键产业的科技重塑研究报告

智能体专题报告之二 - 智能体时代来临具身智能有望成为最佳载体

ActivateConsulting 2025 年顶级技术和媒体发展趋势报告

兰德 全球灾难风险评估

斯坦福李飞飞 《AI agent 综述》Agent AI 开启多模态交互新纪元

中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版

普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来

大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告

TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告

Emakina 将塑造 2024 年的技术趋势报告

图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平?》——Yann LeCun, 附 Slides 及视频

华为:2024 鸿蒙生态应用开发白皮书 V3.0(最新版)

CASA:2023 第三代半导体产业发展报告

大型视觉语言模型中幻觉现象的综述

IEA PVPS:2024 光伏应用趋势报告(英文版)

ABI Research:82 个将会或不会在 2024 年发生的技术趋势白皮书

《美国反无人机系统未来趋势报告(2024 - 2029 年)》

《军事自主系统:未来之路》美空军

空间智能如何?牛津大学博士论文《深度具身智能体的空间推理与规划》

2024 低空经济场景白皮书 v1.0

战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)

Artificial Intelligence Review:人工智能与物理学相遇的综述

麦肯锡:全球难题,应对能源转型的现实问题

欧米伽理论,智能科学视野下的万物理论新探索(研究论文)

Gartner 2025 年主要战略技术趋势研究报告

2024 人工智能国外大模型使用手册 + 中文大模型使用手册

详解光刻巨人 ASML 成功之奥妙 - 241015

CB Insights:未来变革者:2025 年九大科技趋势研究报告

国际电信联盟 2023 - 2024 年联合国人工智能 AI 活动报告

《人工智能能力的人类系统集成测试和评估》最新 51 页,美国防部首席数字和人工智能办公室(CDAO)

2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

MHP 2024 全球工业 4.0 晴雨表白皮书

世界经济论坛白皮书《AI 价值洞察:引导人工智能实现人类共同目标》

瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

AI 智能体的崛起:整合人工智能、区块链技术与量子计算 (研究报告,书)

OpenAI o1 评估:AGI 的机遇和挑战(280 页)

世界知识产权组织:2024 年全球创新指数

美国白宫:国家近地天体防御策略与行动计划

上下滑动查看更多

来源:人工智能学家

相关推荐