具身基础之自动驾驶领域的VLA

摘要：3D高斯具备卓越的多尺度3D几何表达能力，并能承载丰富的语义信息。其关键优势在于通过RGB图像的自监督训练，能够充分利用真实数据集来获得高质量的3D表征。

要点

3D高斯具备卓越的多尺度3D几何表达能力，并能承载丰富的语义信息。其关键优势在于通过RGB图像的自监督训练，能够充分利用真实数据集来获得高质量的3D表征。

在VLA的基座模型设计中，模型从零开始构建，确保其具备良好的3D空间理解能力。任何现有的开源LLM（大型语言模型）都无法有效处理3D空间信息。因此，VLA的基座设计中特别注重稀疏化，确保在扩展模型参数量时，不会大幅增加推理负担。通过两个方面实现这一目标：首先，采用MoE（混合专家）架构，通过多个专家并行工作来扩展模型规模，同时控制参数量的增长；其次，引入Sparse Attention技术，进一步提升稀疏化率和推理效率，优化端侧的实时推理能力。在训练过程中，专注于找到最佳的数据配比，充分融入大量3D数据和自动驾驶相关的图文数据，同时减少了文史类数据的比例。

为了增强VLA的3D空间理解和推理能力，模型中加入了未来帧预测生成和稠密深度预测等训练任务，旨在使模型学习人类的思考过程，并能够自主地在快思考和慢思考之间切换。在慢思考模式下，经过思维链（CoT）推理后，输出action token。为了保证实时性，CoT使用了固定且简短的模板；而快思考则不经过CoT，直接输出action token。此外，通过小词表和投机推理策略显著提高了CoT的效率。在action token的推理上，采用了并行解码机制，使得同一模型可以同时处理语言逻辑推理（逐字输出）和action token（一次性全部输出），从而在保证模型参数规模的同时，实现了实时推理性能的平衡。

在输出的驾驶轨迹上，diffusion模型将action token解码为最终的轨迹，不仅生成自车的轨迹，还能够预测其他车辆和行人的轨迹，从而大大提升了模型在复杂交通环境中的博弈能力。Diffusion模型的另一个显著优势是可以根据外部输入的条件改变生成的结果，这在图像生成领域被称为多风格生成。例如，在“理想同学开快点我赶时间”的场景中，利用多层的Dit模型能够实现类似的功能。常微分方程的ode采样器被用来加速diffusion过程，使其在2到3步内就能生成稳定的轨迹，从而有效解决了生成效率低的问题。

在强化学习的使用上，目标是让系统的驾驶水平超越人类，但过去的尝试面临着两个主要限制：

1. 限制1：早期的架构未能实现端到端可训练，强化学习作为稀疏弱监督方法，如果没有高效的无损信息传递机制，其效果会大打折扣。

2. 限制2：强化学习高度依赖于良好的交互环境，早期的训练环境过度依赖3D游戏引擎，场景真实度不足，同时场景建设效率较低且规模较小，容易让模型学到不正确的策略，甚至试图“hack”奖励模型。

为了解决这些问题，理想汽车已成功获得了端到端可训练的VLA模型，解决了限制1。通过特意在不同视角下添加噪音来训练生成模型，恢复模糊视角，使得模型具备了多视角生成能力。通过与3D重建技术联合优化，模型能够提供更加接近真实世界的3D环境，从而解决了限制2。

完整图文

首先我花几分钟和大家一起看一下自动驾驶在中国面临的挑战。其次会总结一下2024年我们如何使用端到端加VLM双系统去尝试解决这些挑战的，以及最终呈现给用户什么样的产品体验。第三我会详细介绍我们的最新思考，以及在VLA技术上的突破。最后会通过几个实车demo来展示一下VLA技术可能给用户带来哪些革命性的产品体验。

在开始深入探讨之前，我想先和大家一起来看一下自动驾驶在中国面临的独特挑战。作为全球自动驾驶的典范，在tesla 2024的财报会议上，马斯克也提到FSD的中国的落地也遇到了很大的挑战。其中之一就是复杂而多样的公交车道。确实除了到处乱窜的电动车和高强度的人车博弈外，中国的道路结构本身也足够复杂。为了提升出行效率，公交车道被广泛使用。然而各地的标识方法和使用规则非常多样，采用了比如地面的文字标识，空中指示牌或者路边高标牌。同时会以不同的文字形式说明这些车道的时段限制。这些多变的规则和文字表达为自动驾驶带来了巨大的挑战。

有朋友可能会说，我会通过地图或者先验信息来解决，其实挑战也很大。中国城市快速发展，常常出现新增的公交车道，或者因为施工导致的部分标识的不清或者重刷，任何先验信息都会面临着鲜度不足的问题。如果想从根本上去解决公交车道的挑战，车端需要具备实时识别和理解这些文字的能力。

公交车道还只是诸多挑战之一，随着数字城市的不断深入，很多车道和区域被赋予了动态变化的能力，越来越多的城市出现了动态可调的可变车道和潮汐车道，同时为了充分利用入口的空间，也增加了如待转区，待行区。这些车道和待行区域的进入时机，也是有多样化的信号灯或者LED文字牌来控制的。

同时咱们城市的建设日新月异，每天都会面临着设备的新增故障和维护，自动驾驶系统需要时刻保持对这些变化的理解，如果想打造一套无缝的点到点的智能驾驶体验，智能驾驶车辆还需要能够顺利通过ETC和收费站，而这也要求系统能够识别和理解全国各地的各种各样的ETC标识和支付方式标识。

综上所述，在中国自动驾驶系统不仅要应对高强度的人车博弈，还需要能够读懂文字，具备常识和很强的逻辑推理能力。特斯拉向中国用户推送了FSD的功能，我们也看到FSD的公交车道待行区等特殊场景上的表现确实是有所不足的。

在去年的GTC 2024大会上，我有幸介绍了我们的自动驾驶框架，这个框架是基于诺贝尔奖获得者丹尼尔卡尼曼提出的快慢思考双系统理论，简单的说人的思维可以分为两个系统，快思考系统一和慢思考系统二，快系统依赖于直觉判断，大多数情况下人类日常决策都使用该系统，而当我们面临复杂问题时，才会调用慢系统去想一想，思考一下再行动。

我们也在车站实现了这样的双系统，首先车端通过端到端的模型实现了快速，它是一个单一的模型，实现了传感器的输入，直接到轨迹的输出，类比于人类的直觉反应，该系统通过模仿人类的驾驶行为来应对各种各样的场景，完全基于数据驱动中间无需人为设定规则，而且不使用任何高精地图或者先验信息，他的训练和执行效率都很高。

另外一方面慢系统则依托于一个22亿参数规模的视觉语言大模型VLM，在需要文字理解能力常识和逻辑推理的场景中，VLM会通过思维链CoT进行复杂的逻辑分析，给出驾驶决策并指挥快系统去执行。

端到端模型和VLM模型分别跑在一颗Orin-X芯片上。这套双系统的一些技术细节我们也发表在CoRL 2024的DriveVLM这篇论文中，双系统采用了数据驱动的范式，迭代效率提高。在过去半年的量产实践中，我们实现了每周3~4次的模型发版，然而如果快速的进行测试和验证，也逐渐成为了我们的瓶颈。考虑到中国拥有数百万公里的道路，通过实车进行测试，既不现实，效率和成本也难以接受。因此我们在云端构建了一个世界模型，它提供了一个3D的交互环境，使得双系统可以在此环境中进行高效的闭环仿真测试。

以上三个模型就构成了理想自动驾驶的整个体系，简洁而高效。在这一过程中我们非常惊喜的发现，双系统同样遵循scaling law，随着训练数据的增加，模型在实际驾驶场景中的表现逐步提升，我们在最早期的早鸟测试中使用了100万clips训练出来的模型，其平均接管里程MPI仅有十几公里，但是经过半年的持续迭代和数据量的持续提升，到今年年初我们1000万clips训出来的模型已经实现了超过100公里的MPI，这些重要的发现也发表在下面的这两篇论文中。

基于双系统架构，我们成功的在英伟达Orin-X平台上推出了全球首个车位到车位的智能驾驶产品，目前已经推送了超过40万台车。所谓车位到车位指的是从停车位出发，穿越车库，经过园区进入公共道路，直到通过ETC进入高速公路的整个过程中，没有任何的系统降级和退出。同时借助VLM的通识能力，我们在这一产品中实现了多个行业首创的功能，比如实现了不依赖于地图或者先验信息的全国ETC自由通行，全国潮汐车道和可变车道的自由通行，在待转区待行区的自主进出，以及在坑洼路面积雪路面积水路面的自动减速，这些突破性的功能目前在其他车上都尚未实现，极大的提升了我们用户的用户体验，赢得了广泛的好评，也推动了我们的销量在持续增长。

同时我们知道用户可能会担心端到端模型是个黑盒子，比如说有的用户会想知道模型在想什么，下一步的动作是什么，那么为了解决这一问题，我们创新性的引入了AI推理交互功能，用户可以直观的看到模型在关注哪些点，即将执行的动作以及整体的思考过程，透明化的设计显著提升了用户的信心，让用户用得更加安心放心，也得到了大量的积极反馈。

在2024年10月理想汽车量产双系统方案后，端到端加VLM的模式逐渐成为了行业的标杆。许多同行开始采用这一路线，不仅在自动驾驶领域，在通用机器人领域也得到了应用。例如上个月Figure发布的机器人系统也使用了类似的架构，在过去几年的实践中，自动驾驶团队形成了一种高效的工作模式。

在产品交付的同时，我们不断反思和总结现有架构的不足，并留出一部分资源用于探索下一代的技术。在端到端加VLM的量产过程中，我们也发现了一些需要改进的地方。

首先虽然我们可以通过异步联合训练，让端到端和VLM协同工作，但由于它们是两个独立的模型，而且运行于不同的频率，整体的联合训练和优化是非常困难的。其次我们的VLM模型是基于开源的llm大语言模型，它使用了海量的互联网二级图文数据做预训练，但是在3D空间理解和驾驶知识方面是有所不足的。虽然可以通过后训练进行一定程度的弥补，但是它的上限还不是很高。

第三,自动驾驶芯片如Orin-X和Thor-U它的内存带宽和算力是不及服务器GPU的，如何进一步提升模型的参数量和能力，同时还能实现高效的推理，这是个巨大的挑战。

第四，目前驾驶行为的学习更多的依赖于transformer进行回归建模，但这种方法难以处理人类驾驶行为的多模态性。这里的多模态性是指在相同的场景下，不同人的选择是不同的，即使是同一个驾驶员不同心情的时候，驾驶行为也是不同的。那么有什么方法能够进一步提升模型的上限，让用户体验到更加丝滑的产品？同时我们认为不仅仅要提升模型的上限，同时也要提升模型的下限，如何对齐到人类的价值观也是急需要解决的问题。

幸运的是在我们交付端到端加VLM的期间，空间智能AIGC和具身智能有了快速发展，也给了我们很多启示。我们在思考能不能将端到端模型和VLM模型合二为一，像GPT o1和DeepSeek R1一样，模型自己学会快慢思考，同时赋予模型强大的3D空间理解能力和行为生成能力，将双系统天花板进一步打开。

基于以上的思考，我们提出了理想的VLA模型MindVLA，VLA是视觉语言行为大模型，它将空间智能、语言智能和行为智能统一在一个模型里，VLA是Physical AI的最新范式，它赋予自动驾驶这样的物理系统感知思考和适应环境的能力。

MindVLA不是简单的将端到端模型和VLM模型结合在一起，所有的模块都是全新设计的，3D空间编码器通过语言模型和逻辑推理结合在一起后给出合理的驾驶决策，并输出一组action token，最终通过diffusion进一步优化出最佳的驾驶轨迹。这里所谓的action token是对周围环境和自车驾驶行为的编码，整个模型推理过程都要发生在车端，而且要做到实时运行。

接下来我会从6个关键技术点去详细介绍MindVLA的设计和训练过程，包括MindVLA强大的3D空间理解能力是如何获得的，我们是如何从0设计和训练语言模型，使其具备驾驶知识和推理能力的，diffusion是如何与语言模型结合在一起的，以及我们是如何解决VLA在车端芯片的实时推理。

好，咱们一起看一下这6个关键技术，首先Physical AI和物理世界的交互需要强大的空间智能，也就是对3D物理世界的感知理解和推理能力。回顾自动驾驶技术的发展历程，对空间的理解，我们经历了从单目二D特征到单目三D车的特征，再到多相机的鸟瞰图BEV特征和占用网格特征等不同的阶段，这个演变过程也体现出咱们工程师对物理世界几何和语义信息精确提取的不懈追求。

然而这些方法大多依赖于监督学习，需要精确的标注数据效率和数据利用率都很低下。

我们前面提到在双系统的实践中，我们欣喜地发现了数据量的能力随着数据量的提升，系统的表现会同步提升。

如果充分利用我们海量的数据，在研发世界模型时，我们发现3D高斯是一个极其优良的中间表征，它不仅具备出色的多尺度3D几何表达能力，同时也有方法承载丰富的语义，最为关键的是可以通过图片RGB进行自监督训练，这使得我们有机会去充分利用海量的真实数据获得一个优秀的3D表征。

我们的研究成果显示，采用自监督训练得到的高斯表征，能够极大地促进下游任务的性能提升。部分实验结果和能力我们展示到我们的论文高斯AD，大家如果有兴趣可以进一步查阅，解决了3D表征，接下来如何将它和语言智能结合在一起， llm已经被证明是一个强大的通用模型，它可以兼容视觉语言的多种模态，但是如果想要llm同时具备3D的空间理解能力，3D空间推理能力及强大的语言能力，需要在模型的预训练阶段就要加入大量的相关数据。

同时车载芯片如Orin-X和Thor-U它的算力和内存带宽都有限，如何设计模型架构，让模型参数进一步提升，还能在有限的资源下实施实现实时推理，这里解释一下为什么我们还要进一步增加模型参数量，因为数据参数规模和能力强弱可以划等号，越大越好。为了解决这些问题，我们需要从0开始设计和训练一个适合VLA的基座模型，因为任何开源的llm模型都不具备这样的能力。在这个过程中稀疏化是模型设计的关键，它可以实现模型容量扩容的同时，不会大幅度增加推理负担。

我们通过两个维度来实现稀疏化，首先我们采用了MoE的架构，通过多个专家实现模型扩容，还可以保证激活参量不会大幅度增加。第二我们引入了Sparse Attention等来进一步提升稀疏化率，提升端侧的推理效率。在这个新的基座模型训练过程中，我们花了很多时间去找到最佳的数据配比，融入了大量的3D数据和自动驾驶相关的图文数据，并减少了文史类数据的比例。

最后为了进一步激发模型的3D空间理解和推理能力，我们加入了未来帧的预测生成和稠密深度的预测等训练任务。lIm在获得3D空间智能的同时，在逻辑推理方面也需要进一步的提升。我们训练模型去学习人类的思考过程，并自主切换快思考和慢思考。

在慢思考模式下，模型会经过思维链CoT再输出action token，由于自动驾驶不需要冗长的CoT，同时也因为实时性的要求，所以我们使用了固定且简短的CoT模板，在快思考模式下，模型则不需要经过CoT就可以直接输出action token，这也是我们将快慢思考有机结合在同一个模型中的体现。

很多人会问llm是token by token的输出，推理速度能够支撑自动驾驶吗？确实即便有了上述的结构设计和优化，想要实现VLA超过10赫兹的推理速度还是具有挑战的。我们做了大量的工程工作去压榨Orin-X和Thor-U的性能。针对CoT过程，我们采用了小词表和投机推理，大幅提升CoT的效率。针对action token的推理，我们采用了创新性的并行解码的方法，也就是在同一个阐述方法模型中加入了两种推理模式，语言逻辑的推理，通过因果注意力机制逐字输出，而action token则采用双向注意力机制一次性全部输出。

经过上面一系列的设计和优化，我们终于实现了模型的参数规模与实时推理性能之间的平衡。

最后在这个架构图中还有一个亮点，VLA的强大之处在于用户可以直接与模型对话，给它下达指令，模型会自动拆解并执行任务，我稍后会介绍这一特性是如何改变自动驾驶产品形态的。在成功构建了一个强大的基座模型之后，我们利用diffusion将action token解码成最终的驾驶轨迹。在日常的驾驶过程中，车辆与周围的交通参与者，如车辆、行人骑行人存在着密切的交互关系，并会最终影响自车的行为。

因此在diffusion模型中，我们不仅生成自车的轨迹，还预测其他车辆和行人的轨迹，大大提升了标准模型在复杂交通环境中的博弈能力。此外diffusion还有一个巨大的优势，就是可以根据外部的条件输入改变生成结果，这在图像生成领域被称为多风格生成，有了这样的特性，类似李想同学开快点我改时间，这样的功能就很容易实现了。我们使用了多层的Dit去实现了diffusion。

然而diffusion模型有一个显著的挑战，就是它的生成效率极低，需要很多步才能成功生成稳定的轨迹。为了解决这一问题，我们采用了基于常微分方程的ode采样器大幅加速的diffusion生成过程，使其在2~3步内就可以生成稳定的轨迹。

至此我完整介绍了VLA的架构和基础的训练过程，VLA模型在绝大多数场景下能够接近人类的价值水平，然而在某些长尾工况下，VLA仍然存在着不符合人类价值观的问题，为解决这个问题，我们增加了后训练的阶段，希望能够既对齐人类驾驶员的行为，在过去几年里，我们不仅积累了大量的人类司机的驾驶数据，也有很多NOA的接管数据，这些接管都是不符合人类预期的表现。

我们筛选了大量的接管数据，建立了一个人类偏好的数据集，应用RLHF去微调模型的采样过程，使模型能够从这些偏好数据中学习和对其人类行为，这一创新性的步骤，让我们在模型性能上取得了进一步的提升。随着偏好数据的逐步丰富，模型的表现也逐步接近了专业司机的水平，安全下限也得到了巨大的提升。有关RLHF与diffusion结合的具体细节，我们也在近期的论文中进行了详细的阐述，欢迎大家查阅，也能希望给大家一些启发，要实现真正的自动驾驶，仅仅达到人类司机的水平还是不够的。

那么如何让系统有机会超越人类驾驶水平，或许大家第一反应是强化学习，强化学习在自动驾驶领域已经不算新鲜事儿，但是过去的尝试都没有取得很好的效果，我认为这里面有两个主要的限制因素，第一，早期的生成架构未能实现端到端的可训，强化学习作为一种稀疏的弱监督过程，若无法实现高效的无损的信息传递，强化学习的效果就会大打折扣。

第二，Physical AI 需要与真实世界进行交互，以获取奖励信号，因此自动驾驶作为Physical AI 最直接的应用，它的强化学习也高度依赖于良好的交互环境。然而过去的尝试都是基于3D的游戏引擎，场景真实度不足，限制了强化学习在真实驾驶场景中的应用，同时因为场景建设效率低下，场景规模小，模型很容易学偏，去hack reward model，导致强化出来的模型完全不可用。

我们已经获得了一个端到端可训的VLA模型，它解决了第一个限制。

至于良好的交互环境，我们的做法是结合场景重建与生成，纯生成模型的优势在于其良好的泛化能力能够生成多变的场景，但是可能会出现不符合物理规律的幻觉，难以满足自动驾驶的严格要求。相反纯重建模型则依托于真实数据呈现出3D场景，但是在大视角变换下可能会出现空洞和变形，也没办法满足自动驾驶的要求，我们选择以真实数据的3D重建为基础，同时特意在不同的视角下添加噪音来训练生成模型，恢复这些模糊的视角。

这样一来生成模型就具备了多视角的生成能力，在与3D重建联合优化后，可以获得一个各个视角下都接近真实世界的3D环境，这在很大程度上解决了上面提到的第二个限制。

关于生成和重建是如何结合的，很多细节发表在我们的论文里，其中4篇还中了今年的CVPR 2025，突破了这两个线之后，我们终于有机会尝试大规模的自动驾驶强化学习，但规模化需要解决效率的问题，无论重建和生成效率都不高。

过去一年里，我们与英伟达团队密切合作，进行了大量的工程优化，显著提升了场景生成和重建的效率。其中一项工作是将3DGS的训练速度提高了7倍以上，这项工作也已经投保到SIGGRAPH 2025上。

好，以上就是MindVLA最关键的6个技术点，总结下来MindVLA成功整合了空间智能、语言智能和行为智能可以说是一个巨大的突破。并且通过创新性的预训练和后训练方法，我们发现VLA实现了卓越的泛化性能和涌现特性，它不仅在驾驶场景下表现良好，在室内环境中也展示出了一定的适应性和延展性，这是Physica AI能够大规模落地的关键，一旦跑通这套范式，理想将有望为更多行业赋能。

VLA模型究竟能够为用户带来什么不同的产品体验，一句话总结，有MindVLA赋能的车不再只是一个驾驶工具，而是一个能够与用户沟通理解用户意图的司机。最后我们也展示一下在研发过程中的三个实车demo，也对应了我们日常生活中用车的三个场景。

当你来到一个陌生园区，想去某个特定商店，比如星巴克，但是具体的位置你不知道，在这种情况下，你只需要告诉车辆带我去星巴克，车辆将在没有导航信息的情况下，通过自主漫游找到目的地，在执行任务的过程中，你还可以随时进行人工干预，比如说开太快了开慢点了，或者说我觉得你应该走左边，感觉右边会绕远，通过这样的自然对话来改变它的路线和行为，MindVLA能够理解并执行这些指令，而且在认出目标商店后将你放在附近。

还有一个大家经常遇到的情景，在一个陌生的城市打车时，你不知道如何描述你的位置，最终你找不到司机，司机也找不到你，当你拥有MindVLA赋能的车辆，就没有这样的烦恼了，你不需要描述你的位置，只需要拍一张附近环境的照片发给汽车，让车子自己来找你，他可以自己从车库开出来开出园区，经过一些城市道路找到图片中的位置把你介绍。

当你驾车来到商场地库找车位是件非常麻烦的事儿。

有了MindVLA，你只需要在超市门口下车，然后对车说自己去找个车位停好，MindVLA威能够理解你的指令，并利用他强大的空间推理能力自主寻找停车位，即使遇到了死胡同，他也会自如的倒车，然后重新寻找合适的车位停下。

整个过程中不依赖于地图或导航信息，只依赖于VLA强大的空间和逻辑推理能力。

这些场景展示了自动驾驶车辆如何从单纯的运输工具转变为贴心的专职司机，他能听得懂看得见找得到，想象一下，将来每个人拥有一个这样的司机，你可以让他接孩子，带老人去菜市场买菜，那将是一个多么令人愉悦的体验。

我们希望MindVLA能为自动驾驶车辆赋予类似人类的认知和适应能力，将它转变为能够思考的智能体，就像iPhone重新定义了手机，MindVLA也将重新定义自动驾驶。