摘要:我们首先来看小米汽车的EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving,论文共15位作者,其中来自小米汽车的五位,来自清华大学的六位
除了VLA和世界模型外还有性能更强的第三条路,这就是BEV+扩散模型。
NAVSIM自动驾驶闭环测试平台成绩对比
数据来源:论文《TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving》
上图是目前常见的NAVSIM自动驾驶闭环测试平台成绩对比,理想汽车的TransDiffuser以94.9分高居第一。
数据来源:论文《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical
Latent World Model》
上表是目前最强的世界模型,理想汽车的World4Drive在NAVSIM上的PDMS得分,只有85.1。
数据来源:论文《EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving》
上表是小米汽车的EvaDrive的PDMS得分,也是94.9。
图片来源:论文《AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning》
上表是加州大学洛杉矶分校的AutoVLA的PDMS得分,最高有92.1,还是比世界模型要好不少。
我们首先来看小米汽车的EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving,论文共15位作者,其中来自小米汽车的五位,来自清华大学的六位。
图片来源:论文《EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving》
小米汽车对比了目前常见的端到端自动驾驶方案,a是模仿学习,缺乏闭环交互,缺乏泛化能力,只能输出单一路径,缺乏天然多模态。b是加入强化学习增强,缺点是域之间不匹配,训练出的政策可能无法与人类偏好对准,有不安全的场景,缺乏反复错误尝试法迭代。c是小米汽车的EvaDrive利用分层生成器和多目标critic之间的对抗性协同进化,实现多轮迭代优化,既能摆脱局部最优,又能保留强化学习的试错特性。
展开来说就是EvaDrive将轨迹规划任务设定为多轮对抗游戏博弈。在这个游戏中,分层生成器通过结合自回归意图建模以捕捉时间因果关系和基于扩散的优化以提供空间灵活性,持续提出候选路径。然后,一个可训练的多目标评论家(critic)对这些建议(proposal)进行严格评测,明确保留多样化的偏好结构,而不将其压缩为单一的标量化偏差。这种对抗性迭代,在帕累托前沿(Pareto Frontier)选择机制的引导下,实现了多轮迭代优化,有效摆脱了局部最优,同时保持了轨迹多样性。
这就是强化学习中的Actor-Critic算法,早在1980年就有了,Actor-Critic算法结合了策略梯度方法(Policy Gradient)和值函数估计,核心是通过Actor(策略函数)选择动作,通过Critic(值函数)评估这些动作,并相互协作改进,大致在2017年由Deepmind定型,Actor-Critic 同时优化策略和价值函数,能够更高效地学习复杂任务。Actor-Critic 算法能够很好地处理连续动作空间,适用范围更广。缺点是样本效率太低:Actor-Critic 算法仍然需要大量交互数据,尤其是在高维状态空间中,样本效率较低。易受高偏差影响:由于Critic是基于函数逼近的,Critic 的不准确可能会导致梯度估计偏差,最终影响策略的学习。系统过于复杂,消耗大量运算资源。
帕累托前沿选择机制来源于经济学中的帕累托效率或帕累托最优(Pareto Efficiency 或 Pareto Optimality)的概念,是指在一个分配系统中,没有可能通过重新分配使某个个体更好而不使任何其他个体变得更坏的状态。在多目标优化问题中,帕累托前沿是一个区域或一组点,代表了在考虑两个或更多目标时可能的最优解的集合。在这个边界上的每一点,一个目标不能够被进一步改善而不牺牲另一个目标。换句话说,它代表了在多个目标之间取得的最佳平衡点。Pareto是意大利工程师、社会学家、经济学家、政治学家和哲学家。
强化学习目前有三种优化策略,包括PPO(Proximal Policy Optimization,近端策略优化)、DPO(Direct Preference Optimization,直接偏好优化)和 GRPO(Group Relative Policy Optimization,群体相对策略优化),自动驾驶领域常见的是GRPO和DPO,在强化学习中,奖励信号是关键。但在许多任务(如自动驾驶、对话生成、推荐系统、AI 生成内容)中,奖励函数难以明确定义。因此,DPO 直接优化用户的偏好,而非构造奖励函数。通过人类反馈(Human Feedback)收集用户偏好数据,例如通过问卷调查、交互日志、A/B 测试等方式获取用户对不同系统输出的偏好信息。采用二元比较(Pairwise Preference)来训练策略,直接使用偏好数据优化策略,无需构造显式奖励函数。
GRPO(群体相对策略优化)是对 PPO 的一种改进,主要目标是减少计算资源消耗。它的核心思想是:不训练单独的价值函数,而是通过对比多个策略输出来优化决策;在训练过程中,每次对同一输入生成多个输出,并计算它们的相对优势;通过群体平均奖励来指导策略优化。GRPO也是自动驾驶领域常见的优化策略,但小米汽车认为GRPO有明显的缺点,首先它们依赖于人工标注的成对排序,这会引入主观性和不一致性,可能导致策略错位。其次,它们起源于语言任务,导致在连续、高维的驾驶场景中出现领域不匹配。最关键的是,GRPO的优化是一次性的,没有多轮迭代,缺乏安全、自适应规划所必需的迭代优化过程——这限制了在安全关键环境中的鲁棒性。
小米汽车EvaDrive框架
EvaDrive提出了一种轻量级的结构化轨迹规划器,称为分层建模规划器,作为小米汽车强化学习框架中的Actor。该Actor集成了两个核心组件:一个Auto-regressive Intent Modeling自回归意图生成器和一个Diffusion-based Refinement基于扩散的优化器,旨在解决规划中的两个关键挑战:时间因果关系建模以及在不确定性下对全局空间轨迹进行精细化优化。
首先,提取当前自车状态,并基于此通过一个多层感知机(MLP)生成一组初始候选序列,通过一个冻结的视觉主干网络提取图像特征,作为全局环境上下文。然后使用多头交叉注意力(MHCA)机制对时间上连贯的运动意图进行建模。自回归模块捕捉了时间连贯性,但它在不确定性建模和空间灵活性方面能力不足。为解决这个问题,小米汽车使用去噪扩散隐式模型(DDIM)向前向注入噪声。去噪器通过单步去噪实现了高效的轨迹生成,消除了传统扩散模型中多轮推理的需要。这显著提高了计算效率,满足了实时部署的延迟约束。
传统的自动驾驶规划单步优化最大化即时奖励,但缺乏反馈回路。虽然高效,但这种单向方法无法支持通过试错进行的迭代优化,小米出了一种多轮轨迹优化机制,将现有的多目标优化框架扩展为一个迭代的强化学习风格过程。为了实现偏好感知的轨迹优化,小米汽车提出了对抗性策略优化(APO),这是一种将策略训练表述为带有对抗性奖励学习的多目标优化问题的学习范式。
图片来源:理想汽车
理想汽车的TransDiffuser框架,相对小米汽车的EvaDrive要简洁得多,详细解释可以看论文TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving,10位作者有9位都来自理想汽车。
TransDiffuser借鉴了2021年的一篇论文TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving,前半段的图像与点云特征提取基本沿用了TransFuser的前半部分。
TransFuser框架
图片来源:论文《TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving》
TransFuser框架将激光雷达点云转换为具有固定分辨率的2D BEV网格的2-bin直方图。考虑自车前方32m内和两侧16m内的点,构成32m×32m的BEV网格。将网格划分为0.125m×0.125米的块,其分辨率为256×256像素。对于直方图,将高度维度离散为两个bin,分别表示在地平面下和在地平面上的点。与激光雷达点云相同的256×256 BEV空间中光栅化2D目标位置,并将该通道连接到2个直方图bin。产生大小为256×256像素的3通道伪图像。在BEV中表示目标位置,与透视图像域相比,BEV与waypoint预测的相关性更好。对于RGB输入,用3个摄像头(面向前方,60°偏左和60°偏右)。每个摄像机的水平视场为120°,以960×480像素分辨率提取图像,将其裁剪为320×160以消除边缘的径向失真。这3个未失真图像合成为输入编码器的单个图像,其分辨率为704×160像素和132°视野(FOV)。在多分辨率进行密集特征融合后,从图像分支的特征提取器和BEV分支获得特征图。通过平均池化,这些特征图的维数减少到512,然后是512个单元的全连接层。接着通过元素求和,组合来自图像流和激光雷达BEV流的512维特征向量,构成环境的紧凑表示,对3D场景的全局上下文进行编码。
抽出BEV特征后就输入去噪音解码器,这是基于去噪扩散概率模型(Denoising Diffusion Probabilistic Model,DDPM)的解码器。DDPM的前向过程是将已知的数据通过不断的加入噪声,当时间步长正向无穷大时隐变量T,可以认为是一个各向同性的高斯分布。反之,DDPM的反向过程则是一个去噪过程。即先在时刻随机采样一个二维高斯噪声,然后逐步进行去噪,最终得到一个和真实图像分布一致的生成图像。原理很简单而创新之处在于,强调生成规划轨迹这一任务中潜在的模式坍塌(Mode collapse)挑战。这一挑战指不同初始化下,模型生成的多条轨迹的多样性受限。为缓解这一问题,通过约束多模态表示矩阵的相关矩阵的非对角相关系数趋近于零,降低不同模态维度间的冗余信息,从而拓展潜在表征空间的利用率。该机制在训练阶段作为附加优化目标,由权重因子平衡主要损失。多模态表示作为最终动作解码器的输入,通过提高此处的信息量,鼓励动作解码器生成更具多样性的轨迹,提高在连续动作空间采样可行动作的效果。
图片来源:论文《DiffE2E: Rethinking End-to-End Driving with a Hybrid Action Diffusion and Supervised Policy》
扩散政策用于路径规划最大的优点是鲁棒性好,能够容忍感知系统的信息失真或不完全,连续性强,动作丝滑,不会有累积误差。其次是能够生成多个解而非唯一解,能够适应复杂的路况,决策灵活,最后是独立性强,可以像一个插件,轻松嵌入自动驾驶流程中。
英伟达的DriveSuprim,PDMS得分有93.5,其核心是GTRS (Generalized Trajectory Scoring)框架,融合了动态生成与静态词表两类轨迹评分策略,全面提升端到端自动驾驶模型的泛化与判别能力。GTRS 框架包含三大核心组件:(1)基于扩散模型的轨迹生成器,提供丰富细致的动态轨迹候选;(2)超密集轨迹词表结合 Dropout 泛化策略,强化评分器对多样轨迹分布的适应性;(3)传感器视角扰动与精细化评分模块,增强对长尾场景与微小行为差异的辨识能力。
BEV+扩散模型最大的不足是消耗运算资源过多。扩散过程的核心,特别是在推理(图像生成)阶段,涉及一个迭代精修过程。模型从随机噪声开始,经过一系列时间步(通常表示为 ),逐步对数据进行去噪。每个时间步都需要通过一个大型神经网络(通常是U-Net架构的变体)进行一次完整的正向传播。
图片来源:网络
总推理时间大约是单次模型评估持续时间的 倍。早期的扩散模型需要 =1000或更多。虽然新的采样器可以显著减少 (例如,到20-50),但与传统Transformer或CNN单次通过模型相比,总计算量大了数十倍。通常步骤越多,质量越高,计算量也大幅度增加。增加图像尺寸(例如,从512x512到1024x1024)会大幅增加每步的FLOPs(由于卷积和注意力)以及激活所需的内存,这种增加通常是超线性的。
VLA和世界模型之外的第三条路线或许在解决扩散模型高消耗算力缺点后能够在自动驾驶算法领域获得一席之地。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。
来源:佐思汽车研究