CVPR 2025|GoalFlow:目标点驱动,解锁端到端生成式策略新未来

360影视 日韩动漫 2025-03-19 23:32 2

摘要:在自动驾驶场景中,往往不仅只有一条最优的轨迹。例如对于某些场景,车辆可以选择超车或者跟车策略。以往的驾驶方法聚焦在用判别式的方法来生成轨迹,通过直接对轨迹进行回归学习来建模轨迹的分布。这种学习方式非常高效,且能生成安全精准的轨迹,但是很难对多模态轨迹进行有效的

编辑丨极市平台

基于目标点驱动的端到端生成式策略

论文链接:https://arxiv.org/abs/2503.05689

项目链接:https://github.com/YvanYin/GoalFlow

在自动驾驶场景中,往往不仅只有一条最优的轨迹。例如对于某些场景,车辆可以选择超车或者跟车策略。以往的驾驶方法聚焦在用判别式的方法来生成轨迹,通过直接对轨迹进行回归学习来建模轨迹的分布。这种学习方式非常高效,且能生成安全精准的轨迹,但是很难对多模态轨迹进行有效的建模。

最近的一些方法希望通过以扩散模型为代表的生成式方法来建模轨迹的多模分布。这种训练加噪、推理去噪的范式能捕捉到数据的多峰分布,在轨迹规划的过程中为其提供大量发散的候选轨迹。但是这种发散轨迹会大大提高选择轨迹的难度,这往往需要比较强的先验信息,例如全场景的高精地图。另外,传统的扩散方法往往需要多步去噪,这大大提高了自动驾驶硬件的负担。

为了解决这个问题,我们提出了一种基于goal point的生成式方法GoalFlow,通过goal point引导轨迹规划模块生成轨迹。一方面,我们设计了一套map-free的goal point评估机制,能很好地捕捉到goal point的分布信息。另一方面,我们引入了一种更加高效的扩散模型变体,Flow Matching,通过简洁的扩散路径实现推理步数的大幅度减少。我们发现仅用一步去噪即可达到远超基线的效果。

当前生成多模态候选轨迹的方法主要由两种方式:一种是在回归轨迹的基础上添加不同的引导信息,例如左右转等。另一种是通过扩散模型这种连续建模的方式通过不断加噪和去噪来生成众多的轨迹。这两种方式都很难达到理想的效果。前者容易发生轨迹的坍缩,引导出的轨迹非常相似。后者容易生成高度发散的轨迹,这为挑选轨迹增加了难度。为此,GoalFlow主要思考如何探索其他可行道路来实现高质量的候选轨迹生成。

a. 如何应对生成式模型轨迹过于发散的情况: GoalFlow借鉴了Motiondiffuser的方法,其中用轨迹末端点对生成轨迹进行约束和引导。但是Motiondiffuser直接采用ground-truth末端点进行约束,这提供了过强的先验信息。我们将利用一种goal point评估机制来挑选goal point。

b. 如何构造goal point: goal point在自动驾驶中并不是个新事物,业务中往往可以使用车道信息来预测goal point或者使用直接将导航作为goal point。但是车道信息往往需要昂贵的高精地图,而导航往往并不表示车辆在未来几秒后的精确信息。与之前方法都不同的是,我们首先会将轨迹的末端点进行聚类,用密集的词表来捕捉goal point的分布特性,得到包含将近一万个goal point的词表。以此将goal point的回归任务转化成一个分类任务。之后对静态的goal point词表从两个角度进行评价,分别是词表中点到ground-truth末端点的距离以及是否在可行驶区域内。

c. 如何平衡生成准确轨迹和多模态轨迹: 生成模型的输入包括goal point(引导轨迹)和融合BEV特征的query(提供场景信息)。前者要求轨迹指向目标点,后者则当前场景下生成最可能的轨迹。为平衡两者,我们在训练中采用Classifier-Free Guidance,随机丢弃不同特征,并进行类型编码。训练时的 condition 设为三类:无条件、仅场景信息、场景信息+goal point。

核心思路: 引入goal point作为引导信息,通过建立密集的goal point词汇表和相应的评分机制挑选最优goal point,再由goal point和场景信息作为condition,由Flow Matching建模最终的轨迹分布。

完整流程:

感知信息提取:感知特征采用transfuser框架,分别由两个分别的backbone提取image和lidar的信息,将两种信息进行融合后得到BEV feature。goal point词表:为了使得goal point词表能很好地捕捉到驾驶场景中的分布信息,我们首先通过聚类数据集中的轨迹末端点得到一个密集的goal point词表goal point评分机制:通过goal point和ground-truth的轨迹末端点以及是否在可行驶区域内,对词表中的goal point进行打分。Flow Matching建模:词表中的最高分goal point和BEV feature作为condiiton,来引导Flow Matching生成轨迹。轨迹后处理:对于Flow Matching生成若干轨迹,通过筛选出的goal point进行打分,并引入阴影轨迹来对轨迹进行矫正。

在Navsim数据集上,轨迹采用碰撞率,是否在可行驶区域内,舒适度等综合指标PDMS来评价。GoalFlow在PDMS上达到90.3分,远超以regression为代表的Transfuser方法(84.0分)和naive的generative model(85.6分)。模拟真实场景用更精确goal point代替预测goal point时,PDMS达到92.1分,逼近人类驾驶的94.8分。此外,基于flow matching的方法对推理中denoising步数具有鲁棒性,只需1步推理就能达到优异性能,大大减轻自动驾驶硬件负担。

GoalFlow 通过聚类方法捕捉目标点(goal point)的分布特性,并设计了一套目标点评估机制,为目标点进行打分。基于这些目标点,GoalFlow 引导生成式方法 Flow Matching 生成高质量轨迹。实验表明,GoalFlow 能够生成优异的轨迹,并提供多样化的高质量轨迹候选,显著提升了轨迹生成的性能。

未来,我们将进一步探索如何优化引导信息的利用,尤其是设计更高效的网络结构,以更好地平衡场景信息和目标点引导信息对模型的影响。此外,当前工作主要聚焦于坐标位置作为引导条件,之后可以进一步探索将人类语言指令作为条件输入,结合 GoalFlow 实现更智能的指令跟随能力,拓展其在人机交互和自动驾驶等领域的应用潜力。

参考文献

a. Chen, S., Jiang, B., Gao, H., Liao, B., Xu, Q., Zhang, Q., Huang, C., Liu, W., and Wang, X. Vadv2: End-to-end vectorized autonomous driving via probabilistic planning. arXiv preprint arXiv:2402.13243, 2024.

b. Chitta, K., Prakash, A., Jaeger, B., Yu, Z., Renz, K., and Geiger, A. Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. Pattern Analysis and Machine Intelligence (PAMI), 2023.

c. Jiang, C. “., Cornman, A., Park, C., Sapp, B., Zhou, Y., and Anguelov, D. Motiondiffuser: Controllable multi-agent motion prediction using diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9644–9653, June 2023b.

d. Yang, B., Su, H., Gkanatsios, N., Ke, T.-W., Jain, A., Schneider, J., and Fragkiadaki, K. Diffusion-es: Gradientfree planning with diffusion for autonomous driving and zero-shot instruction following. arXiv preprint arXiv:2402.06559, 2024.

e. Sun, W., Lin, X., Shi, Y., Zhang, C., Wu, H., and Zheng, S. Sparsedrive: End-to-end autonomous driving via sparse scene representation. arXiv preprint arXiv:2405.19620, 2024.

来源:极市平台

相关推荐