理想与英伟达端到端自动驾驶真实训练数据没那么重要没Scaling Law

360影视 欧美动漫 2025-04-21 14:55 2

摘要:2024年底理想汽车发表论文《Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving》,作者多达17

2024年底理想汽车发表论文《Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving》,作者多达17位,其中15位来自理想汽车,2位来自中科院自动化研究所。2025年4月,英伟达发表论文《Data Scaling Laws for End-to-End Autonomous Driving》,10位作者中英伟达占了8位。两家对端到端自动驾驶是否存在Scaling laws做了初步研究,因为是初步研究,他们只使用了真实数据,没有合成数据和网络数据。先说理想的结论,越复杂的任务,Scaling laws就越不明显,也就是说增加训练数据带来的收益越低。开环测试下Scaling laws比较明显,但闭环测试不明显。

所谓Scaling Law在LLM领域非常明显,ChatGPT之所以开创性地让AI上一个台阶,关键就是足够多的训练数据和足够多的模型参数。但语言是高度离散的,自回归或者说transformer非常适合,不过自动驾驶和具身智能核心是对视频的理解,高斯热噪音模式或者说diffusion更接近真相。

此外,还要指出只有模块化端到端才能评价训练数据与最终性能之间的关系,全局型端到端依靠的主要是VLM大模型的性能以及针对自动驾驶的微调,而VLM是源自LLM的,自然是遵循Scaling Law的。

端到端自动驾驶演进路线

图片来源:英伟达论文《PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving》

很多人不能理解为什么都模块化了还能叫端到端,实际上它的逻辑是模块化的,其计算是一个transformer模型,用query串联或并联多个模块,计算是一个整体,从计算的角度看,也可以叫全局端到端。模块化端到端和VLA可以不用VLM或LLM大模型,也可以用,比如小米的Orion就用LLM大模型,但全局型端到端肯定要用VLM或LLM大模型。全局型端到端黑盒化太严重,难以升级或改进。模块化端到端做基础,是产业界的研发方向,当然,特斯拉一贯不走寻常路。

先来看理想的论文,这篇论文主要回答三个问题。

Is there a data scaling law in the field of end-to-end autonomous driving?How does data quantity influence model performance when scaling training data?Can data scaling endow autonomous driving cars with the generalization to new scenarios and actions?

理想自己搜集了一个国内最强的训练数据集,没有之一,理想将其命名为One-Drive,包含400万段带标注的demo视频,大约3万小时,全部是真实数据。

One-Drive数据集

图片来源:论文《Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving》

a包括各种天气、天时、道路,b包括各种驾驶形态,直行、变道、超车和掉头,理想的轨迹分布远在nuPlan和nuScenes之上。

理想使用的端到端模型,即PARA-Drive,是一个标准的模块化端到端,也是比较少见的有激光雷达输入的端到端模型,从目前开环测试看,模块化端到端的L2误差距离成绩轻松碾压全局式端到端,而全局端到端则在碰撞率方面表现比模块化端到端要好不少。

评价指标主要是ADE即平均位移误差,Average displacement error(ADE),每个预测位置和每个真值位置之间的平均欧式距离差值。还有一个指标是FDE,终点位移误差:Final displacement error(FDE),终点预测位置和终点真值位置之间的平均欧式距离差值。

开环测试中,scaling law是存在的,数据量和ADE基本呈现线性分布,但是闭环测试中,随着数据量增加到某个量,得分增加开始进入高原状态,提升很少。

然后是理想测试了不同数据类型,显示出某些类型上,增加训练数据性能提升很明显,如直行队列,但是有些如等待转向,增加训练数据性能提升不那么明显。数据分布很重要,增加少量的Corner数据比增加全量数据影响更显著。

英伟达数据集

图片来源:论文《Data Scaling Laws for End-to-End Autonomous Driving》

接下来看英伟达的《Data Scaling Laws for End-to-End Autonomous Driving》,英伟达为这篇论文,构建了一个8192小时的真实的工业级数据集,行程40万公里,覆盖10个国家,选取三个FOV不同的前视角视频,帧率为10Hz,下取样精度734*270,对于自车轨迹,取未来3秒为一段落,帧率5Hz。这与理想的800万像素再加激光雷达的真实数据集相比差异极大。英伟达采用了自动标注系统,理想汽车应该是少量人工标注引导,大部分采用自动标注。

英伟达对端到端模型的介绍不够直观,没有图,其模型包含两部分,一部分输入感知部分,另一部分就是预测轨迹部分,输入感知就是用ResNet骨干网将视频编码,采用一个平均全局池化层输出单一矢量特征。显然这更接近模块化端到端。如果将矢量特征token化输入VLA模型或者LLM,那么也能勉强认为是全局端到端;如果是将矢量特征再与其他模块做交叉注意力计算,输出单一任务头,则是标准的模块化端到端;如果输出并联多任务头,则和全局端到端也有一点点类似,主要还是并联结构。

预测轨迹就是动作编码,动作编码分三部分,第一部分是驾驶状态,比如向左变道、向右变道、转向,这是一个one-hot向量,one-hot向量将类别变量转换为机器学习算法易于利用的一种形式的过程,这个向量的表示为一项属性的特征向量,即同一时间只有一个激活点(不为0),这个向量只有一个特征是不为0的,其他都是0,特别稀疏。为了简化,就只有三个状态。第二部分是动作距离,即从自车位置到动作发生处时的距离,单位是米。第三部分是动作角度,即动作发生处车辆转向的角度,用正弦和余弦表示。最终动作向量就是三者进入MLP多层向量机后的结果。

自车的运动学编码也是如此,包括了自车速度,加速度,速度变化率。

端到端就是将输入图像的视频特征编码、动作编码和自车的运动学编码,将这三个编码即矢量做交叉注意力计算,然后通过一个附加的MLP输出waypoints,即一系列xy直角坐标系坐标值。频率为5Hz,时间段为3秒,地平线就是15。

虽然英伟达未明说,单凭文字描述,这个模型就是英伟达的PARA-Drive,和理想论文中所描述的一样,PARA-Drive是一种并行结构端到端模型的统称,可以有一定的变化。

PARA-Drive架构

图片来源:论文《PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving》,作者全部来自英伟达

训练数据与FDE之间关系

FDE即最终位移误差,使用了两种骨干网,一种是参数少(1120万参数)的ResNet-18,另一种是参数较多(2430万参数)的ResNet-50,预测模型是MLP,参数自然也少,只有720万参数。采用英伟达DriveSim仿真闭环测试,很明显,过了1000小时以后,训练数据增加带来的性能提升越来越少。

开环测试数据集与FDE之间的关系,基本和闭环测试差不多,这点与理想汽车的结论差别较大,主要是英伟达的8192小时相比理想汽车的3万小时还是差别较大。

2024年3月,曾经的无人配送顶流Nuro也对端到端和训练数据之间的关系做了研究,发表在medium上,链接为https://medium.com/nuro/at-nuro-we-conduct-an-ai-first-approach-by-using-ml-everywhere-5faf4657fff3。顺便说一句,Nuro在2025年4月9号获得E轮1.06亿美元融资,开始两条腿走路,一条腿还是无人配送小车,另一条就是类似Momenta,采用英伟达全套体系,核心是Thor芯片,提供整套技术方案。

图片来源:Nuro

上图中,结论和英伟达、理想汽车差不多。

图片来源:Nuro

Nuro比较感知参数模型,发现在超大模型上,性能提升还是比较明显的,这就是说明模型参数比模型训练数据要重要的多。

端到端自动驾驶领域,数据规模不重要,它会严重背离成本收益曲线,对商业公司来说不合适,最近强化学习在自动驾驶领域应用越来越广,强化学习微调增强也明显比SFT监督学习微调增强要好得多,强化学习只能使用仿真合成数据,合成数据的重要性已经在真实数据之上。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

来源:佐思汽车研究

相关推荐