英伟达推L3级自动驾驶全栈系统Alpamayo

360影视 日韩动漫 2025-04-08 15:48 3

摘要:Alpamayo是阿尔帕玛尤山(西班牙语:Nevado Alpamayo)是安第斯山脉的布兰卡山脉其中一座最显而易见的山峰,该山峰位于秘鲁境内,海拔5947米。

英伟达GTC 2025大会上,吴新宙讲解了英伟达的L3级自动驾驶系统NDAS(即NVIDIA DRIVE AV Solution),代号Alpamayo。

Alpamayo是阿尔帕玛尤山(西班牙语:Nevado Alpamayo)是安第斯山脉的布兰卡山脉其中一座最显而易见的山峰,该山峰位于秘鲁境内,海拔5947米。

图片来源:吴新宙GTC2025大会

第一版NDAS将于2025年4月推出,2027年1季度将推出双Thor高速公路版L3,2027年底推出双Thor城郊Urban版L3。主机厂什么都不需要做,只需要把灵魂交给英伟达即可。

英伟达智能驾驶的车端和云端

图片来源:英伟达

从模型训练,传感器仿真、交通流仿真、合成数据、世界模型到模型部署,从VLM到VLA,英伟达都替主机厂想好了,只要主机厂掏钱就行。

Alpamayo实际就是端到端系统

图片来源:英伟达

Alpamayo网络架构

这里英伟达没有细说token-to-token的意思,实际就是将串行token改为并行,LLM最常见的Decoder-only Transformers结构在解码时, 通常会串行逐个生成Token,如何并行解码是LLM推理加速中比较独特的方式。在过去有Speculative Decoding 能巧妙的实现“并行解码”,但解码过程需要有小模型(Draft Model)参与,使得工程实现和部署并不够优雅。

英伟达的Medusa 则提供了一种One Model 的并行解码方案,其实现动机在于增加Multiple Decoding Heads 来做Next-Next-Token预测,提高预测效率,这里的Heads 和美杜莎的形象不谋而合。美杜莎(希腊语:Μέδουσα;英语:Medusa)是古希腊神话中的蛇发女妖,头上有九条蛇头。英伟达有论文MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads。Medusa加速效果,相较baseline, Medusa-2 加速2.83x,在Math/Coding/Extraction 种类的推理任务中加速3x以上。训练好的模型经过美杜莎微调即为Alpamayo。

通常将常规的decoding过程称为Next-Token 预测,将多token并行解码定义为Next-Next-Tokens 预测,统一任务形式。Medusa 在现有模型基础上,增加多个Medusa Head,与原模型上的LM Head 一同做预测。新增的Medusa Head 包含Block (可以多个堆叠)和分类头,输入为backbone模型的Last Hidden数据,输出为预测Token的概率。

美杜莎网络架构

图片来源:英伟达

MEDUSA 遵循推测解码框架,其中每个解码步骤主要由三个子步骤组成:(1) 生成候选者,(2) 处理候选者, (3) 接受候选者。

对于 MEDUSA,(1) 是通过 MEDUSA 头(head)实现的,(2) 是通过树注意力(tree attention)实现的,并且由于 MEDUSA 头位于原始主干模型之上,因此 (2) 中计算的 logits 可以用于子步骤 (1) 的下一个解码步骤。最后一步 (3) 可以通过拒绝采样(rejection sampling)或典型接受(typical acceptance)来实现。有3个medusa头,包含原LM_head模型一次性可以输出1+3个token。

首先,MEDUSA 头与原始主干模型一起进行训练。其中,原始主干模型可以在训练期间保持冻结状态 (MEDUSA-1) 或一起训练 (MEDUSA-2)。这种方法甚至可以在单个 GPU 上微调大模型,利用强大的基础模型学得表征。此外,MEDUSA 头的分布确保与原始模型的分布一致,从而缓解了分布偏移问题,并且 MEDUSA 不会增加服务系统设计的复杂性,对分布式设置很友好。

树状掩码注意力机制

图片来源:英伟达

由于候选者增加会提高计算需求,该研究采用树状结构的注意力机制来同时处理多个候选者。这种注意力机制不同于传统的因果注意力范式。在其框架内,只有来自同一 continuation的token才被视为历史数据。

Alpamayo模型训练流程,第一步是互联网知识预训练,即LLM的第一步,数万亿乃至数十万亿token的互联网知识搜集与训练。第二步是异构驾驶数据训练,应该是人工驾驶数据与合成驾驶数据训练。第三步继续加强训练。第四步监督数据微调,主要是各种驾驶规则。第五步是强化学习训练,主要是针对性长尾场景训练,然后第六步,美杜莎训练,量化部署上车。

英伟达L3架构

上图中,MRM是“Minimum Risk Maneuver” 最小风险状态,这是美国SAE汽车协会在2022年10月L3级自动驾驶标准上添加的一项功能安全,在某些情况下,当驾驶员可能无法响应fall-back就绪用户请求时,系统应预期执行一种被称为“最小风险操作”(MRM)的安全操作。在关键操作条件下定义 MRM 的功能安全概念(FSC)是一项非常重要且具有挑战性的活动。这里的MRM应该是一个模块化或全局端到端路径规划器,加一个最低风险限制的辅助模块,这个最低风险概念比较模糊,大概就是交通规则。对应MRM还有一个最低风险条件MRC (Minimal Risk Condition)。

MRC与MRM

图片来源:论文Minimal Risk Maneuver Strategies for Cooperative and Collaborative Automated Vehicles

英伟达Halos

图片来源:英伟达GTC2025大会

Halos 是涵盖三个不同层面但互补的整体安全系统:在技术层面,它包括平台、算法和生态系统安全。在开发层面,它包括设计时、部署时和验证时的防护措施。在计算层面,它包括 AI 训练到部署,使用三个计算平台方案:NVIDIA DGX 用于 AI 训练、在 NVIDIA OVX 上运行用于仿真的 NVIDIA Omniverse 和世界模型 NVIDIA Cosmos 以及用于部署的 NVIDIA DRIVE AGX。

Halos 包括用于安全数据加载和加速库,以及用于安全数据创建、管理和重建的应用编程接口,以便在训练前过滤掉不良行为和偏差等。它还提供丰富的训练、仿真和验证环境,利用 NVIDIA Omniverse Blueprint 进行自动驾驶汽车仿真,结合 NVIDIA Cosmos 世界基础模型进行自动驾驶汽车训练、测试和验证。此外,它还拥有一个多元化的自动驾驶汽车堆栈,将模块化组件与端到端 AI 模型相结合,以确保安全的采用前沿 AI 模型。

Halos 包含多元且无偏见的安全数据集,以及安全部署流水线,它包括分级流水线和自动安全评估,和用于持续安全改进的数据飞轮,引领自动驾驶汽车安全标准和规范。

Halos 的切入点是 NVIDIA AI 系统检测实验室,汽车制造商和开发商可通过该实验室验证其产品与 NVIDIA 技术集成的安全性。在2025年初 CES 上推出的 AI 系统检测实验室是首个获得美国国家标准学会国家认可委员会 (ANAB) 认证的全球计划,它将功能安全、网络安全、AI 安全和合规整合到一个统一安全框架中。AI 系统检测实验室的初创成员包括 Ficosa、OmniVision、onsemi 和大陆集团。

英伟达自动驾驶三大支柱

图片来源:英伟达

显然英伟达不仅要掌控灵魂(算法、芯片),大脑(模型训练、仿真和世界模型)也要掌控。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

来源:佐思汽车研究

相关推荐