摘要:去年北京车展上,「一段式端到端」智驾系统还是汽车行业的一致追求。当年3月,特斯拉在北美市场全面推送了V12版FSD,用深度学习取代基于规则的路径规划算法,并将原本独立的感知、规划模块统一进了同一个神经网络。小鹏、理想等造车新势力也都在去年下半年竞相将端到端(尽
Key Points
因为机器人的出现,汽车智驾系统分化成VLA派和世界模型强化学习派,一个追求通用,一个追求可靠;元戎将VLA视作「端到端2.0」,说它能解决模型黑盒和人机交互问题;
华为、Momenta和小马智行,都选择了用世界模型优化现有智驾系统;
L3一词在此次上海车展中也高频出现,但它比L4还难;
造车新势力们没有高调宣传智驾,尤其小米,它派了近百号人干别的事——现场销售汽车。去年北京车展上,「一段式端到端」智驾系统还是汽车行业的一致追求。当年3月,特斯拉在北美市场全面推送了V12版FSD,用深度学习取代基于规则的路径规划算法,并将原本独立的感知、规划模块统一进了同一个神经网络。小鹏、理想等造车新势力也都在去年下半年竞相将端到端(尽管不都是一段式的)模型上车。
然而今年的上海车展上,关于智驾接下来要怎么做,每家公司的思路都开始不同。
通用派 vs 可靠派
继去年理想公开提出要从双系统方案转向VLA(Vision-Language-Action)后,元戎启行也在这次上海车展上端出了自己的VLA方案。
元戎启行市场部员工对「新皮层」称,元戎将VLA视作「端到端2.0」,即它同样通过一个模型实现从感知信号(vision)输入到车辆驾驶动作(action)输出的一段式端到端,但相较于端到端1.0时代的VA(Vision-Action)模型,VLA增加了语言(language)维度的数据,从而能够解决「上一代」端到端模型的「黑盒」问题。
元戎的VLA模型说明。
「车的行为变得可解释,理想状况下,人还可以通过自然语言与车交互。」这位员工称。在元戎启行展示的VLA模型Demo中,车辆座舱屏幕上可以一边显示周边驾驶环境,一边用自然语言向驾驶员说明周边环境、车辆驾驶策略等信息。
车展首日,元戎启行宣布了与字节跳动旗下云计算平台火山引擎的合作,后者将为元戎提供语言模型能力和算力支持,加速元戎启行VLA模型的迭代开发。元戎称,今年将有超过5款搭载VLA模型的车型实现量产,但没有透露具体量产客户。
元戎Demo显示,其VLA模型上车后可一边开车,一边文字说明其驾驶环境和驾驶策略。
「我们可能是在车领域最早提VLA的」,元戎启行CEO周光在发布会上的媒体交流环节中说,「可能到了明年,VLA就会成为行业共识。」
理想也在推动VLA方案。今年3月的英伟达GTC大会上,理想就发布了MindVLA模型,从之前的「VLM+端到端」双系统方案(即:VLM模型用于感知和理解驾驶环境,并做出动作规划;端到端模型用于车辆动作执行)升级为一个统一的系统。
作为智驾供应商中的「订单之王」,Momenta没有采用VLA方案,它在车展上展示的「飞轮大模型R6」是另外一条技术路线——将一个世界模型作为仿真环境,把现有端到端模型投入其中做基于强化学习的后训练。Momenta一位产品经理对「新皮层」称,端到端模型从人类驾驶数据中学习到的不一定都是好的行为,通过强化学习的奖励设置,可以让模型只留下好的驾驶行为,淘汰掉坏的。Momenta CEO曹旭东称,飞轮R6模型预计会在今年下半年推出。
卓驭科技(原大疆车载)AI负责人陈晓智在车展的媒体采访中表达了类似路线。「预训练阶段本质上是模仿学习,可以让系统做到80分的水平,但要从80分到95分,这个阶段用强化学习效率更高,安全性也会提升。」陈晓智说。
华为一位智驾开发人员对「新皮层」称,是在端到端1.0模型上继续打磨,还是选择踏上VLA这个新方向,差别在于目标是想要追求系统在驾驶这个垂直场景中的安全、可靠性,还是追求系统的通用性——VLA的训练和落地场景都不局限驾驶场景本身,比如理想就想用VLA统一智驾、机器人和座舱中用于人机交互的多模态模型。
元戎启行市场部员工也对「新皮层」称,元戎也在探索车之外的智能场景,比如智能外卖车。在元戎的展示Demo中,一种带有机械手臂的外卖车在空间中穿行,它除了能「自动驾驶」,还能进行手部操作。
Momenta提出的基于世界模型做强化学习的方案。
像Momenta一样,华为也选择在既有端到端模型上做优化,其4月22日晚发布的第4代智驾系统「乾崑智驾ADS 4」也引入了世界模型。不过它不只是将世界模型作为一个训练环境,而是也想将世界模型加载到车辆中作为感知-行动模型的一部分。
在这套名为「世界引擎+世界行为模型(World Engine+World Action Model,WEWA)」的技术架构中,「世界引擎」位于云端,会生成各种极端和罕见的驾驶场景,并把它们做成「考试题」,让智驾系统学习,类似于「科目1」的教官。华为称,其世界引擎所提供的难例场景密度是真实世界的1000倍;而「世界行为模型」位于车端,具有全模态感知能力和MoE多专家能力,是「科目2」的教官,让智驾系统在模拟环境中成为实战专家。
选择这一路线的还有小马智行。其联合创始人、CTO楼天城在阐述世界模型必要性时称:「即使完美复刻人类顶尖司机的驾驶行为,也无法满足L4级自动驾驶对安全性的苛刻要求——因为机器需要理解为什么而不仅仅是怎么做。」他同样认为,基于世界模型的强化学习对于智驾系统是必要的。小马智行已研发世界模型「PonyWorld」。
L3高频出现,但可能难产
智驾方案之争外,此次上海车展中同样高频出现且充满争议的词是「L3」。
华为最新发布的ADS 4共有四个版本,其中ADS Ultra旗舰版搭载了高速L3专属方案。华为智能汽车解决方案(车BU)CEO靳玉志在4月22日的发布会上称:「华为已在云端世界引擎进行了6亿公里的高速L3仿真与验证,已为高速L3量产商用做好准备。」此外,首次亮相的极氪9X宣称配备了L3级智驾方案「千里浩瀚H9」,预计在今年第三季度正式上市并量产交付。
虽然华为在宣传时使用了L3这一说法,但还是在PPT的左下角用小字注明了「HUAWEI ADS为辅助驾驶,驾驶员应时刻保持专注并做好随时干预或接管的准备」——不符合国标对L3的定义。根据现行的国家标准《汽车驾驶自动化分级》(GB/T 40429-2021),「组合驾驶辅助」为L2级自动驾驶,L3级自动驾驶为「有条件自动驾驶」。极氪则表示,L3功能的实际落地时间取决于法规进度。
在智驾责任清晰的L2和L4之间,L3是个模糊地带。小马智行CEO彭军称,因为第一责任人的不同,L2到L4不是一个产品进化的过程,而是从第一天开始整个产品的设计理念就不同。L2的第一责任人永远是司机,而L4无人驾驶的第一责任人实际上是车或者是技术本身。「L3就相对比较难了,一定情况下是车作为第一责任人,一定情况下驾驶员作为第一责任人,所以L3的产品定义非常复杂,需要更多法律法规。」彭军说。
如何在智能水平和安全责任划分之间取得平衡是个难题。元戎启行CEO周光称,如果一个系统不考虑是否聪明、拟人,只考虑是否安全,「L3堵车一小时走50米,再安全也没人用」。
事实上,也是被定义为L4的Robotaxi反倒比L3更早迎来量产。
小马智行第7代Robotaxi汽车。
小马智行CEO彭军称,他们在2023年启动了Robotaxi计划,代号「昆仑」,现在走到了量产节点。今年的车展上,小马智行发布了第七代自动驾驶系统,适配于丰田、北汽、广汽三款车型,目前已进入路测阶段,今年夏天可以实现这三款车的常规化生产。和上一代系统相比,第七代系统的套件BOM成本(Bill of Material,指智驾系统相关的软硬件成本)下降了70%,其中车载计算单元成本下降了80%,激光雷达的成本下降了68%。
和那些尝试定义下一代智驾技术的技术供应商不同,小马智行现阶段追求的是规模。截至去年11月,小马智行在北京、上海、广州、深圳四个城市共投放了250多辆Robotaxi。彭军称预计公司「在2028、2029年能够实现盈亏平衡」。
Momenta也计划在Robotaxi业务上发力,今年将推出Robotaxi方案,首批车端无人的Robotaxi预计在今年年底进入试运营阶段。
造车新势力们不再高调宣传智驾,更在意卖车
这次车展,造车新势力们都没有把智驾作为宣传重心,甚至没有在展台中提供视频Demo说明其智驾方案,而是将重心放在了产品展示和品牌塑造上。例如,理想将展台设计成了一个具有「居家」氛围的空间,展台中央设置休息区,提供无限充电服务,强化「移动的家」概念。小米的展台则像是一个大号的「小米之家」,除了展示车,它还把智能耳机等不少小米周边商品陈列在了展区后侧。
小米销售在展台内侧排队,等待对接入场观众。
可能是受小米SU7车祸事件影响,小米并没有高调宣传这次车展,雷军也不曾在车展现身。不过,它看起来并不打算放弃任何一次可以销售的机会。此次车展现场,所有汽车公司都设计了开放式展台,只有小米站台采用封闭式设计,所有人只能从一个入口进,另一个出口出。当观众从展台外部排队入场,小米的销售人员已在展台内部排好长队,准备一对一对接入场人员,提供产品介绍、询问添加微信、约4s店试驾一条龙服务。据不完全统计,小米现场销售人员近百名。乐道展台与小米相邻,并同样有几十位销售位于现场,但没有人管理这些人。
乐道展台在小米隔壁,同样有数十名销售在场。
在新产品方面,理想推出了MEGA Home家庭特别版和理想L6智能焕新版,纯电车型i8并未亮相。小鹏推出了小鹏P7+超长续航Max旗舰版本,另外小鹏机器人IRON也出现在了现场。蔚来旗下的乐道发布了一款全新的SUV乐道L90,预计将在今年三季度上市。
来源:第一财经YiMagazine