智驾黑话层出不穷,谁在真自研,谁在吹牛X

360影视 日韩动漫 2025-06-27 14:41 1

摘要:随着智驾的普及,当下各大车企都在智驾上投入重金进行研发,各种新科技、新名词也层出不穷,行业已形成四大技术流派鼎立的格局:VLA(视觉-语言-动作)模型、VLM(视觉语言模型)、世界模型与端到端自动驾驶系统。这四大技术路线并非孤立演进,而是呈现"你中有我"的融合

随着智驾的普及,当下各大车企都在智驾上投入重金进行研发,各种新科技、新名词也层出不穷,行业已形成四大技术流派鼎立的格局:VLA(视觉-语言-动作)模型、VLM(视觉语言模型)、世界模型与端到端自动驾驶系统。这四大技术路线并非孤立演进,而是呈现"你中有我"的融合态势,共同推动着L3级自动驾驶的商业化落地。

从市场渗透率维度观察,L2级辅助驾驶已实现规模化普及,2025年Q1数据显示,L2智驾装配率达51.3%,相对来说,L3级及以上高阶智驾仍受限于法规与技术瓶颈。

在技术供给端,头部阵营呈现"两超多强"格局:特斯拉凭借FSD V12端到端系统占据技术制高点,华为"车路云一体化"方案构建生态壁垒;第二梯队中,理想汽车的MindVLA、蔚来的NWM世界模型、小鹏的XNGP端到端系统形成差异化竞争优势。

值得关注的是,技术路线选择正深刻影响着产业格局。采用VLA路线的车企,如理想汽车,通过自然语言交互与动作预测的深度融合,在城市场景的复杂交互中展现优势;坚持端到端路线的特斯拉,则通过数据闭环实现模型持续进化。这种技术分野直接映射到供应链体系:VLA/VLM路线催生对大模型训练芯片的旺盛需求,而端到端方案更依赖海量真实道路数据积累。

这些技术各自有什么优劣?发展情况如何?车企实力排名是怎么样的?谁在真自研谁在吹牛X?


VLA:让车“眼观六路,脑动一体”

我们先来看一个曝光率比较高,也是目前技术较为前沿的VLA模型。简单来说,VLA(视觉-语言-动作模型)就是让车像人一样“边看、边想、边行动”,自己做出决策。

比如,你开车时遇到一个没信号灯的十字路口,左边来车,右边有行人,导航还提醒“前方右转”时,VLA系统就能同时处理摄像头画面、导航指令和车辆状态,直接输出转向、刹车或加速的指令,不用像传统方案那样分模块接力处理。

在落地层面,大家比较熟悉的是理想汽车的MindVLA,这套系统将会在理想I8上首发。消息称,MindVLA能够支持城市NOA(导航辅助驾驶)功能。

举个例子,北京早高峰的西二旗路口,MindVLA能同时识别闯红灯的电动车、施工围挡和导航提示的绕行路线,直接规划最优路径,省去了传统方案中“感知-规划-控制”三步走的延迟。

从技术路线上看,VLA技术正在向“更大参数、更复杂场景”进化。但是,VLA的难点在于数据获取成本,如果要训练一个能应对全国路况的模型,需要至少百万公里的真实道路数据,以及消耗较高的算力,综合成本较传统方案高20%~30%,毕竟需要一个天量的数据池。

行业认为,2025年将会是VLA技术落地元年,第一梯队以理想、小鹏等车企为代表,陆续会在30万以上的中高端车型中搭载;其次是比亚迪、吉利等车企,正在自研或合作开发VLA融合模型。

不过随着芯片算力的提升以及技术的成熟,VLA模型2025-2027年VLA将从高端车型向主流市场下沉,高盛报告显示,VLA模型主导的端到端方案可能至2030年占据L4级市场60%份额。


VLM:让车“看懂”世界

VLM(视觉语言模型)的核心能力,是把摄像头看到的画面“翻译”成文字描述,再结合导航数据优化决策。

比如,你开车经过一个陌生路口,VLM能识别路牌上的“施工绕行”提示,同时结合导航生成绕行路线,甚至通过语音告诉你“前方500米右转,进入临时车道”。

蔚来的NIO World Model(NWM)是一项比较有代表性的VLM模型应用。NWM能在100毫秒内生成216种可能的行驶轨迹,并基于3秒视频输入预测未来120秒的交通场景。

截至2025年,视觉语言模型(VLM)处于早期爆发阶段。当前全球汽车专用VLM市场规模约3亿美元,年增速超11%,在国内,头部阵营(理想/小米/华为) 已跑通商业化闭环,主流车企自研的VLA模型能直接输出控制信号,城区高阶智驾覆盖率达到了90%,技术成熟度比较高。


世界模型:给车装个“平行宇宙”

世界模型听起来科幻,但本质其实是“虚拟环境模拟器”。在原理上,世界模型是通过摄像头和传感器数据,构建一个动态的交通场景模型,让车在“虚拟世界”中预演可能的行驶轨迹。

举个例子,在高速公路匝道汇入时,世界模型能提前模拟相邻车道车辆的加速意图,从而更早调整车速和位置。

特斯拉的FSD V12系统是非常典型的世界模型。它通过海量视频数据训练,支持从摄像头输入到控制输出的全流程处理。在国内,蔚来的NWM模型同样也依赖世界模型做决策,通过生成式仿真测试,验证车辆在复杂交互场景中的性能。

在发展方向上,世界模型正在从“单点模拟”向“全场景覆盖”进化。头部阵营中,特斯拉凭借自研10亿级参数端到端4D模型(如Cosmos)实现了全国无图智驾覆盖,华为乾崑ADS 3.0则融合通信技术优势,路测里程突破2亿公里,形成“车路云一体化”壁垒。

以小鹏XNGP、理想AD MAX为代表的第二梯队,依托世界模型基本实现了城市无图导航,但端到端模型还没实现全端推送,尚处于发育阶段。


端到端:从“模块化”到“一体化”

自特斯拉的FSD之后,端到端智驾模型成为热词。在技术上,端到端是用一个神经网络“包办”从传感器输入到控制输出的全过程。

比如,在泊车场景中,端到端系统能直接通过摄像头图像输入,输出方向盘转角、油门刹车等控制指令,无需传统方案中的“感知-规划-控制”三模块串联处理。

商业化落地方面,端到端技术已经形成了“三级梯队”分化。头部玩家如特斯拉、华为已构建“算法-芯片-数据”闭环;第二梯队的小鹏、理想借助DeepSeek等工具压缩模型规模至5亿参数,加速端到端模型上车;第三梯队的蔚来、小米虽在场景推演能力上突破,但受制于第三方算法依赖,在技术上还有进一步提升空间。

当前,全球L2级自动驾驶渗透率已达51%,但L3级及以上技术仍受限于法规空白与算力瓶颈。随着头部企业通过垂直整合构建技术护城河,2025年或成行业并购重组关键窗口,而未能突破端到端技术瓶颈的厂商将面临技术淘汰的考验。


供应商和车企的技术竞赛

在智驾技术狂奔的赛道上,供应商技术同样在快速迭代。元戎启行、商汤绝影等企业手握VLA、世界模型等核心技术,通过“技术+成本”组合拳加快产业布局。

以地平线征程6芯片为例,该方案基于VLM模块,把推理延迟做到了低于100ms,并把硬件成本压缩至激光雷达方案的1/3,直接推动L2级智驾功能下探至15万元级市场。

另外,Momenta的“双系统并行”方案,更是在保障安全冗余的前提下,覆盖了1000万+长尾场景,装机量也非常大。

但车企也有车企自己的考虑,自研能构筑技术护城河,获得供应链上游的利润。特斯拉Dojo超算与4D模型的绑定,华为“车路云一体化”的生态壁垒,都是很典型的案例。

当然,除了技术层面,我们更应该警惕的是营销泡沫,毕竟涉及到安全问题。政策端,L3级准入试点要求企业公开测试里程及接管数据,工信部更明确“禁止夸大自动驾驶级别”。

这记警钟提示行业:智驾竞争终将回归工程化能力,而非营销话术。

总之,无论哪种智驾方案,在内卷的大环境下,最终都会在短时间内进入淘汰赛,头部玩家通过“算法-芯片-数据”闭环收割市场,尾部玩家或被并购或沦为代工厂。而消费者需牢记:能买到的技术,才是真技术。

来源:滴星视界

相关推荐