摘要:2019年,公司成立的第三年,小马智行联合创始人兼CTO楼天城在团队一直采用的learning by watching技术路线身上看到了两个字:
撰文 | 张祥威 编辑|马青竹
2019年,公司成立的第三年,小马智行联合创始人兼CTO楼天城在团队一直采用的learning by watching技术路线身上看到了两个字:
“绝望”。
learning by watching,又称模仿学习,在自动驾驶领域,是指通过采集数据,让系统模仿人类优秀司机开车。而过去一年大热的端到端,就是模仿学习的一种。
楼天城说,它有三个局限:
只能模仿人类开车,无法学习人类驾驶过程中的意图;
人们可以接受人类司机因为严重身体问题失去驾驶能力,但不能接受机器失效;
模仿学习属于开环训练,系统无法自己判断学习结果的好与差。
他认为,有了这些局限,就无法实现L4。
楼天城和团队开始重构技术,转向learning by Practicing,也就是强化学习。为了让模型自我学习,团队搭建了虚拟学习环境——世界模型。
小马智行的技术重构花了五年时间。
如今,随着萝卜快跑和马斯克在2024让Robotaxi和 L4 概念回暖,楼天城和小马智行高管开始频频露面,批评“端到端”,围绕“世界模型”制造声量,说明L4的技术可行性,以及阐述接下来的商业化路径。
还要回应,面对特斯拉为代表的渐进式玩家,小马智行等还在坚守的L4玩家有没有护城河?
寻到“世界模型”救命药
楼天城的观点是:
渐进式L2+玩家采用learning by watching技术路线完全没问题,但做得越好,距离L4越远,做Robotaxi,最终会发现行不通;L4做Robotaxi,除了选择强化学习,别无他法。
沉默许久的小马智行,让人们看到L4玩家生存状态,和接下来要走的路。与L4公司最初创业时一样,这条路也因为更换技术路线,再次有了悬念。
去年,特斯拉FSD V12推送部分用户后,端到端风暴席卷国内自动驾驶圈。这提高了系统能力上限,解决corner case步子加快。华为、小鹏、理想、Momenta、元戎启行等,均走在这条路上。
小马智行副总裁、北京研发中心负责人张宁告诉《出行百人会/AutocarMax》,小马智行根据对市场和技术的观察,很快就做了相应尝试,在2023年做了端到端。
但是,他补充,端到端不能解决所有问题,“助推无人驾驶大规模落地的很重要一点,是世界模型。”
楼天城此前接受媒体采访时解释,端到端属于模仿学习,通过模仿学习做不到L4,而是需要采用强化学习,像AlphaGo一样进行自我训练。
自我训练需要的世界模型,由四部分组成:数据生成器生成的场景数据;驾驶行为好坏的评估体系;高真实性的仿真;以及数据挖掘工具和引擎。
“一个错觉是,相比实际收集的数据,生成数据会不会覆盖不了常规场景或corner case,其实那都是没做好。如果做得好,生成数据的覆盖率和一致性远超实际路采数据。”楼天城说。
这也是他眼中的技术核心,“世界模型是车端模型的工厂,自动驾驶技术的真正差别在于工厂的精度,就像一个模具的精度决定了它生产出来的零件的上限。”
其实,渐进式玩家也开始采用强化学习。
去年7月,理想汽车智能驾驶技术负责人贾鹏阐述理想的算法原型时表示:
“端到端模型的目的是学习行驶轨迹,但行驶轨迹是不确定的,即使同一个司机,在不同的场景、不同的时间,驾驶行为也不太一样。如果只是一味地通过模仿学习人,只能模仿对的,不知道什么是错的,会出现很多诡异的驾驶行为。”
理想在训练过程中引入强化学习,让系统知道对与错,从而得出一个驾驶技巧、价值观均正确的模型。
渐进式玩家还意识到,端到端仅仅是开始,无法实现L4。理想汽车CEO李想不久前表示,端到端只能解决L3,无法解决L4。
“端到端+VLM可以解决L3,比如实现500公里到1000公里一次接管,让你在车上相对轻松。但它想L4,泛化能力是远远不够的。要实现L4,必须使用VLA。
小鹏汽车自动驾驶副总裁李力耘持同样观点:
“无论是云端大模型,还是世界模型,或者生成式仿真、强化学习,这些都是最终做成Robotaxi的必由之路。端到端的AI大模型也许不是最终做成无人驾驶的充分条件,但会是一个必要条件。”
笔者注意到,在小鹏汽车的“端到端四部曲”中,提到“类L3”“部分场景下的无人驾驶”,但并未没出现严格意义上的L4。
目前,国内明确提出要做VLA的公司有两家,理想之外,另一家是元戎启行。元戎启行技术副总裁刘轩此前向我们表示,“VLA可以理解为跟驾驶相关的世界模型。”
除了要在明年将VLA架构模型量产上车,元戎启行同样有涉足Robotaxi的计划。元戎启行CEO周光认为,用传统的L4技术路线做Robotaxi,过去几年证明走不通,但VLA有可能将这条路走通。
“我们的世界模型和VLA相比,差别还是很大的。大部分VLM/VLA展示出来的是看图说话的进阶版能力,小马智行的世界模型,与其说更接近VLM或者VLA,不如说更接近Alpha Zero。”张宁向我们表示。
半前装量产,逐步投放
近几年,L4玩家在Robotaxi上多番探索,除重构技术外,另一主线是降本。以百度Apollo为例,通过前装量产,将第六代无人车RT6的成本下探到25万元。
与百度不同,小马智行的量产策略相对谨慎。
《出行百人会/AutocarMax》了解到,目前小马智行路上投放的Robotaxi采用第六代车型,明年将发布第七代车型。
第七代车型为半前装量产。“让一个完全为你打造的产线去生产几千台车,不经济。”张宁说。
据悉,第七代车型目前有三款:一款基于丰田铂智4X车型打造;一款基于北汽极狐阿尔法T5车型打造;一款基于广汽埃安的车型打造。
新车型将全面搭载车规级设备,比如,车规级芯片英伟达Orin X等,且可以满足60万公里以上的营运里程要求。
至于真正的前装量产,张宁认为,当从万到十万爬坡,全生命周期有10万台车时,适合向主机厂做深度定制,从头开始做定向研发车型。
“10万台车的量级之下,摊销下来是经济的状态。在那之前,我们更愿意和主机厂已有的能力相结合。”
据悉,小马智行在产线上完成所有ADK自动驾驶软硬件的加装,下线时就是一台完整的Robotaxi,以能保证产线上的一致性、可靠性。
张宁算了一笔账:
收入端,小马智行希望每台车一年达到10多万元。
成本端,主要包括车辆和自动驾驶ADK套件、远程协助人员等。一辆新能源车大概15万元,小马智行的ADK套件大概10-15万元。
作为对比,张宁说,“Waymo的ADK价格是20万美金,搭载机械旋转式激光雷达。而小马智行已采用半固态激光雷达,单颗激光雷达成本接近3000元人民币。”
当下,一个出租车司机人工成本每年大概10万元,小马智行的单车毛利转正,至少在汽车运营生命周期内可见。
据小马智行测算,相比六代车型,第七代车型成本会下降60%-70%。
按照计划,小马智行接下来要在2025年投放五六百台车,2026年初破千,年底达到两三千台。2025年下半年到2026年初,公司的Robotaxi业务将实现毛利转正。
小马智行联合创始人、CEO彭军曾表示,在技术不成熟之前,投放100台、500台到1000台,并没有本质区别。
目前,小马智行投放Robotaxi规模为200台左右,百度的萝卜快跑约2000台。
如今开启规模投放,或许说明,那条花了五年时间重构的强化学习技术路线,以及小马智行心目中的唯一解“世界模型”,让其看到了技术成熟的希望。
2024年最后几个月,特斯拉、小鹏纷纷宣布Robotaxi计划,特斯拉的Cybercab计划2026年投产,小鹏的Robotaxi车型也将在明年推出。元戎启行也透露,将用VLA架构支持运营Robotaxi。
兜兜转转,小马智行依旧坚持以世界模型为抓手,渐进式玩家也追上来,终局的悬念再次浮现。
来源:AutocarMax