摘要:五个月前,李想高调地宣布了将 All in AI,表示理想要从一家智能汽车公司,转型迈向一家人工智能科技公司。而这次,李想带着全新的 VLA(Vision-Language-Action)模型走到了公众面前。此前,VLA 已经在 3 月的英伟达 GTC 大会上
李想认为,理想汽车的智能化原创性已超增程。
作者|曹思颀 周永亮
编辑|靖宇
01
辅助驾驶再进化:从「双系统」到 VLA经过了十几年的发展,辅助驾驶经历了多次迭代。其架构演进大致可分为模块化⽅案(2022 年之前)、端到端感知(2023 年)、VLM+E2E (2024 年)。总的来说,自动驾驶大脑的设计从「各自为政」的小团队,进化到「边看边学」的超级学生,再到「常识+行动」的尝试。如今,辅助驾驶又来到新的十字路口—— VLA。这也是理想 AI Talk 第二季的重点。基于此,李想认为,辅助驾驶处于「黎明前的黑暗」,黎明马上就要来了。其实,2025 年 3 月的英伟达 GTC 大会上,理想就发布了下一代自动驾驶架构 VLA。这里稍微介绍一下,VLA 最早是由 Google DeepMind 在 2023 年 7 月提出的用于机器人控制的模型,其以大语言模型为基础,模型在接收摄像头的原始数据和语言指令后,可以直接输出控制信号,完成各种复杂的操作。对于理想汽车而言,李想表示,VLA 是一个「司机大模型」,它像人类司机一样工作。同时,李想强调,VLA 的诞生不是突变,而是进化。简单说,VLA 并非抛弃端到端,而是将其作为 VLA 行动(A)部分的基础。只有做好规则算法,才能知道如何做端到端,只有把端到端做到极致水平,才有机会去做 VLA,这个过程没有捷径。他详细阐述了训练 VLA 的四个步骤,这有点像人类学开车的过程。02
拥抱开源,感谢 DeepSeekDeepSeek 的出现,加速了 AI 领域的进化,也影响了理想在 AI 领域的研发进程。在原有的计划里,理想原计划在今年 9 月先推出一个足够好的语音模型(即 VLA 里的「L」部分),在此基础上再继续训练 VLA 模型。DeepSeek 的出现让理想看到了「站在巨人肩膀上」的机会。据李想回忆,今年 1 月 DeepSeek R1 模型发布并开源后,他很快就和 CTO 谢炎、基座模型负责人陈伟达成了共识。团队内部认为应该以此为基础,加速 VLA 研发进展,并研究如何在芯片上也跑到同样的训练和推理的效率。李想说,公司「拥抱 DeepSeek 的过程比想象得快」。而更加令人意外的是,李想披露了公司开源自研四年的整车操作系统——理想星环 OS,其核心动因并非战略考量,而是受到 DeepSeek 开源精神的鼓舞,「说白了纯粹是感谢 DeepSeek」。一个用于「理想同学」App 的模型基座,参数量约为 300B(3000 亿),使用场景是用在类似豆包、KIMI 的语音模型应用上
VL(Vision+Language)模型底座,参数量大约在 32B(320 亿),为 VLA 模型的训练基座
在李想看来,VLA 模型是一条 DeepSeek、OpenAI、Waymo 等公司都没有走过的「无人区」,和目前通用语言模型最大的不同之处就在于,训练 VLA 模型,需要加入足够过视觉和语言联合的语料,即三维图像和模型对世界的理解语义要同时产生的,而这样的模型并没有原始数据。在春节之后理想的第一次例会上,李想将 DeepSeek 的出现比作 Linux 的推出,并表示理想要追逐人工智能的「安卓时刻」。理想希望可以在专业和垂直领域里,训练出一个专用大模型,以提升垂直领域的 AI 能力,并最终交付价值。在访谈最后,李想也提到了竞争对手特斯拉。他表示目前特斯拉 FSD 在国内的模型水平,并不代表特斯拉的真实实力,「大概在用 V12.5 以前的模型」。但整体来看,他依然认为特斯拉 FSD 系统的基本功很扎实,是理想真正需要学习的能力。「基本功」也是这场 AI Talk 中李想反复提到的高频词汇。他认为「不可能不做前面的积累,直接吃到第 10 个包子」。他认为在内卷的环境下,更要重视基本功,否则创新会变成昙花一现。而人工智能,显然是当下李想和他的团队认可并正在大力投入的那个方向。极客一问你如何看待理想 All in AI?来源:极客公园