摘要:2025年5月7日晚8点,理想汽车通过线上直播平台推出“理想AI Talk第二季”,董事长兼CEO李想首次向公众揭秘了公司自主研发的VLA(Vision-Language-Action)司机大模型技术体系。这场以“从动物进化到人类”为主题的发布会,不仅展示了中
2025年5月7日晚8点,理想汽车通过线上直播平台推出“理想AI Talk第二季”,董事长兼CEO李想首次向公众揭秘了公司自主研发的VLA(Vision-Language-Action)司机大模型技术体系。这场以“从动物进化到人类”为主题的发布会,不仅展示了中国智能驾驶领域的最新技术突破,更揭示了人工智能从实验室走向产业化的关键路径。据李想介绍,这项历时三年研发、耗资数十亿的VLA技术,将推动辅助驾驶系统从“哺乳动物智能”迈向“人类智能”阶段,预计在今年7月随新款车型i8正式落地商用。
在长达两小时的深度分享中,李想首次系统阐释了人工智能工具的三层分级理论:"当前绝大多数AI应用仍停留在信息工具层级,就像只会复述交通规则的学童;我们的端到端+VLM辅助驾驶已具备哺乳动物般的条件反射;而VLA司机大模型真正实现了人类级别的观察、思考和决策能力。"他特别强调,只有当AI能独立完成专业任务时,才称得上真正的生产工具。
这项技术突破的背后,是理想汽车对智能驾驶发展规律的深刻洞察。工程师团队将VLA的进化划分为三个阶段:2021年基于规则算法的初代系统如同具备基础本能的"昆虫动物";2024年推送的端到端+VLM系统展现出"哺乳动物"的环境适应能力;而今的VLA系统通过融合3D视觉解析、思维链推理和自然语言交互,终于达到"人类司机"的认知水平。现场播放的实测视频显示,搭载VLA的测试车在晚高峰的北京东三环主路,用时37分钟完成全程自动驾驶,期间处理了12次加塞、3次紧急避让和1次道路施工改道。
"这不是科幻电影的突然降临,而是持续进化的必然结果。"研发团队在2024年就意识到端到端模型的局限性——开源视觉语言模型难以精准理解交通场景,就像给司机配了本错误百出的导航手册。为此,他们构建了覆盖2D/3D视觉、物理规律和交通常识的专属数据库,其数据量相当于200万小时的真实驾驶录像。
在技术讲解环节,李想用"驾校三阶段"类比VLA的训练过程:预训练阶段如同交规理论学习,系统"啃"下数百万GB的视觉-语言联合数据;后训练阶段加入实际驾驶动作编码,相当于科目二、三的场地实操;强化训练则通过人类反馈和世界模型仿真,培养出超越普通司机的应变能力。特别值得注意的是,研发团队为此组建了超过100人的"超级对齐"团队,专门负责剔除系统可能学习的危险驾驶行为。
面对业界关注的"AI黑盒"难题,理想汽车创新性地构建了交通世界模型。这个数字孪生系统能模拟98.7%的常见路况,使得每次系统升级都需在虚拟环境中完成300万公里的安全测试。李想现场展示了世界模型的实时渲染画面:暴雨中的高速公路上,系统在0.3秒内预判出前方连环追尾风险,提前800米开始减速。"这相当于给AI司机配了个全天候驾校教练。"
技术创新背后是扎实的基本功积累。记者了解到,理想汽车自研的底层推理引擎成功突破芯片限制,让双Orin-X芯片运行起同等规模的大模型。李想透露,借助DeepSeek的开源支持,研发周期缩短了9个月,节省成本超3亿元,但公司仍追加投入3倍训练卡资源。"就像盖大楼,地基打得深,楼层才能起得高。"他特别提到,即将开源的"理想星环OS"汽车操作系统,正是这种技术自信的体现。
在发布会尾声,这位即将迎来创业十年的CEO分享了独特的心得:"AI越是强大,越需要保留完整的人性特质。"他坦言创业路上"苦多于甜",但正是直面电池成本、充电效率等行业难题的过程,锻造出理想汽车的创新基因。当被问及如何保持正能量时,李想笑称需要"选择性记忆"——记住那些用户满意的笑容、技术突破的瞬间,就像自动驾驶系统过滤无效信息般专注有价值的部分。
行业观察人士指出,VLA的商用化将重塑整个智能驾驶产业格局,该系统首次实现了自然语言人机交互,用户可以用"开稳些""找充电站"等日常指令与车辆沟通,这比传统按键操作效率提升60%以上。更值得关注的是,世界模型与超级对齐技术的结合,为AI安全治理提供了可复制的范例。
随着首批搭载VLA系统的L系列车型将于三季度交付,智能驾驶正从"人机共驾"迈向"AI代驾"的新纪元。在发布会现场,李想向所有从业者发出倡议:在追求技术突破的同时,更要守护人性特质,因为"那些不完美的部分,恰恰是创造力的源泉"。这句充满哲学意味的结语,为这场硬核技术发布会增添了温暖的人文注脚。
来源:大河汽车一点号