摘要:·强化学习+世界模型,绝影构建VLAR技术架构,突破端到端瓶颈·R-UniAD创新链路:挖掘复杂场景、4D仿真复现、强化学习、泛化验证·近实时在线交互的4D世界模型“绝影开悟2.0”,生成式智驾R-UniAD的核心基石·绝影辅助驾驶目前已合作4家车企,上车7款
·强化学习+世界模型,绝影构建VLAR技术架构,突破端到端瓶颈
·R-UniAD创新链路:挖掘复杂场景、4D仿真复现、强化学习、泛化验证
·近实时在线交互的4D世界模型“绝影开悟2.0”,生成式智驾R-UniAD的核心基石
·绝影辅助驾驶目前已合作4家车企,上车7款车型,基于地平线征程®6、英伟达DIRVE AGX Thor平台打造的方案将在今年上车东风、奇瑞等车企伙伴
随着辅助驾驶普及的不断深入,公众越来越关注驾驶系统的安全性,期待辅助驾驶带来更安全也更流畅的智慧出行体验。只是许多辅助驾驶方案在遇到新场景时难以妥善处理,事故时有发生,暴露出当前技术方案的诸多瓶颈。
想要提高安全性,端到端模型需要海量高质量数据训练,然而,即使是百万量产车回流的数据量,极端场景有效信息提取率不足1%。
不仅如此,因为端到端的范式是模仿学习,遇到没有见过的新场景,它的驾驶决策存在很大的不确定性,安全边界模糊,给驾驶安全带来风险,更难以超越人类的驾驶能力。
因此,商汤绝影发布了生成式智驾R-UniAD技术方案,将强化学习引入到智能驾驶,让端到端智驾与世界交互的不断深入,通过生成的方式真实还原并深度理解驾驶环境,从而主动预测并处理复杂状况,验证辅助驾驶的安全边界,让驾驶安全更有确定性、更加值得信赖,并且超越人类的驾驶极限,为智能驾驶行业树立了新路标。
商汤绝影构建VLAR架构,突破端到端数据、安全、性能三大瓶颈
人工智能技术的发展和进步推动着智能驾驶的演进。一开始的智驾都是规则式的,主要通过物理模型和逻辑预定义等方式来实现辅助驾驶的基础功能执行,但面对复杂场景略显乏力。随着神经网络的引入和AI大模型的出现,商汤绝影2022年发布了行业首个感知决策一体化的智驾通用模型UniAD,并荣获CVPR 2023最佳论文,引领了智能驾驶行业的创新潮流,智驾进入到端到端时代,模型学会类人交互,性能表现大幅提升。
随着端到端路线探索和实践的持续深入,它开始触及瓶颈。首先,端到端是通过海量的高质量人类驾驶数据学习和训练,比如特斯拉就以超700万辆量产车形成的数据回流来训练端到端模型,但人类的日常驾驶中,极难遇到像车祸等极端场景,这导致了仅有不超过1%的数据可用于最终训练,高价值数据的稀缺性成为制约端到端训练的一大瓶颈。
另一方面,由于端到端的本质是对人类驾驶行为的最佳模仿,遇到没有见过的新场景,端到端方案的驾驶决策存在很大的不确定性,为驾驶安全带来风险,同时,基于模仿学习的技术范式可以做到接近人类但难以突破人类能力上限。因此,性能和安全性也成为了端到端发展的两大瓶颈。
今年年初,DeepSeek-R1基于纯强化学习的关键创新引发了广泛的关注,基于强化学习的大模型技术路线可以迁移到端到端辅助驾驶算法的训练与研发之中。2025年2月,商汤绝影发布了行业首个与世界模型协同交互的端到端技术方案R-UniAD,通过世界模型生成在线交互的仿真环境,以此进行端到端模型的强化学习训练,行业开始迈向生成式智驾。
本届上海车展上,商汤绝影全面展示了R-UniAD技术方案,基于世界模型和强化学习两大核心技术,构建集“视觉-语言-行动-强化学习”于一体的VLAR技术架构,实现生成式智驾的核心突破。
基于世界模型和强化学习,绝影构建集“视觉-语言-行动-强化学习”于一体的VLAR技术架构
商汤绝影的R-UniAD是「多阶段强化学习」端到端技术方案,具体分为三个阶段,首先是依靠冷启动数据通过模仿学习进行云端的端到端辅助驾驶大模型训练;然后基于强化学习,让云端的端到端大模型与世界模型协同交互,持续提升端到端模型的性能;最后云端大模型通过高效蒸馏的方式,实现高性能端到端辅助驾驶小模型的车端部署。
这三个阶段的核心在于第二阶段的“强化学习与世界模型”,也就是VLAR技术架构。在VLAR技术架构的支持下,R-UniAD能够重构万千世界,让实采Corner Case数据需求降低2个量级;同时依托云端超100万案例和1024场景类型,构建更加精确、全面的虚拟测试场景,充分探索安全边界,赋予了辅助驾驶有确定性的安全感,最终通过不断地强化学习训练出来的模型,相较于人类驾驶员的碰撞率降低1个量级,实现远超人类的驾驶能力。
R-UniAD如何让安全更有确定性:挖掘复杂场景、4D仿真复现、强化学习、泛化验证
因为各类施工防护设施搭配不同的空间布局,组合繁杂多变,所以施工占道场景是辅助驾驶领域的棘手难题,也是交通事故频发的重要场景。上海车展发布会上,商汤绝影现场演示了针对“施工占道刹停”场景,R-UniAD如何依托“VLAR”增强模型能力。
首先,以“施工占道刹停”路测视频作为输入,即自车因为没有识别锥桶封路,在施工区域进行急刹。
接下来是R-UniAD对这个场景基于“绝影开悟”世界模型进行4D仿真复现。第一步是把案例视频进行解耦,分为3D的动态前景与静态背景;第二步,使用物理引擎、3DGS等重建和渲染技术对场景进行复现;第三步,用“绝影开悟”世界模型对场景细节进行修复,让场景变得更加逼真。
完成这三步的流程,传统方案需要数天时间,R-UniAD仅需几个小时就能完成,而且场景更为精细可控,一致性达到了95%,相比单一的3DGS技术提高了1.5倍。
然后就是进行针对性强化学习的训练。在闭环仿真工具链中设置对“施工占道刹停”案例自车轨迹的Reward计算维度和分值,包括最大最小加速度、是否到达终点、是否违反交通规则、是否碰撞等维度,并根据规则进行组合计算。端到端模型就在仿真环境中自行驾驶,系统根据自车轨迹给予相应Reward分值反馈。
在初期训练中,自车因为冲入对向车道或者同向车道被扣分,如果能够及时刹停变道,就会得到高分。端到端模型不断生成该场景下各种可能驾驶策略,并与世界模型生成的环境交互,通过数千次强化学习训练,经过不断评分反馈,端到端模型会找到最优路径,能预判施工占道,丝滑变道绕行。
最后,经过泛化训练后,再遇到类似前方障碍物场景,端到端模型也能及时变道,并显著提升对此类施工场景的泛化交互能力。
生成式智驾R-UniAD让安全更有确定性
强化“施工占道场景”的应对能力只是生成式智驾R-UniAD能力显化的冰山一角。在VLAR技术架构的助力下,商汤绝影能够针对更多复杂长尾场景、极端工况,进行4D仿真复现、强化学习、泛化验证,让端到端模型比人类“看更多”、“学更快”、“开更好”,让辅助驾驶的安全更有确定性,超越人类驾驶极限。
“绝影开悟”世界模型2.0,生成式智驾R-UniAD的核心基石
世界模型是生成式智驾的基石所在。2024年,在2024年11月“绝影实力AI DAY”上,商汤绝影发布了行业标杆级别的“绝影开悟”世界模型,并已经应用于真值数据的生产。
去年“绝影开悟”世界模型主要聚焦2D视频生成技术的打磨,今年上海车展,“绝影开悟”升级为2.0版本,进化为近实时在线交互的4D世界模型,能够实现“4D空间自由交互”,推动智能体迈向通用空间智能,成为商汤绝影决胜智驾战场的重磅武器。
绝影开悟世界模2.0
“绝影开悟2.0”具备三大能力,首先是“面向量产的数据生成”,它具有多样性场景的可控生成的能力,为模型训练提供了海量且丰富的训练数据。而且,它还能一键生成极端高风险场景。
例如,Cut-in 场景是行车时极为常见但非常重要的场景,“绝影开悟2.0”能够从100多个维度组合生成万千Cut-in场景,包括白天、黄昏、凌晨、夜晚等不同光照类型;晴天、阴天、雨天等不同天气;从高速到城市道路等不同道路等级;不同的车型,不同的Cut-in距离和车辆速度等等。
此外,极端风险场景(如车祸、道路塌陷等)难以采集,成本也非常高昂。“绝影开悟2.0”只需输入一段提示词,就可以生成极端风险场景,让端到端模型可以在安全的虚拟环境中,让系统反复学习和应对这些危险场景,从而在实际驾驶中更好地预判和规避风险。
细致的分类,可控的生成,有助于模型更好应对特定场景,对提升辅助驾驶的安全性和可靠性有着重要意义。
其次,“绝影开悟2.0”能够实现“复杂场景自由复现”,根据不同需求,任意修改和调整场景中的各种要素,既可以替换特定车辆、插入新的车辆,或者删除不需要的车辆,也能改变道路的布局、车辆的速度,创造稀缺复杂场景,从而丰富训练场景的多样性。
最后,“绝影开悟2.0”具备近实时交互能力,比行业 SOTA 提升 5 倍之多,让仿真训练过程更加高效和逼真,车辆的决策和反馈能够几乎在瞬间得到响应;同时感知结果接近真实精标数据98%,能避免因数据风格差异带来的 Sim-to-Real 迁移时能力退化问题,为端到端模型打造了“云端虚拟训练场”。
厚积薄发,商汤绝影全力推进辅助驾驶量产交付
商汤绝影的生成式AI技术和产品持续创新,商业化落地也全面开花,量产交付正在加速推进。
在“绝影2025上海车展发布会”上,东风汽车集团研发总院智能化技术首席总工程师张振林透露,他们和绝影团队正在携手推动UniAD一段式端到端方案的量产落地,“除了端到端的合作,未来东风汽车也将持续加大在智能化领域的研发投入,与绝影在开悟世界模型、DriveAGI等方面展开深度合作。”
在辅助驾驶领域,商汤绝影的量产方案目前已合作4家车企,上车7款车型,2025年更将厚积薄发,全力推进辅助驾驶方案的量产交付。今年3月底,绝影和广汽联合打造的行业首批基于地平线征程®6M的辅助驾驶方案正式量产上市。2025年,绝影还有更多基于地平线征程®6打造的辅助驾驶方案量产落地奇瑞等众多车企伙伴,在英伟达DIRVE AGX Thor平台部署的绝影UniAD一段式端到端量产方案也将于2025年第四季度量产交付东风汽车。
商汤绝影辅助驾驶的量产成果,并将于2025年全力推进辅助驾驶方案的量产交付
不止如此,绝影基于地平线征程®6打造的量产方案得到中汽研的认证,是首个获得中汽研《CATARC 标志认证实施规则–“征程之星”领航辅助驾驶认证》的辅助驾驶产品。
此外,本次上海车展期间,无论是基于地平线征程®6打造的高速辅助驾驶、城区辅助驾驶,还是一段式端到端量产方案的城区泛化,商汤绝影都在展馆外开放了实车体验。
生成式智驾R-UniAD让商汤绝影的辅助驾驶模型通过与世界模型生成的无限场景进行不断地强化学习与交互,在每一次的行驶中成长、进步。丰富的量产经验,让绝影具备强大的工程化能力。两者相互融合,助力绝影打造真正安全、可靠的辅助驾驶方案,和车企伙伴一起,为用户创造更加安全可信赖的出行体验。
注:本文所提及的“智驾”、“智能驾驶”等,指L2级辅助驾驶。
关于商汤绝影——激发AGI创造力,让智能汽车向超级智能体进化
商汤绝影是加速智能汽车驶入AGI时代的战略合作伙伴。
依托商汤大装置深厚的算力储备、原生的汽车垂类大模型、领先的软硬件架构和全栈数据生产管线四大技术基座,商汤绝影将最前沿的人工智能技术与汽车产业深度融合,构建了驾-舱-云三位一体的通用人工智能(AGI) 技术架构,打造了智能驾驶、智能座舱和 AI 云的多元产品体系,致力于为每一个人提供灵活自适应、深度个性化、安全可信赖、有人文关怀的未来出行方式。
商汤绝影的业务以中国为起点,布局全球,已在中国(上海、北京、深圳、广州)、德国、日本等地设立研发中心。
截至2024年12月,商汤绝影已与本田、比亚迪、长城、广汽、红旗、极氪、奇瑞、蔚来等超过30家国内外车企携手合作,覆盖超130款车型,累计交付总量超360万辆。
来源:观察者网视频