【长期主义】第354期智能说：理想汽车自动驾驶专家深度访谈

摘要：2025年8月8日，理想汽车自动驾驶高级算法专家詹锟、湛逸飞，接受媒体专访，围绕视觉语言行动VLA模型等核心技术，深入探讨理想在自动驾驶领域技术突破与未来规划。

2025年8月8日，理想汽车自动驾驶高级算法专家詹锟、湛逸飞，接受媒体专访，围绕视觉语言行动VLA模型等核心技术，深入探讨理想在自动驾驶领域技术突破与未来规划。

本期长期主义，选择詹锟、湛逸飞专访纪要，理想TOP2发布，六合商业研选精校，分享给大家，Enjoy！

正文：

全文10,699字

预计阅读21分钟

关于理想VLA新的39个QA

时间：2025年8月13日

字数：10,699

2025年8月8日，理想汽车自动驾驶高级算法专家詹锟、理想汽车自动驾驶高级算法专家湛逸飞，接受最新媒体采访的问答纪要。

Q1：我感觉理想自己判断出来强化学习用于自动驾驶非常重要，我感觉这个点对理想资源投入VLA非常有帮助，不知道你是否同意这个观点？

还有人认为李想在理想自动驾驶的作用，类似马斯克在特斯拉自动驾驶的作用，这点你是否同意？

湛逸飞：2025年我们加了很多推理卡，为了做强化，强化训练是推理与训练要轮流来，不再是单纯的训练过程，我们需要储备大量的推理卡。

第一个问题答案是肯定的，强化训练一定会在VLA里起到很重要的作用。

第二个问题也是肯定的，李想在自动驾驶发展上，提供了非常多支持。

Q2：EID界面长得像仿真视频，有可能吗？

湛逸飞：我们现在EID渲染，可能大家只能看到一些车辆模型，像车道线、红绿灯，这个渲染也是要消耗驾舱芯片算力，如果想在EID能看到像仿真的更加细的颗粒度，要用更大算力，本质是如果我们驾舱芯片算力足够，它是完全可以实现的。

Q3：当时VLM不用Diffusion生成轨迹，是什么原因？

现在VLA用Diffusion方式，是否参考特斯拉做法，还是理想独立想出这种方案？

詹锟：VLA当时我们设计的是双系统方案，2024年方案是VA，旁接一个并联的VLM，VLM这里不太能再接一个Diffusion，这两个完全冲突。

我们当时思想是慢系统是通过你的决策、逻辑引导你的Action模型去输出，形成这样的架构，VLM不可能再带一个单独的Action。

现在我们为什么加入这个设计，可以看到此前VA视觉-语言模型，是并联一个L语言/逻辑模块；当前VLA视觉-语言-动作模型，相当于把并联的L模块，整合到主链路中，VLA必须是串联的，这种串联设计，使得每一步计算都具备自主思考能力，思考深度由模型自行判断，类似现在大模型一样，存在思考thinking与非思考no thinking的过程。

有了这个以后，我们一定要有一个输出方法，以前端到端，因为算力问题、技术判断问题，当时没有做最早的Diffusion扩散模型，我们也看到机器人，机器人领域是最早开始大规模使用扩散模型来做行为轨迹的，最早叫Diffusion policy，是来自机器人的，包括我们后来看到谷歌机器人论文都是用Diffusion。

我们在这里做了大胆尝试，可以看到从2025年初开始，自动驾驶领域，包括我们自己论文也有很多做Diffusion的结果，指标是非常好的。

通过2024年底~2025年初这些预研，我们坚定Diffusion是完全可行，性价比很高的一个路线。

这也回应了之前马斯克说过，他们现在用了很多类似扩散模型的东西，现在回想起来确实是一样的，我们不是完全跟随马斯克思路，是我们自己探索了一些预研与深刻的研究，我们才选择这个方向。

Q4：目前直接输出油门、方向盘电信号的难点，主要在什么地方？

詹锟：这个我们实话实说，我觉得直接出油门与方向盘信号这个不一定是合适的，本质原因是任何一个自动驾驶信号适配不同车型，底盘、硬件、执行器都不一样，如果你让模型适配各个硬件环境，是完全冗余的设计，更合适的方式，还是输出精准轨迹，再让一个标准的模型适配不同底盘，我坚信这个路径是更好的。

Q5：我想问一下关于VLM这种以模仿学习作为主导，三点掉头这种方式是否不太可行，主要是我觉得VLM表现没有很好，这个是什么原因导致的？

詹锟：我们为什么VLA才给大家释放三点掉头？

我们没有释放三点掉头，不是没有做过。

本质原因是两个：

第一、Diffusion可以拟合任何多模态的轨迹，三点掉头直接放进去时，会发现模型自己能知道掉到一半不行，它还有个回折倒车的轨迹在往前走，它自己首先能理解一个多模态全场景的行为。

第二、什么时候启用三点掉头？

不能在直行等车排队，突然来个倒挡，这需要有一个很好的决策与思考，我们觉得只有这几个具备以后，释放给用户才是可行的，VLA我们才逐渐用这个方法。

Q6：VLA较VLM感知端的能力是否有进步？这个感知端主要是哪些场景比较会有瓶颈？

詹锟：这次VLA的V，是3D空间理解+全局语义；我们在上一代双系统时，给大家画的架构图很清楚，只有在VA端到端的模型里，是有3D空间的编码与理解，但是在VLM是个全局语义理解，相当于在这次架构中我们把V这部分同时加入3D与全局语义理解，进行整合，使现在我们综合理解上，既有空间，又有全局环境的感知，是架构的升级，才能实现对应的能力。

可以看到很多之前大模型，如果你问VLM，这个物体离我有多少米，是很难回答的，它只有一个2D输入，对3D空间感知是不足够的。

现在我们加了很多类似这样的数据后，我们专门的V部分的3D编码，具备这样的能力。

Q7：近期业内普遍存在一种观点，认为短期内VLA模型很难落地，主要提出三个难点，多模态对齐难、数据训练难、VLA模型部署在单个芯片上比较难。

想请教你如何看待这三个难点？

詹锟：VLA落地难，相对之前模型确实更难，并不代表它不能落地。

特别是随着现在新的芯片，包括SOC等支持FP8、FP4算力芯片的应用，VLA的部署没那么难，或者说有机会解决。

关于VLM/VLA的对齐问题，大家看到GPT-5发布，现在大模型能力已经非常强，达到专家级的智力。

对齐问题也在逐步解决，如果现在还说对齐难，这个话题显得有些初级，它不是不能对齐。

自动驾驶有自动驾驶的难度，特别是我们刚才提到3D空间理解，这可能是跟传统VLM模型不太一样的地方。

自动驾驶本质是空间物理行为，它对三维有更好的理解。

我们有很多方法，专门把3D的空间理解，放到我们VLA模型里来对齐，通过3D局部空间+2D全局理解的特点来实现对齐。

3D局部空间+2D全局理解，是我们VLA模型的一个特点，包括贾鹏也在GTC上详细讲了我们当时是怎么做的，这个是我们来解决的思路。

再者是单芯片部署问题，刚才详细提到我们做了大量工作。

2024年开始，我们实现双系统VLM在Orin上的部署，2.2B参数的模型，是业界首个，这背后是长期积累。

我们与英伟达进行深度交流，重新编写PTX的CUDA底层算子，开发自研引擎，仅依靠他们提供的TensorRT特定集是无法实现的，这些都是我们工程积累的成果。

现在业界有很多在宣传VLA，我相信他们同样会找到落地方法。

难是相对的，都是可以解决的。

Q8：以后VLA的模型规模、性能等都会提升，比如说你们现在是4B，以后有可能变成7B、8B、10B，比如到8B之后，又该怎么解决模型上车的问题？

目前芯片的推理帧率，对模型上车的影响到底有多大？

詹锟：大家可以看到一个规律，是大模型在2024年1年的发展中，在同等智力水平下，推理性能提升10倍，这是大模型的发展规律。

对应到端侧来说也是一样，甚至提升幅度更大。

端侧的优化，有非常多的细节可以做，特别是在垂直场景。

比如我们做自动驾驶，很多语言的理解可以做简化、做压缩。

刚才展示的较长过程，主要是为了演示，实际内部我们会压缩大量语言信息，再通过转译，呈现为人类可理解的内容，这些压缩技术，正是我们上车实现的细节洞察。

具体到这里还有一个，随着模型规模持续扩大，我们芯片能力也会同步提升。

2026年、2027年，芯片将形成自身算力Scaling Law，对应的模型效果会越来越好。

大家不要低估我们算法架构与训练架构的优化空间，即使模型参数量保持7B不变，我们仍能通过优化，让智力进一步提升。

具体说，通过更大模型、更优蒸馏、更好数据配比，实现模型智力持续增强。

Q9：今天不管是体验的巴士，还是看到的世界模型，感觉与Robotaxi L4级玩家的强化学习路线有相似之处，尤其巴士的表现很像Robotbus，前后台已很接近。

理想从L2~L4的渐进路线，与直接做L4的玩家，有什么区别？

詹锟：是问特斯拉与Waymo有什么区别，所有人都在观察这个问题，特斯拉拿出来的反击是它扩城速度非常快，现在奥斯汀已远超Waymo营运区域，马上加州也要超过Waymo营运区域。

对我们也是一样，我们从L2往L4走，一开始是全部场景都能让你用，你越用越好，逐渐达到Robotaxi无人化水平。

我之前也是做Robotaxi出身，我最早时候，是在一个区域内尝试过把这个算法做精，我只能在这个区域做。

我有很大算力、很高精度的传感器设备、先验地图，这样在扩城时会非常慢。

对车企这个不太现实，我们不是运营商，我们是希望服务更多客户，甚至是全球客户，我希望用户能在那里逐渐得到更好的驾驶体验与自动驾驶服务，这样的路径肯定是不一样的。

现在形态看上去逐渐趋同，这是现在L2水平逐渐在往更高级别做，看上去趋同，技术原理与技术本质不一样，包括我们这里区域仿真、全场景的无图，我们现在是VLA模型，包括上一代端到端，我们一个先验信息、先验地图都没有用，这是跟Robotaxi玩家有很大区别。

这是大家在赌自己技术预判与趋势，我们相信肯定是沿着这个路径，能服务更多人。

Q10：这个图跟带宽，是什么样的线性或者是非线性的换算？

比如说，你现在要跑一个4B的FP8，至少吃150GB左右带宽，如果降到FP4，大概吃到什么程度？

詹锟：带宽与精度是两个事情，我们在2024年做Orin上部署时，我们当时说我们用了int4量化，这个量化不是代表计算用int4，并不是，是在模型做内存带宽转移时，我们先把原来FP16的算子变成int4，然后通过一个你可以理解为矩阵压缩，压缩成一个低精度，再放进GPU里后，我们又把它用反序列化变成一个高精度数值，然后进行FP16计算，这个是一个精度的量化。

刚我们说的计算精度量化，比如FP4的计算，指的是我进来时，把这个算子是带着FP4做矩阵乘加，这个精度审的是你computer time，那个只审传输time，到这里我们用多少的量化另说，比如说我们量化可能还是用FP8，过来以后只是计算降了，并没有降传输，这个地方我们是组合使用，我们也是用的int4，不是所有。

这个地方类似DeepSeek一样，大家看到它们用FP8训练，不是每一层都敢用，这个是量化大家要做的事情，是你要精细调优每一层，你来看哪些能量化、哪些不能量化，哪些损失大、哪些损失小，我们要把损失小的，才能用更小精度来做量化，损失大的，我们不会动。

Q11：我们会有一个担心，可能算力一直不够用，或者像你刚说，可以用2年、3年，到时候带宽不一定。

詹锟：我们要在同等模型下，提升它的智力。

Q12：两个性能，你得取个公约数，最后发现单算算力还能用3年，两个都考虑，可能只能用1年、2年。

詹锟：我刚说的是一套模型、两种部署，比如SOC上部署是算力大、带宽小，双Orin是算力小、带宽大，在部署时，可以做不同量化权衡，它是一个模型，只是我最后推理时，做一次转化，不会增加额外成本，是一个部署方案，我们会做这样适配。

Q13：我们早上试驾时，体验一些基础智驾能力，比如靠边停车，这些现在应该已经准备就绪。2025年3月，GTC上展示的拍照等功能，你觉得大概发布节奏是怎样？

詹锟：拍照这个受某些事件影响不太能放，这个能力是可以具备的，不太能全量推，还在商量中，根据国家法规在一起迭代。

Q14：我们现在完全离车的功能是召唤？

詹锟：召唤这个有很多限制，这个要等正式发布才能看到，国家对召唤有很严格限制。

这次给大家体验是，能力上我们还有很多可以释放，我们要跟着法规一起来迭代、一起来研究，我们才敢释放，还是要遵从国家的法规。

Q15：它的法规，到底是看到我们能力会往前推，还是它是比较独立的意见？

詹锟：我觉得这可能是综合的，一个是能力去推动法规一起，一个我们要参与标准制定，理想汽车是一起跟政府合作来做这些事，我们是相互推动的一个事情，首先能力不达到，政府不会放，能力达到，怎么跟政府沟通，政府肯定有他的关注点与顾虑。

Q16：你怎么消除他的疑虑？他的顾虑，是所有头部车企整体水平，还是别的？

湛逸飞：这是很综合的问题，比如安全问题、就业问题，很多问题，我们可能不太能代表政府怎么想。

我们能做的，是我们在这一天到来之前，尽可能提升自己能力，这一天到来以后，我们可以尽快释放。

詹锟：我们是把能力先储备好。

Q17：高速上，我感觉，比如说有很多场景，可能在决策时比较犹豫，这是上一代模型的问题，这代有没有大幅度提升？第一是有没有提升？第二是如果有提升，是靠什么做到的？靠强化学习、还是靠对齐？

詹锟：我觉得你问的这个问题，是他们的评测，我们仔细分析了，我们内部也在思考这个问题，也看到很多这样数据，是思考这些问题为什么会出现有些摇摆，要避让它，是横向绕行，还是减速，会出现一些反复，导致要么没刹的特别准，要么距离拉的不够开，上一代软件是有这样问题。

这次我们对这类场景做了专门优化，至少我们把它加到世界模型仿真平台里去看它。

首先，我们在内部来看，相比上一代版本，有一些很好的结果，一个是我们这次主要还是通过Language思考，希望它的决策更稳健、更一致，不是像VA模型一样，我看到一个东西，下意识做出一个反应，它有可能会出现摇摆、抖动，还是跟它的数据配比特别相关，如果有Language的决策以后，它会好一些，可以知道我之前做了这个决策，我下次要一直做这个决策，或者这个场景，我们做一个稳定的判断。

Q18：我能不能理解为靠强化学习提升？

詹锟：强化学习是一方面，强化学习是我们训练步骤的一部分，更重要的，是训练完以后，会在世界模型里做验证、迭代，主要还是这类问题之前没有特别关注，确实测得很切中要害，非常极端，特别难，不让你避，速度不是很一致，它会让你的模型有些疑惑的情况。

湛逸飞：你观察的是很仔细，是它的右后侧有一辆车，那个速度控的一直让我们在变道跟不变道之间。

Q19：我看完之后，第一个感受是城区与高速不是一张网，包括绝大多数车企可能都不是一张网，可能大家这几年很卷，城区驾驶场景更复杂，把更多精力放在城区，高速还是以目标检测等基础能力为主，这个是我最大感受。

不过这个可能不需要前提，比如至少得是VLA或端到端模型才能做到。

早上试驾时，跟产品老师聊过，我相信我们现在是一张网，会针对高速场景做很多优化。

具体是在哪些点？高速更规则一点，无非是有一些小问题，现在这些小问题会很占用我们的精力吗？

詹锟：高速与城区是一张网，可能只是任务的输出表现不同，绝大部分模型是统一的。

驾驶策略细节与功能性设计会有差异，到现在VLA也是完全的一张网。

不过我们会通过不同prompt引导模型产生不同驾驶倾向，特别是当高速、城市场景的数据配比不同时，模型在高速与城区表现会有区别，这也是VLA特性之一。

你说会不会投入很多研发精力，答案是肯定的。

高速场景非常重要，Waymo这么多Robotaxi，高速功能还未完全释放，高速事故概率低，后果往往很严重。

我们在这方面投入一直很多，特别是高速的安全问题，比如超远距离兜底能力，需要做深、做透，追求极致提升。

城区更强调灵活性，对事故严重性与超视距准确性的要求没那么高。

我们有不同研发分工，部分同学会专注持续精进高速场景的能力。

Q20：我能不能这样理解，我们高速做了很多年，做到现在为止，我们仍然面临相对比较棘手的问题，是超视距的问题，其他基本没太大问题?

詹锟：对，施工突然改道的情况，我们能不能比别的公司做得更好。

Q21：关于仿真的问题，我刚才看到我们数据，到2025年基本都是仿真，仿真可能存在过拟合风险，比如测的4,000多万公里数据里，可能有部分是过拟合数据，不如真实数据好用。考虑到这点，现在仿真数据真实性，大概能有多少比例，贴近真实数据？

湛逸飞：首先仿真数据只是用来评测，你刚才讲的，我们叫合成数据，不是所有都用合成数据，只占10%，主要应用于一些我们难以收集的，比如雪天、事故车这种相对特殊场景，我们才用，90%多还是正常数据。

4,000多公里会不会过拟合，这4,000多公里，不是说我们就这么一批场景一直跑，我们库里有几十万clips的仿真场景，不停在换。

Q22：随机换？

湛逸飞：不是随机换，如果我们哪天发现有一个场景很有价值，我们会找一批跟它很像的加进去，能看它的能力。

Q23：早上试驾时发现，我问理想同学前面是什么车，希望得到卡车或奔驰这样回答，目前这个功能好像没释放出来？

詹锟：这个功能，目前我们不在AD域里来做，我们会放在理想同学里来做，这个能力是具备的。

包括你试试超过前面卡车，它会精准告诉你，前面有辆卡车，在不在我这个道上，我是变道加速，还是直接加速，都会有这个能力。

你问这是什么车，我们认为它不是智驾任务，这个完全是产品导向，我们可以后续需要把它更综合的问答都放进来，我们也会再做。

包括李想在发布会也说了我们会有小理师傅，理想同学与小理师傅会有些特定区分，它主要本质是小理师傅希望是控车，理想同学更多是综合问答。

这是一个产品导向的事，不是什么特别技术导向的事。

很早这个功能，很多车企都有，一问没人用，这个功能有什么用，这个事情是个伪需求，纯炫技，我们没有在这上面做特别多东西，我们希望能把用户真正想用的功能做好。

Q24：我们看到这次释放很多有用户强感知的一些功能，比如像是语音控车、内部道路漫游这种功能，我想问的是，如果它不采用VLA架构，有没有一些笨办法，可以达到类似体验，比如说你们可以做到95分，它可能做到80分，它也能上去，我们看到过去在国内这些驾驶中，是比较容易出现用笨办法来实现一个类似功能的情况？

詹锟：如果没升级技术栈，可能在部分场景下，比如做个demo，它可能可以，你上它推全量，比如我们地库漫游、园区漫游，你真的不去理解标识牌，它可能要不在建一个图的地方给你秀一下，要么是我提前给你准备好的路线上试一试，推广到全部用户身上，是很难实现的，至少在技术上我觉得不太可行。

只有升级架构，才真正能普及更多用户，以前如果用高精地图方式给大家推送城市，它肯定是有限的，不是说城市做不好，甚至有可能比无图肯定要好，一个是比如地图变了以后，体验瞬间降低，有很多安全问题、事故问题。

一个是你没法普及更多的人，这肯定不是我们想看到的，我们用户这么广泛，100多万辆的车，希望给大家都带来一致好的体验，我们只能升级技术。

Q25：现在语音控车，会有一些笨办法可以体验到，语音控车，我感觉是用户很强感的事情。

詹锟：如果语音控车只是简单几个指令，比如说左变道、右变道，这种用一个基本的ASR语音识别，它可以转成普通信号。

如果我们想做更复杂的，比如连续指令任务，左转、再变道，后面变道后直行，这种不好做，非常难，组合式的任务，对规则来说是非常复杂的，它是指数级的复杂度，它的扩展性也会降低。

还是这句话，如果秀两个demo，笨办法是可行的，长远看，这不是长久之计。

湛逸飞：这个你可以用很多方法检查，是同一个指令换不同说法，如果它不认识，就说明它是规则，同一个指令有很多种说法说，它都能理解，可能是有语言模型。

Q26：我们看到特斯拉FSD V13，是展现出来一定漫游能力，我们能这样下一个判断说FSD V13可能大概率是类似VLA的架构，可能特斯拉从来没有官方说过这件事，从它展现出来的能力，可以做这样的合理倒推？

詹锟：我觉得是个好问题，我感觉他没有用Language应该是真的，它已经上车的这些，还是偏语音交互，它还是一个主VA的模型。

Q27： FSD V13若未用Language模型，如何解释脱困能力与陌生道路漫游？

湛逸飞：漫游端到端就能做，寻路是需要VLA，我们刚展现的是它能找出口，特斯拉如果只是纯漫游，它就在地库一直转，出不去。

Q28：也看到一些他们在FSD V13的视频，它找出口偶尔能做到。

湛逸飞：那是运气，比如正好在这个路口左拐它出去了，我们找出口的过程，是在EID上能看见的。

詹锟：这可能是技术路线的选择，我不好说它下一代V14是不是会加入类似Language的能力，不好说，有没有可能是过往类似的方向去做，比如它的Optimus同一套技术栈，这是很有可能的。

Q29：VLA的迭代范式，是跟之前VA有比较大区别，我理解现在我们这个范式非常靠近大模型的范式，我知道我们应该还有一个在自动驾驶外的基模团队，我们跟这个基模团队是怎么样配合方式？

詹锟：刚你看到湛逸飞说的5个训练方式，第一个阶段是理想汽车基座模型负责人陈伟基座团队来做的，我们这个基座团队主要是解决两类大问题，第一类问题是我们怎么在校园学习基本知识，我们怎么把更好的通识能力，有一些交规知识、驾驶的基本知识教给它，这是我们基座团队在做的事情。

同时会有不同大小的模型，有的供云端，有的供车端，它会进行蒸馏。

第二个很重要的是它这个模型，一定是特殊架构适配我们硬件，从李想AI Talk里能看到，我们这个车上面是一个特殊的MoE模型，叫8×0.4，这是任何开源模型都没有的，只有我们有，这样特殊的结构，非常有利于芯片部署，任何直接用开源的模型，比如拿千问模型，都是更不好部署的，要不是容量比较低，要不是部署效率比较低。

基座模型跟我们有这样一个好的合作，它会在基座模型的选型设计上也符合我们需求，我们是一个紧密配合的组织。

Q30：为什么我们要自己做基模？我记得技术大会上当时有一页PPT，在我们之前双系统时，VLM是二维场景的理解能力，我理解可能是千问本身不具备三维场景的理解能力，现在基模团队会在第一个预训练过程中解决这个问题？

詹锟：会的，我们在第一阶段加了3D信息，我们是紧密合作，我们数据相关的共享与技术栈共享，是非常紧密的。

Q31：刚才你提到3D空间+2D全局理解，为什么不是3D全局理解？

詹锟：这是跟目前的技术栈相关，3D空间，我们需要把一个七路摄像头转换成3D空间的一个编码，这个3D空间编码一定带有空间深度信息，它缺少的是一个完整的，我们叫视锥视图Perspective View。

很多的算法，如果只带有3D空间理解，就缺少全局语义，有些视角，你要从不同角度去看它，它才能有更多信息提取。

我们这个设计，是一张图同时进行3D编码与2D编码，我们组合在一起，形成特殊的视觉token，我们专门设计了这样不同的关注项，同时提升它的全局与3D理解，这也是现在机器人有些公司也有往类似的方向做。

Q32：无论是刚才讲到DeepSeek、还是千问，现有一些开源模型本身不具备三维场景的理解能力，我理解一种可能原因，是它们本身互联网公司不具备三维数据资产，比如说他们有可能通过仿真做合成数据，或者说可能有一天专门做大模型的公司，他们基座模型本身具备三维场景的能力，这个从技术上是可行、或者说是可能的吗？

湛逸飞：做机器人的，肯定是要做的。

詹锟：现在大模型是叫虚拟世界的AI，是Agent，computer use都是虚拟世界的，它这里都是2D的，除了一些游戏可能有点3D空间。

当你进入到物理AI时，你发现全都是3D的，如果这个公司不做这个业务，它不了解这个业务，别说仿真，它可能都不了解哪些是它关键3D信息，包括他启动3D空间物理世界模型的这个能力可能都不具备。

如果他们想要做，一定是有相关业务合作，我们是跟基座模型非常紧密合作，我们会把很多3D数据，端到端积累与早期积累的数据，都会进行融合，包括合成数据里有很多3D空间的东西，都会给到基座团队，这样它才有可能具备3D空间能力。

作为纯的虚拟视觉大模型公司，可能这个能力比较欠缺，或者说他现在重心不在这里。

Q33：我理解可能这不是技术上的难点，更多是业务需求，可以这样理解？

詹锟：是，技术上也会很难，3D空间的数据，比2D难很多。

Q34：从之前端到端积累下来，高质量带有标注的数据，到了VLA之后，在数据闭环的处理过程中，比如说拿标注这个环节讲，是有多少需要重刷、重标的，或者说这个过程是一个需要多长时间的事情？

湛逸飞：可以说是都重刷，你的标注内容，是发生了一些变化，可能同样一条数据，你在做端到端时标注方式，跟做VLA完全不一样，我们需要重刷，这个重刷速度，取决于你有多少推理卡。

请务必阅读免责声明与风险提示