摘要:2025年8月8日,理想汽车自动驾驶高级算法专家詹锟、湛逸飞,接受媒体专访,围绕视觉语言行动VLA模型等核心技术,深入探讨理想在自动驾驶领域技术突破与未来规划。
2025年8月8日,理想汽车自动驾驶高级算法专家詹锟、湛逸飞,接受媒体专访,围绕视觉语言行动VLA模型等核心技术,深入探讨理想在自动驾驶领域技术突破与未来规划。
本期长期主义,选择詹锟、湛逸飞专访纪要,理想TOP2发布,六合商业研选精校,分享给大家,Enjoy!
正文:
全文10,699字
预计阅读21分钟
关于理想VLA新的39个QA
时间:2025年8月13日
字数:10,699
2025年8月8日,理想汽车自动驾驶高级算法专家詹锟、理想汽车自动驾驶高级算法专家湛逸飞,接受最新媒体采访的问答纪要。
Q1:我感觉理想自己判断出来强化学习用于自动驾驶非常重要,我感觉这个点对理想资源投入VLA非常有帮助,不知道你是否同意这个观点?
还有人认为李想在理想自动驾驶的作用,类似马斯克在特斯拉自动驾驶的作用,这点你是否同意?
湛逸飞:2025年我们加了很多推理卡,为了做强化,强化训练是推理与训练要轮流来,不再是单纯的训练过程,我们需要储备大量的推理卡。
第一个问题答案是肯定的,强化训练一定会在VLA里起到很重要的作用。
第二个问题也是肯定的,李想在自动驾驶发展上,提供了非常多支持。
Q2:EID界面长得像仿真视频,有可能吗?
湛逸飞:我们现在EID渲染,可能大家只能看到一些车辆模型,像车道线、红绿灯,这个渲染也是要消耗驾舱芯片算力,如果想在EID能看到像仿真的更加细的颗粒度,要用更大算力,本质是如果我们驾舱芯片算力足够,它是完全可以实现的。
Q3:当时VLM不用Diffusion生成轨迹,是什么原因?
现在VLA用Diffusion方式,是否参考特斯拉做法,还是理想独立想出这种方案?
詹锟:VLA当时我们设计的是双系统方案,2024年方案是VA,旁接一个并联的VLM,VLM这里不太能再接一个Diffusion,这两个完全冲突。
我们当时思想是慢系统是通过你的决策、逻辑引导你的Action模型去输出,形成这样的架构,VLM不可能再带一个单独的Action。
现在我们为什么加入这个设计,可以看到此前VA视觉-语言模型,是并联一个L语言/逻辑模块;当前VLA视觉-语言-动作模型,相当于把并联的L模块,整合到主链路中,VLA必须是串联的,这种串联设计,使得每一步计算都具备自主思考能力,思考深度由模型自行判断,类似现在大模型一样,存在思考thinking与非思考no thinking的过程。
有了这个以后,我们一定要有一个输出方法,以前端到端,因为算力问题、技术判断问题,当时没有做最早的Diffusion扩散模型,我们也看到机器人,机器人领域是最早开始大规模使用扩散模型来做行为轨迹的,最早叫Diffusion policy,是来自机器人的,包括我们后来看到谷歌机器人论文都是用Diffusion。
我们在这里做了大胆尝试,可以看到从2025年初开始,自动驾驶领域,包括我们自己论文也有很多做Diffusion的结果,指标是非常好的。
通过2024年底~2025年初这些预研,我们坚定Diffusion是完全可行,性价比很高的一个路线。
这也回应了之前马斯克说过,他们现在用了很多类似扩散模型的东西,现在回想起来确实是一样的,我们不是完全跟随马斯克思路,是我们自己探索了一些预研与深刻的研究,我们才选择这个方向。
Q4:目前直接输出油门、方向盘电信号的难点,主要在什么地方?
詹锟:这个我们实话实说,我觉得直接出油门与方向盘信号这个不一定是合适的,本质原因是任何一个自动驾驶信号适配不同车型,底盘、硬件、执行器都不一样,如果你让模型适配各个硬件环境,是完全冗余的设计,更合适的方式,还是输出精准轨迹,再让一个标准的模型适配不同底盘,我坚信这个路径是更好的。
Q5:我想问一下关于VLM这种以模仿学习作为主导,三点掉头这种方式是否不太可行,主要是我觉得VLM表现没有很好,这个是什么原因导致的?
詹锟:我们为什么VLA才给大家释放三点掉头?
我们没有释放三点掉头,不是没有做过。
本质原因是两个:
第一、Diffusion可以拟合任何多模态的轨迹,三点掉头直接放进去时,会发现模型自己能知道掉到一半不行,它还有个回折倒车的轨迹在往前走,它自己首先能理解一个多模态全场景的行为。
第二、什么时候启用三点掉头?
不能在直行等车排队,突然来个倒挡,这需要有一个很好的决策与思考,我们觉得只有这几个具备以后,释放给用户才是可行的,VLA我们才逐渐用这个方法。
Q6:VLA较VLM感知端的能力是否有进步?这个感知端主要是哪些场景比较会有瓶颈?
詹锟:这次VLA的V,是3D空间理解+全局语义;我们在上一代双系统时,给大家画的架构图很清楚,只有在VA端到端的模型里,是有3D空间的编码与理解,但是在VLM是个全局语义理解,相当于在这次架构中我们把V这部分同时加入3D与全局语义理解,进行整合,使现在我们综合理解上,既有空间,又有全局环境的感知,是架构的升级,才能实现对应的能力。
可以看到很多之前大模型,如果你问VLM,这个物体离我有多少米,是很难回答的,它只有一个2D输入,对3D空间感知是不足够的。
现在我们加了很多类似这样的数据后,我们专门的V部分的3D编码,具备这样的能力。
Q7:近期业内普遍存在一种观点,认为短期内VLA模型很难落地,主要提出三个难点,多模态对齐难、数据训练难、VLA模型部署在单个芯片上比较难。
想请教你如何看待这三个难点?
詹锟:VLA落地难,相对之前模型确实更难,并不代表它不能落地。
特别是随着现在新的芯片,包括SOC等支持FP8、FP4算力芯片的应用,VLA的部署没那么难,或者说有机会解决。
关于VLM/VLA的对齐问题,大家看到GPT-5发布,现在大模型能力已经非常强,达到专家级的智力。
对齐问题也在逐步解决,如果现在还说对齐难,这个话题显得有些初级,它不是不能对齐。
自动驾驶有自动驾驶的难度,特别是我们刚才提到3D空间理解,这可能是跟传统VLM模型不太一样的地方。
自动驾驶本质是空间物理行为,它对三维有更好的理解。
我们有很多方法,专门把3D的空间理解,放到我们VLA模型里来对齐,通过3D局部空间+2D全局理解的特点来实现对齐。
3D局部空间+2D全局理解,是我们VLA模型的一个特点,包括贾鹏也在GTC上详细讲了我们当时是怎么做的,这个是我们来解决的思路。
再者是单芯片部署问题,刚才详细提到我们做了大量工作。
2024年开始,我们实现双系统VLM在Orin上的部署,2.2B参数的模型,是业界首个,这背后是长期积累。
我们与英伟达进行深度交流,重新编写PTX的CUDA底层算子,开发自研引擎,仅依靠他们提供的TensorRT特定集是无法实现的,这些都是我们工程积累的成果。
现在业界有很多在宣传VLA,我相信他们同样会找到落地方法。
难是相对的,都是可以解决的。
Q8:以后VLA的模型规模、性能等都会提升,比如说你们现在是4B,以后有可能变成7B、8B、10B,比如到8B之后,又该怎么解决模型上车的问题?
目前芯片的推理帧率,对模型上车的影响到底有多大?
詹锟:大家可以看到一个规律,是大模型在2024年1年的发展中,在同等智力水平下,推理性能提升10倍,这是大模型的发展规律。
对应到端侧来说也是一样,甚至提升幅度更大。
端侧的优化,有非常多的细节可以做,特别是在垂直场景。
比如我们做自动驾驶,很多语言的理解可以做简化、做压缩。
刚才展示的较长过程,主要是为了演示,实际内部我们会压缩大量语言信息,再通过转译,呈现为人类可理解的内容,这些压缩技术,正是我们上车实现的细节洞察。
具体到这里还有一个,随着模型规模持续扩大,我们芯片能力也会同步提升。
2026年、2027年,芯片将形成自身算力Scaling Law,对应的模型效果会越来越好。
大家不要低估我们算法架构与训练架构的优化空间,即使模型参数量保持7B不变,我们仍能通过优化,让智力进一步提升。
具体说,通过更大模型、更优蒸馏、更好数据配比,实现模型智力持续增强。
Q9:今天不管是体验的巴士,还是看到的世界模型,感觉与Robotaxi L4级玩家的强化学习路线有相似之处,尤其巴士的表现很像Robotbus,前后台已很接近。
理想从L2~L4的渐进路线,与直接做L4的玩家,有什么区别?
詹锟:是问特斯拉与Waymo有什么区别,所有人都在观察这个问题,特斯拉拿出来的反击是它扩城速度非常快,现在奥斯汀已远超Waymo营运区域,马上加州也要超过Waymo营运区域。
对我们也是一样,我们从L2往L4走,一开始是全部场景都能让你用,你越用越好,逐渐达到Robotaxi无人化水平。
我之前也是做Robotaxi出身,我最早时候,是在一个区域内尝试过把这个算法做精,我只能在这个区域做。
我有很大算力、很高精度的传感器设备、先验地图,这样在扩城时会非常慢。
对车企这个不太现实,我们不是运营商,我们是希望服务更多客户,甚至是全球客户,我希望用户能在那里逐渐得到更好的驾驶体验与自动驾驶服务,这样的路径肯定是不一样的。
现在形态看上去逐渐趋同,这是现在L2水平逐渐在往更高级别做,看上去趋同,技术原理与技术本质不一样,包括我们这里区域仿真、全场景的无图,我们现在是VLA模型,包括上一代端到端,我们一个先验信息、先验地图都没有用,这是跟Robotaxi玩家有很大区别。
这是大家在赌自己技术预判与趋势,我们相信肯定是沿着这个路径,能服务更多人。
Q10:这个图跟带宽,是什么样的线性或者是非线性的换算?
比如说,你现在要跑一个4B的FP8,至少吃150GB左右带宽,如果降到FP4,大概吃到什么程度?
詹锟:带宽与精度是两个事情,我们在2024年做Orin上部署时,我们当时说我们用了int4量化,这个量化不是代表计算用int4,并不是,是在模型做内存带宽转移时,我们先把原来FP16的算子变成int4,然后通过一个你可以理解为矩阵压缩,压缩成一个低精度,再放进GPU里后,我们又把它用反序列化变成一个高精度数值,然后进行FP16计算,这个是一个精度的量化。
刚我们说的计算精度量化,比如FP4的计算,指的是我进来时,把这个算子是带着FP4做矩阵乘加,这个精度审的是你computer time,那个只审传输time,到这里我们用多少的量化另说,比如说我们量化可能还是用FP8,过来以后只是计算降了,并没有降传输,这个地方我们是组合使用,我们也是用的int4,不是所有。
这个地方类似DeepSeek一样,大家看到它们用FP8训练,不是每一层都敢用,这个是量化大家要做的事情,是你要精细调优每一层,你来看哪些能量化、哪些不能量化,哪些损失大、哪些损失小,我们要把损失小的,才能用更小精度来做量化,损失大的,我们不会动。
Q11:我们会有一个担心,可能算力一直不够用,或者像你刚说,可以用2年、3年,到时候带宽不一定。
詹锟:我们要在同等模型下,提升它的智力。
Q12:两个性能,你得取个公约数,最后发现单算算力还能用3年,两个都考虑,可能只能用1年、2年。
詹锟:我刚说的是一套模型、两种部署,比如SOC上部署是算力大、带宽小,双Orin是算力小、带宽大,在部署时,可以做不同量化权衡,它是一个模型,只是我最后推理时,做一次转化,不会增加额外成本,是一个部署方案,我们会做这样适配。
Q13:我们早上试驾时,体验一些基础智驾能力,比如靠边停车,这些现在应该已经准备就绪。2025年3月,GTC上展示的拍照等功能,你觉得大概发布节奏是怎样?
詹锟:拍照这个受某些事件影响不太能放,这个能力是可以具备的,不太能全量推,还在商量中,根据国家法规在一起迭代。
Q14:我们现在完全离车的功能是召唤?
詹锟:召唤这个有很多限制,这个要等正式发布才能看到,国家对召唤有很严格限制。
这次给大家体验是,能力上我们还有很多可以释放,我们要跟着法规一起来迭代、一起来研究,我们才敢释放,还是要遵从国家的法规。
Q15:它的法规,到底是看到我们能力会往前推,还是它是比较独立的意见?
詹锟:我觉得这可能是综合的,一个是能力去推动法规一起,一个我们要参与标准制定,理想汽车是一起跟政府合作来做这些事,我们是相互推动的一个事情,首先能力不达到,政府不会放,能力达到,怎么跟政府沟通,政府肯定有他的关注点与顾虑。
Q16:你怎么消除他的疑虑?他的顾虑,是所有头部车企整体水平,还是别的?
湛逸飞:这是很综合的问题,比如安全问题、就业问题,很多问题,我们可能不太能代表政府怎么想。
我们能做的,是我们在这一天到来之前,尽可能提升自己能力,这一天到来以后,我们可以尽快释放。
詹锟:我们是把能力先储备好。
Q17:高速上,我感觉,比如说有很多场景,可能在决策时比较犹豫,这是上一代模型的问题,这代有没有大幅度提升?第一是有没有提升?第二是如果有提升,是靠什么做到的?靠强化学习、还是靠对齐?
詹锟:我觉得你问的这个问题,是他们的评测,我们仔细分析了,我们内部也在思考这个问题,也看到很多这样数据,是思考这些问题为什么会出现有些摇摆,要避让它,是横向绕行,还是减速,会出现一些反复,导致要么没刹的特别准,要么距离拉的不够开,上一代软件是有这样问题。
这次我们对这类场景做了专门优化,至少我们把它加到世界模型仿真平台里去看它。
首先,我们在内部来看,相比上一代版本,有一些很好的结果,一个是我们这次主要还是通过Language思考,希望它的决策更稳健、更一致,不是像VA模型一样,我看到一个东西,下意识做出一个反应,它有可能会出现摇摆、抖动,还是跟它的数据配比特别相关,如果有Language的决策以后,它会好一些,可以知道我之前做了这个决策,我下次要一直做这个决策,或者这个场景,我们做一个稳定的判断。
Q18:我能不能理解为靠强化学习提升?
詹锟:强化学习是一方面,强化学习是我们训练步骤的一部分,更重要的,是训练完以后,会在世界模型里做验证、迭代,主要还是这类问题之前没有特别关注,确实测得很切中要害,非常极端,特别难,不让你避,速度不是很一致,它会让你的模型有些疑惑的情况。
湛逸飞:你观察的是很仔细,是它的右后侧有一辆车,那个速度控的一直让我们在变道跟不变道之间。
Q19:我看完之后,第一个感受是城区与高速不是一张网,包括绝大多数车企可能都不是一张网,可能大家这几年很卷,城区驾驶场景更复杂,把更多精力放在城区,高速还是以目标检测等基础能力为主,这个是我最大感受。
不过这个可能不需要前提,比如至少得是VLA或端到端模型才能做到。
早上试驾时,跟产品老师聊过,我相信我们现在是一张网,会针对高速场景做很多优化。
具体是在哪些点?高速更规则一点,无非是有一些小问题,现在这些小问题会很占用我们的精力吗?
詹锟:高速与城区是一张网,可能只是任务的输出表现不同,绝大部分模型是统一的。
驾驶策略细节与功能性设计会有差异,到现在VLA也是完全的一张网。
不过我们会通过不同prompt引导模型产生不同驾驶倾向,特别是当高速、城市场景的数据配比不同时,模型在高速与城区表现会有区别,这也是VLA特性之一。
你说会不会投入很多研发精力,答案是肯定的。
高速场景非常重要,Waymo这么多Robotaxi,高速功能还未完全释放,高速事故概率低,后果往往很严重。
我们在这方面投入一直很多,特别是高速的安全问题,比如超远距离兜底能力,需要做深、做透,追求极致提升。
城区更强调灵活性,对事故严重性与超视距准确性的要求没那么高。
我们有不同研发分工,部分同学会专注持续精进高速场景的能力。
Q20:我能不能这样理解,我们高速做了很多年,做到现在为止,我们仍然面临相对比较棘手的问题,是超视距的问题,其他基本没太大问题?
詹锟:对,施工突然改道的情况,我们能不能比别的公司做得更好。
Q21:关于仿真的问题,我刚才看到我们数据,到2025年基本都是仿真,仿真可能存在过拟合风险,比如测的4,000多万公里数据里,可能有部分是过拟合数据,不如真实数据好用。考虑到这点,现在仿真数据真实性,大概能有多少比例,贴近真实数据?
湛逸飞:首先仿真数据只是用来评测,你刚才讲的,我们叫合成数据,不是所有都用合成数据,只占10%,主要应用于一些我们难以收集的,比如雪天、事故车这种相对特殊场景,我们才用,90%多还是正常数据。
4,000多公里会不会过拟合,这4,000多公里,不是说我们就这么一批场景一直跑,我们库里有几十万clips的仿真场景,不停在换。
Q22:随机换?
湛逸飞:不是随机换,如果我们哪天发现有一个场景很有价值,我们会找一批跟它很像的加进去,能看它的能力。
Q23:早上试驾时发现,我问理想同学前面是什么车,希望得到卡车或奔驰这样回答,目前这个功能好像没释放出来?
詹锟:这个功能,目前我们不在AD域里来做,我们会放在理想同学里来做,这个能力是具备的。
包括你试试超过前面卡车,它会精准告诉你,前面有辆卡车,在不在我这个道上,我是变道加速,还是直接加速,都会有这个能力。
你问这是什么车,我们认为它不是智驾任务,这个完全是产品导向,我们可以后续需要把它更综合的问答都放进来,我们也会再做。
包括李想在发布会也说了我们会有小理师傅,理想同学与小理师傅会有些特定区分,它主要本质是小理师傅希望是控车,理想同学更多是综合问答。
这是一个产品导向的事,不是什么特别技术导向的事。
很早这个功能,很多车企都有,一问没人用,这个功能有什么用,这个事情是个伪需求,纯炫技,我们没有在这上面做特别多东西,我们希望能把用户真正想用的功能做好。
Q24:我们看到这次释放很多有用户强感知的一些功能,比如像是语音控车、内部道路漫游这种功能,我想问的是,如果它不采用VLA架构,有没有一些笨办法,可以达到类似体验,比如说你们可以做到95分,它可能做到80分,它也能上去,我们看到过去在国内这些驾驶中,是比较容易出现用笨办法来实现一个类似功能的情况?
詹锟:如果没升级技术栈,可能在部分场景下,比如做个demo,它可能可以,你上它推全量,比如我们地库漫游、园区漫游,你真的不去理解标识牌,它可能要不在建一个图的地方给你秀一下,要么是我提前给你准备好的路线上试一试,推广到全部用户身上,是很难实现的,至少在技术上我觉得不太可行。
只有升级架构,才真正能普及更多用户,以前如果用高精地图方式给大家推送城市,它肯定是有限的,不是说城市做不好,甚至有可能比无图肯定要好,一个是比如地图变了以后,体验瞬间降低,有很多安全问题、事故问题。
一个是你没法普及更多的人,这肯定不是我们想看到的,我们用户这么广泛,100多万辆的车,希望给大家都带来一致好的体验,我们只能升级技术。
Q25:现在语音控车,会有一些笨办法可以体验到,语音控车,我感觉是用户很强感的事情。
詹锟:如果语音控车只是简单几个指令,比如说左变道、右变道,这种用一个基本的ASR语音识别,它可以转成普通信号。
如果我们想做更复杂的,比如连续指令任务,左转、再变道,后面变道后直行,这种不好做,非常难,组合式的任务,对规则来说是非常复杂的,它是指数级的复杂度,它的扩展性也会降低。
还是这句话,如果秀两个demo,笨办法是可行的,长远看,这不是长久之计。
湛逸飞:这个你可以用很多方法检查,是同一个指令换不同说法,如果它不认识,就说明它是规则,同一个指令有很多种说法说,它都能理解,可能是有语言模型。
Q26:我们看到特斯拉FSD V13,是展现出来一定漫游能力,我们能这样下一个判断说FSD V13可能大概率是类似VLA的架构,可能特斯拉从来没有官方说过这件事,从它展现出来的能力,可以做这样的合理倒推?
詹锟:我觉得是个好问题,我感觉他没有用Language应该是真的,它已经上车的这些,还是偏语音交互,它还是一个主VA的模型。
Q27: FSD V13若未用Language模型,如何解释脱困能力与陌生道路漫游?
湛逸飞:漫游端到端就能做,寻路是需要VLA,我们刚展现的是它能找出口,特斯拉如果只是纯漫游,它就在地库一直转,出不去。
Q28:也看到一些他们在FSD V13的视频,它找出口偶尔能做到。
湛逸飞:那是运气,比如正好在这个路口左拐它出去了,我们找出口的过程,是在EID上能看见的。
詹锟:这可能是技术路线的选择,我不好说它下一代V14是不是会加入类似Language的能力,不好说,有没有可能是过往类似的方向去做,比如它的Optimus同一套技术栈,这是很有可能的。
Q29:VLA的迭代范式,是跟之前VA有比较大区别,我理解现在我们这个范式非常靠近大模型的范式,我知道我们应该还有一个在自动驾驶外的基模团队,我们跟这个基模团队是怎么样配合方式?
詹锟:刚你看到湛逸飞说的5个训练方式,第一个阶段是理想汽车基座模型负责人陈伟基座团队来做的,我们这个基座团队主要是解决两类大问题,第一类问题是我们怎么在校园学习基本知识,我们怎么把更好的通识能力,有一些交规知识、驾驶的基本知识教给它,这是我们基座团队在做的事情。
同时会有不同大小的模型,有的供云端,有的供车端,它会进行蒸馏。
第二个很重要的是它这个模型,一定是特殊架构适配我们硬件,从李想AI Talk里能看到,我们这个车上面是一个特殊的MoE模型,叫8×0.4,这是任何开源模型都没有的,只有我们有,这样特殊的结构,非常有利于芯片部署,任何直接用开源的模型,比如拿千问模型,都是更不好部署的,要不是容量比较低,要不是部署效率比较低。
基座模型跟我们有这样一个好的合作,它会在基座模型的选型设计上也符合我们需求,我们是一个紧密配合的组织。
Q30:为什么我们要自己做基模?我记得技术大会上当时有一页PPT,在我们之前双系统时,VLM是二维场景的理解能力,我理解可能是千问本身不具备三维场景的理解能力,现在基模团队会在第一个预训练过程中解决这个问题?
詹锟:会的,我们在第一阶段加了3D信息,我们是紧密合作,我们数据相关的共享与技术栈共享,是非常紧密的。
Q31:刚才你提到3D空间+2D全局理解,为什么不是3D全局理解?
詹锟:这是跟目前的技术栈相关,3D空间,我们需要把一个七路摄像头转换成3D空间的一个编码,这个3D空间编码一定带有空间深度信息,它缺少的是一个完整的,我们叫视锥视图Perspective View。
很多的算法,如果只带有3D空间理解,就缺少全局语义,有些视角,你要从不同角度去看它,它才能有更多信息提取。
我们这个设计,是一张图同时进行3D编码与2D编码,我们组合在一起,形成特殊的视觉token,我们专门设计了这样不同的关注项,同时提升它的全局与3D理解,这也是现在机器人有些公司也有往类似的方向做。
Q32:无论是刚才讲到DeepSeek、还是千问,现有一些开源模型本身不具备三维场景的理解能力,我理解一种可能原因,是它们本身互联网公司不具备三维数据资产,比如说他们有可能通过仿真做合成数据,或者说可能有一天专门做大模型的公司,他们基座模型本身具备三维场景的能力,这个从技术上是可行、或者说是可能的吗?
湛逸飞:做机器人的,肯定是要做的。
詹锟:现在大模型是叫虚拟世界的AI,是Agent,computer use都是虚拟世界的,它这里都是2D的,除了一些游戏可能有点3D空间。
当你进入到物理AI时,你发现全都是3D的,如果这个公司不做这个业务,它不了解这个业务,别说仿真,它可能都不了解哪些是它关键3D信息,包括他启动3D空间物理世界模型的这个能力可能都不具备。
如果他们想要做,一定是有相关业务合作,我们是跟基座模型非常紧密合作,我们会把很多3D数据,端到端积累与早期积累的数据,都会进行融合,包括合成数据里有很多3D空间的东西,都会给到基座团队,这样它才有可能具备3D空间能力。
作为纯的虚拟视觉大模型公司,可能这个能力比较欠缺,或者说他现在重心不在这里。
Q33:我理解可能这不是技术上的难点,更多是业务需求,可以这样理解?
詹锟:是,技术上也会很难,3D空间的数据,比2D难很多。
Q34:从之前端到端积累下来,高质量带有标注的数据,到了VLA之后,在数据闭环的处理过程中,比如说拿标注这个环节讲,是有多少需要重刷、重标的,或者说这个过程是一个需要多长时间的事情?
湛逸飞:可以说是都重刷,你的标注内容,是发生了一些变化,可能同样一条数据,你在做端到端时标注方式,跟做VLA完全不一样,我们需要重刷,这个重刷速度,取决于你有多少推理卡。
请务必阅读免责声明与风险提示
来源:六合商业研选一点号