机器人行业AI算法专家交流

摘要：操作与抓取泛化能力及数据利用效率：Helix大模型在操作和抓取方面的泛化能力超预期，数据利用效率高。训练一般VRM模型通常需数万条数据，而Helix大模型仅用500小时（约10万 - 20万条数据量），就达到了较好效果，相比传统训练方式数据量大幅减少。多机器人

1、Helix大模型亮点

操作与抓取泛化能力及数据利用效率：Helix大模型在操作和抓取方面的泛化能力超预期，数据利用效率高。训练一般VRM模型通常需数万条数据，而Helix大模型仅用500小时（约10万 - 20万条数据量），就达到了较好效果，相比传统训练方式数据量大幅减少。多机器人协作能力：多机器人协作方面超出预期，此前多展示单手操作能力，而Helix大模型可实现四只手同时协作，提升明显。这是通过采集两个机器人协作时的数据，利用同一套VRM加动作模型，同时记录视觉及关节数据进行训练实现的，但该模式复用性有限，更换场景需重新采集数据训练。运行实时性：运行实时性超预期，去年采用GPT接入分层结构，如今使用开源VRM搭配动作模型架构，能实现快门系统联合，输出200赫兹的运行速度。不过当前受限于大脑模块VRM约7 - 10赫兹的运行速度，实际运行效率较低，随着推理芯片升级，速度有望提升。家居场景商业化潜力：在宣称在家居场景下能做到数千种物体的识别和抓取，家居场景应用商业化可期。其采用70亿参数的开源视觉语言模块作为大脑，结合准分层架构及小型动作策略头，针对家居简单场景任务，70亿参数已足够实现较好的语义表达及动作转化。

2、Helix大模型原理及与传统模型对比

运行原理：传统训练VLM模型采用端到端方式，需大量不同场景操作数据训练视觉编码器和大语言模型结合的数十亿到上百亿参数模型。而Helix大模型摒弃此方式，采用快慢系统，以开源70亿参数视觉语言模块为大脑，搭配仅8000万参数的动作策略头。VRM吸收海量互联网数据，具有强空间和物体识别泛化性，通过软性连接，将高层语义信息传递给下游快系统，实现从高层语义到低层运动表达的转化。与传统RL2大模型不同：与传统RL2大模型相比，Helix大模型数据利用效率更高，无需从头训练大型VLM，通过巧妙架构设计，利用较少数据量达到较强泛化能力。且在处理方式上，采用软性连接调节模式，而非生硬耦合训练，在语义传递和动作执行的衔接上有独特优势。

3、模型缺点及未来发展

模型缺点：Helix大模型存在一定缺点，其灵巧手动作仍较简单，多为抓放、推拿等，未涉及多指协作完成精巧任务，原因是纯模仿学习，未加入强化学习。同时，该架构不能处理突发情况，如碰撞、避障及复杂工具使用场景，属于行为克隆，缺乏自主学习能力，训练完成后能力增长空间有限。未来发展方向：未来发展可能是模仿学习结合强化学习，通过强化学习提升模型应对复杂场景和持续学习能力，使模型上限不断逼近持续学习效果。对于数据训练，简单商业化场景可用合成数据加少量后训练真实数据，复杂场景尤其是涉及力反馈和触觉信息的场景，建议使用真实业务操作数据训练。

4、硬件及运控相关要点

硬件方案收敛情况：目前业内机器人硬件方案收敛尚未出现，国内外有差异。国外如特斯拉追求双足通用人形机器人，国内头部厂商多偏向实用主义，采用协作手臂或带轮式移动底盘的双协作手臂做矩阵式设备，短期内国内难像Figure和特斯拉一样收敛成人形，呈现百花齐放形态。大脑与小脑关系及运控重要性：大脑负责高层次认知决策和规划，小脑接受大脑语义指令并解码为动作，同时接受视觉信号输入，加入视觉传感信息。因大脑决策模型在GPU上推理速度慢，与机械臂控制端运行频率不一致，产生大小脑分层结构。对于国内人形机器人厂商，运控至关重要，目前多采用基于强化学习的数据驱动运控，强调运动稳定性而非精确性，不做强化学习几乎没有未来。

Q&A

Q：Figure发布的Helix大模型是超预期还是低预期，其运行原理和创新点是什么？

A：从技术报告来看，Helix大模型在以下四点超出预期：一是操作和抓取的泛化能力超出预期，数据利用效率高，训练数据量约10 - 20万条，而学界和业界训练大的VRM模型通常需数万条数据；二是多机器人协作超出预期，视频中展示了四只手同时协作，此前国内和特斯拉多展示单手操作能力；三是运行实时性超出预期，采用自己开源的VRM加动作模型架构，能实现快门系统联合，输出200赫兹的运行速度；四是家居场景应用的商业化可期，宣称在家居场景下能做到数千种物体的识别和抓取。

Q：市场质疑Figure机器人运行速度慢，如何理解？

A：特斯拉抓网球视频是在遥操作状态下，并非自主抓取，更多是展示新版Optimus二自由度零售手的云调试。随着推理芯片未来两年不断升级优化，Figure机器人速度会越来越快。视频效果远比不上宣称的200赫兹，主要受限在于大脑模块VRM目前运行速度约7 - 10赫兹，对实时性造成瓶颈和限制，若VRM能达到40 - 50赫兹，输出动作会变快。此外，200赫兹更多是在同一动作空间里的表达，实际运行效率低，前进每一步计算量较大，随着推理芯片升级可解决该问题。

Q：Helix大模型的运行原理是什么，和传统的RL2大模型有什么不同，是如何实现用较少数据训练出高泛化能力以及多机器人协作的？

A：传统方式是用超大规模数据集训练VLM，采用端到端方式，吸收各种场景下操作的数据，结合视觉编码器和大语言模型进行训练，模型参数一般为几十亿到上百亿，需数百万到上千万条数据才能出效果。Helix大模型摒弃从头训练VLM里的视觉和语言模块，采用一个开源的70亿参数视觉语言模块作为大脑，搭建准分层架构，即先有VRM，下面再搭一个Transformers架构的动作策略头。动作策略头只需8000万参数，吸收500小时（约10 - 20万条）数据就能有较强泛化性，且这500小时数据有很多是仿真环境下的合成数据，真实采集数据可能只有30% - 40%。VRM吸收了海量互联网token数量训练，天然带有很强的空间和物体识别泛化性，相比不断采集真实数据训练的VLM，泛化性有更高上限。

Q：VLM做出的判断和指令与下层执行端是如何连接的？

A：目前从技术报告展示来看，这种连接是软性连接，不是强制性将两个模块完全融合。调节方式是用到VLM生成的高层隐空间的语义表达（一个高维空间的vector），把这个vector作为隐形条件变量传递给下游快系统。快系统使用交叉注意力，将VLM生成的隐藏空间里vector的表达输入到下游快系统的Transformer中，传递语义和物体空间的隐含信息。例如，通过VLM识别出仙人掌物体，其高层语义表达会让视觉注意力集中到仙人掌上，下游动作模块会定位到相应空间位置，之前用500小时训练可预测出手的移动方向、距离和时间等，通过隐藏空间传递将高层语义转化为低层运动表达，是一种调节模式。

Q：只有7B的VLM大模型，能否实现强泛化能力，数据参数量级该如何定义？

A：不能简单从参数规模定义泛化能力。7B有70亿参数，国内千问7B参数模型也用了千亿级别淘特的图像和数据。7B在固定、单一任务场景，如家居场景的简单任务中，在语义空间表达是足够的。有了VRM高层语义空间认知后，动作层面不需要太多表达能力，只需将语义翻译成动作任务。虽然机器人宣称有35个自由度，但灵巧手未涉及很多多指协作或灵巧动作，简化了动作表达，针对抓放和推拿场景，目前的参数是够的，但更复杂动作表达可能训练得不够好。

Q：未来提升机器人自由度，是否只要提升参数量就可以？

A：是的。从技术报告结论来看，随着参数量扩增或数据规模扩大，能提升相关能力。目前国内和特斯拉更多展示单一路执行效果，该模型能针对不同家居场景物体操作，商业化前景较明显。

Q：能够同时控制两台机器、四个手动作是如何做到的，做了哪些特殊设计？

A：专门采集了两个机器人协作时的数据，背后是同一套VRM加同一套动作模型。同一套动作模型接收头部两个摄像头的数据，训练时记录机器人一和机器人二看到的视觉数据以及手臂和灵巧手上的关节数据，相当于模型同时看到四个场景并针对这些场景训练。在部署推理状态下，当机器人一左手拿物品递给机器人二时，机器人二背后的VRM根据之前训练的能力，在相应条件下会伸出右手接物品，实际上就是把四个摄像头的数据放到同一个VRM和动作模型中训练。

Q：两台机器人协作的模式是否可复用，如果要在其他场景协作，是否还需采集其他场景数据并训练？

A：是的，若要在其他场景协作，需要采集其他场景的数据并进行训练。

Q：Figure展示的准分层、快慢系统结合的模型，未来会成为主流吗？和端到端模型相比，它有什么缺点，还是端到端模型最终会成为解决方案？

A：Figure的这套架构肯定不是最终方案。其缺点有：一是零售场景简单，只是抓放，未涉及多指头协作完成更精巧任务，因为是纯模仿学习，还未采用强化学习；二是不能处理突发情况，如碰撞和避障，也无法处理家居中使用工具的场景，更多是行为克隆，未进行自主学习，部署后没有能力增长空间。不过，它可以商业化。目前学界在探索通过模仿学习、强化学习让机器人自主探索和学习的架构和方式，这才是未来方向。

Q：Figure模型能用少量数据训练出类似几百万条数据的效果，能加速短期商业化进程，这两种模式能结合取长补短吗？

A：有方式结合，更多是针对不同厂家的下游场景。国内之前多推完全端到端的VRA方式，因为国内人形机器人多集中在工业场景，工业数据少；而Figure的分层框架在家居场景效果更好，因互联网上生活场景数据多，可用海量互联网数据训练出泛化性和效果更好的模型进行商业化。国内一些厂商考虑工业或商业场景，会选择端到端的VLV。两者各有利弊，厂家因场景不同选择不同架构。

Q：端到端模型的数据训练主流方式还是通过摇头收集吗？如何看待虚拟数据的运用？银河通用做的虚拟仿真平台大概是什么内容，对业界进步有推动作用吗？

A：银河通用用英伟达生态系列平台做视觉和物理学仿真，从去年宣称的10亿级数据合成到最近推出的Grasp V，都只用仿真数据，有一定效果。从Grasp VRA发布视频看，做到了七个方面的泛化，但仍处于简单抓取场景。对于柔性物体场景，仿真的物理学较麻烦，与实际采集状况不同。对于商业化中的简单场景，用合成数据加几十万条级别的后训练数据做泛化是可行的；但涉及灵巧手协作、力反馈等复杂场景，用真实业务操作数据训练更好。

Q：目前主流厂商获取一条遥测数据的成本大概是多少？

A：综合人力成本、运营成本和资产成本，平均下来一条遥测数据要一块多。

Q：在单一工厂场景下，要让机器人达到0.5个人或者0.7个人的水平，大概需要多少条数据来训练得比较拟人？

A：目前针对单一场景下能做到位置泛化、背景泛化以及物体一定同类别的泛化（如不同大小和颜色），基本上10万条左右的数据是够的，但这是在一台机器人上测试的结果，如果换一个机器人则可能需要重新获取数据。

Q：您如何看待机器人硬件方案的收敛情况，大概何时能看到收敛，上半身和下半身的硬件选择是怎样考虑的？

A：国内和国外情况不同。国外像特斯拉要做双足通用人形机器人；国内更多厂商偏向实用主义，更多实验采用协作手臂或带有轮式移动底盘的双协作手臂做矩阵式设备。榆树等双足构型强调运动性而非操作性，操作性瓶颈在机械臂、灵巧手及触觉传感器。国内短时间内不会像Figure和特斯拉那样收敛成人形，目前还是百花齐放的形态。

Q：请简单介绍一下机器人大脑和小脑的关系，它们具体负责哪些方面？

A：大脑和小脑是仿生结构。大脑更多负责high - level的认知决策和规划，集中在解决问题的思路；小脑负责将大脑的语义指令解码成相应动作，调整四肢执行。之所以产生大脑和小脑的分层结构，是因为决策模型在GPU上的运行速度、推理速度较慢，而机械臂控制端频率高达1000赫兹，为弥补大模型和控制执行机构运行频率不一致的问题。如果机器人端VRM运行频率达到100甚至500赫兹，就不会有大小脑这种结构。

Q：小脑和运动控制是一回事吗？

A：目前可以这么理解，小脑接受大脑的语义指令，然后基于这个指令把它解码成相应的动作。

Q：Helix发布是否凸显了小脑的重要性，对于机器人厂商来说，使用现成VRM替代大脑后，是否就不需要关注DLM，只需要做硬件加上运控？

A：这种理解有偏差。小脑实际上是一个VIP结构，其transformer会接受图片的视觉信号输入，并非只接受大脑的语义信号指令，运动模型加入了视觉传感信息，有环境感知，所以还是需要训练一个参数量不到1亿的模型。

Q：对于人形机器人而言，运控的重要性如何，国内刚进入做这个人形的初创厂商如何解决运控问题？

A：国内做人形机器人，最重要的一是本体能力结构，二是运控。目前运控更多采用数据驱动的基于强化学习的方式，不强调运动学上的精确性，而是强调运动学上的稳定性，即如何做得更灵活、更稳定，去做更多传统基于模型预测控制做不到的动作。针对国内厂商，运动控制若不做强化学习，几乎没有未来。

Q：分层式架构是过渡路线，过渡路线的原因主要瓶颈在哪里？

A：目前分层的结构只能处理行为模仿问题，更多用专家级别的演示数据去训练。针对高动态的非结构化场景，如碰撞、跌落等，它很难处理，因为数据里可能没有这部分数据，且训练完模型后也无法做到持续学习。

Q：端到端目前不采用的原因是缺乏数据或数据成本太高吗，后续这个问题怎么解决？

A：端到端目前不采用的原因是缺乏数据或数据成本太高。解决办法是业界和学界推行模仿学习加后训练用强化学习，在后训练环节加入强化学习，让模型的相应上限越来越逼近持续学习的效果，不断进化其能力。

Q：像Figure通过500个小时的数据训练达到现在的效果，往后训练1000个小时、2000个小时，其性能会有线性还是非线性的提升？

A：其上线已被TPU的VRM锁死，虽能看到很多互联网规模的数据，但针对具体场景，如现在的模型只能在不断深入挖掘、扩大其家居厨房场景的效果，未来看不到非常指数性的爆炸效果，可能还是接近线性的效果。若不处理特殊状况、场景的更好情况，落地仍有难度。

Q：市场里有人采用VRM加动作模型的策略，如理想看起来效果不错，这是怎样的情况？

A：采用这种策略的理想其实也有快慢系统和分层结构。

Q：从大语言模型或VLM的输出到指导电机转动的动作模型，其结构或技术路线是否有收敛，是否有比较领先的或核心的know - how，这是否是一个难点？

A：针对动作模型，目前更多还是在两个方向，一个是transformer架构，还有一种是扩散模型（diffusion）架构，这两种都是生成模型，各有各的好处，目前大部分研究集中在这两个方向。

Q：transformer架构和扩散模型的作用原理是什么，哪一个上限更高、后续使用的人会更多？

A：transformer架构是把每一个动作看成一个token，例如机械臂有七个自由度，每个自由度关节运行一个delta的空间可认为是一个小token，用token化的动作表达去建模，让transformer学习token之间的序列关系。扩散模型是先生成一些基础的噪声，然后在不断去噪的过程中，逐渐把噪声表达成一个动作序列，类似纹理图的结构演化而来。从发展潜力来看，transformer架构有大一统的趋势，目前大模型的生态、训练及后训练技术结构发展较好，transformer类可能会有垄断趋势，扩散模型在本质上可能存在一些数学原理上的。

Q：既然transformer是更自然的想法且便于参数化训练，为什么还会分叉出diffusion，它是为了解决什么局限？

A：diffusion来自去年的一篇“decision policy”工作，它的提出是为了解决动作里面的多峰分布问题。用传统回归损失函数计算，在面临如路口左转还是右转的情况时，可能学到平均效果（往前走），而扩散模型能处理这种多峰分布问题，明确在左转时就是左转，不会右转。

Q：用开源模式分层和用OpenAI模型做大脑有什么区别？

A：之前OpenAI大模型的接入更多是显示的语义表达，输出的是一堆已解码过的token，以文字表达给到动作模型；现在更多是在隐藏空间里的高维actor产生相应指令，好处是更高效、泛化性更强，中间解码过程少，信息损失衰减少，信息传递效率高，注意力更集中。

Q：国内做本体的玩家，如语数、优必选、乐聚等，采用开源模型并做自己的指令集，是否能很快实现操作的泛化能力？

A：这种架构掀起后，国内估计半年内很多厂商都可以赶上来，能看到类似效果。

Q：其他本体玩家用Figure路线能否很快追赶上主打自己做大脑操作的玩家（如银河通用、千寻智能、星海图）的操作泛化能力？

A：是的，这种方法简单有效，超出很多预期。

Q：国内做大脑的明星创业公司或龙头公司，如银河、自变量、星海图等的进展如何？

A：这些公司大部分追寻国外路线，做所谓的VRA端到端架构。业界目前更注重场景化落地，估计今年到年终可能会转到更具性价比的方式以实现更快落地，而不是强调学术创新性。例如银河公司全程用低成本的合成法做VRA，但只能针对简单场景，未来机器人要进行更柔性的组装协作等复杂场景，短期内合成法做不到。

Q：VRA路线是否需要的数据量很大，效率较低？

A：不是数据量大的问题，而是合成的数据质量问题，Sim to real存在非常大的。