摘要:具身智能旨在让智能体在物理世界中通过感知、决策和行动实现目标,视觉-语言-动作(VLA)模型作为其核心技术,近年来备受关注。
芝能科技出品
具身智能旨在让智能体在物理世界中通过感知、决策和行动实现目标,视觉-语言-动作(VLA)模型作为其核心技术,近年来备受关注。
VLA模型能够处理视觉、语言和动作信息,使智能体理解人类指令并执行任务。
我们总结了主流VLA方案,包括基于经典Transformer、预训练LLM/VLM、扩散模型等类型,代表性开源项目和核心思想,方案间的差异与共识,并探讨了数据稀缺、运动规划、实时响应等挑战及未来发展方向。也是为接下来中国VLA模型的涌现做一些梳理,希望为具身智能研究提供一些参考。
01
具身智能VLA方案总览
● VLA模型通过多种技术路径实现视觉、语言和动作的融合,其方案多样,各具特色。
◎ 基于经典Transformer结构的方案,如ALOHA(ACT)系列、RT-1、HPT等,利用Transformer的序列建模能力,将强化学习轨迹建模为状态-动作-奖励序列,提升复杂环境下的决策能力;
◎ 基于预训练LLM/VLM的方案,如RT-2、OpenVLA等,将VLA任务视为序列生成问题,借助预训练模型处理多模态信息并生成动作,增强泛化性和指令理解能力;
◎ 基于扩散模型的方案,如Diffusion Policy、RDT-1B等,通过去噪扩散概率模型生成动作,适用于高维动作空间和复杂动作分布;
◎ LLM+扩散模型方案,如Octoπ0等,结合LLM的多模态表征压缩与扩散模型的动作生成能力,提高复杂任务中的性能;
◎ 视频生成+逆运动学方案,如UniPiRo、BoDreamer等,先生成运动视频再通过逆运动学推导动作,提升可解释性和准确性;
◎ 显示端到端方案直接将视觉语言信息映射到动作空间,减少信息损失;
◎ 隐式端到端方案,如SWIM等,利用视频扩散模型预测未来状态并生成动作,注重知识迁移;
◎ 分层端到端方案结合高层任务规划与低层控制,提升长时域任务的执行效率。
这些方案通过不同架构和技术手段,为具身智能在机器人控制、任务执行等场景中的应用奠定了基础。
● 目前主要 VLA(视觉语言动作)模型
◎ Helix(Figue AI):Helix 是全球首个集成视觉感知、语言理解与运动控制的人形机器人 VLA 模型,采用创新的双系统架构:70 亿参数的主模型负责多模态决策(7-9 Hz),8000 万参数的运动 AI 实时生成精确动作(200 Hz)。
其突破包括支持 35 轴自由度的实时控制、多机器人协作以及无需特定训练的未知物体处理能力。
该模型通过仅 500 小时监督数据完成训练,运行于嵌入式 GPU,专注家庭场景(如整理冰箱、物品分类),旨在推动人机交互的自然化与普及化。
◎ RT-2(Google DeepMind):RT-2 是基于 Transformer 的 VLA 模型,通过互联网文本和图像数据学习通用概念,并将其转化为机器人动作。
相比前代 RT-1,RT-2 在新任务泛化能力上显著提升,尤其擅长通过语义理解执行复杂操作。
其典型应用为 Google Project Mariner,作为浏览器扩展的实验性 AI 代理,实现自主网络导航与任务执行,展现了 AI 从虚拟到物理世界的跨领域迁移潜力。
◎ Meta 的 AI 系统:Meta 正大力投资 AI 控制的人形机器人研发,其现实实验室团队聚焦消费者级机器人的传感器、软件平台及共享 AI 系统开发。
该战略旨在降低行业技术门槛,使第三方制造商也能接入 Meta 的技术生态。
尽管具体产品尚未公开,但公司强调通过开放协作推动机器人技术的普惠化,未来或重塑家庭与工业场景的人机协作模式。
◎ 苹果的机器人 AI:苹果的机器人研发尚处早期阶段,重点探索人机交互技术,尤其关注机器人在家庭场景中的自然沟通与协作能力。
据分析师预测,其首款人形机器人或于 2028 年量产,可能结合 iPhone 和 Apple Watch 的生态优势,通过深度整合硬件与 AI 技术,打造高度拟人化的智能助手。
◎ OpenAI 的机器人部门:OpenAI 以 “具身 AI” 为核心理念,将通用 AI 技术落地于物理机器人,直接与 Google DeepMind 等展开竞争。
其策略强调 AI 模型与机器人硬件的深度协同,通过强化学习和多模态训练提升机器人在真实环境中的适应能力。
目前已推出多款原型产品,未来或在工业自动化、服务机器人等领域加速布局。
02
方案对比与结论共识
● 不同VLA方案在模型架构、动作类型和训练目标上存在显著差异,影响其性能与适用性。
◎ 模型架构方面,Transformer架构擅长长序列处理但资源需求大,预训练LLM/VLM在指令理解上占优,扩散模型则在动作生成多样性上表现突出;
◎ 动作类型方面,离散动作适用于简单任务,连续动作更适合精确控制;
◎ 训练目标方面,行为克隆依赖已有数据快速训练,强化学习则优化长期奖励。
LLM-based方案如RT-2在复杂任务和语言理解上优势明显,但训练成本高、实时性不足;非LLM方案则在实时性要求高的场景中更高效。
RT系列模型从RT-1到RT-2、RTX逐步优化,引入大规模数据集和共同微调,展示了Transformer架构的潜力,并为VLA发展提供了借鉴。
共识在于,架构设计、动作表示和训练目标的选择需根据任务需求权衡,未来需在LLM与非LLM方案间寻求协同,以提升效率与智能性。
● VLA模型作为具身智能的关键技术仍面临多重挑战与发展机遇。
◎ 数据稀缺限制模型训练,需开发高效数据收集与模拟技术;
◎ 运动规划能力不足,需结合深度学习与传统方法提升灵活性;
◎ 实时响应性有待增强,可通过优化算法与硬件加速实现;
◎ 多模态信息融合需进一步改进,跨模态学习是重要方向;
◎ 泛化能力不足,可借助元学习和域适应解决;
◎ 长时域任务执行需更智能的规划器和常识知识;
◎ 基础模型探索尚处初级阶段,需利用大规模数据集构建通用模型;
◎ 多智能体协作需优化通信与任务分配;
◎ 安全与伦理问题日益突出,需融入常识推理与风险评估机制。
随着技术突破,VLA将在制造业、医疗、家庭服务等领域发挥更大作用,推动机器人智能化,提升生产效率与生活质量,同时需关注伦理规范,确保技术可持续发展。
小结
VLA模型是智能驾驶的新方向,现在汽车领域的数据对完善VLA模型起到了很好的作用,这是一场赛跑。
来源:碎碎念是我本体