摘要:2025年3月10日:智元发布首个通用具身基座大模型GO-1,GO-1开创性提出Vision-Language-Latent-Action(ViLLA)架构。该架构由VLM(多模态大模型)+MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感
2025年3月10日:智元发布首个通用具身基座大模型GO-1,GO-1开创性提出Vision-Language-Latent-Action(ViLLA)架构。该架构由VLM(多模态大模型)+MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。
动作捕捉:是一种通过传感器、摄像头等设备记录运动物体关键部位(如人体关节)的空间位置和姿态数据,并将其转化为计算机可处理的三维运动轨迹的技术。
其核心流程包括:
1、数据采集:在目标对象上部署标记点(Marker)或传感器,通过光学、惯性或电磁等方式捕捉运动信号
2、数据处理:利用计算机视觉、惯性导航等算法将原始数据转换为骨骼动画或物理模型可驱动的坐标信息。
3、动作映射:将数字化动作应用于虚拟角色、机器人或分析系统,实现动作复现或行为分析
在实际测试中,GO-1模型在五种不同复杂度的任务上表现卓越,相比已有的最优模型,平均成功率提高了32%,其中“倒水”、“清理桌面”和“补充饮料”等任务的成功率提升尤为显著。此外,研究还发现,增加Latent Planner可以提升12%的成功率,这进一步证明了ViLLA架构的有效性。
GO-1模型不仅在技术上取得了突破,还具有广泛的应用前景。它能够支持部署到不同的机器人本体,实现快速进化,从而适应多变的真实世界环境。这意味着机器人不再局限于实验室,而是可以在商业、工业、家庭等多个领域发挥作用,为人类提供更加智能化的服务
以下是相关动作概念股:
来源:股市研究者大宗