智元发布首个通用具身基座模型——智元启元大模型(GO-1)

360影视 日韩动漫 2025-03-11 04:20 3

摘要:智元提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成。 其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力, MoE中的Latent Planner(

3月10日,智元机器人正式发布首个通用具身基座大模型:智元启元大模型(Genie Operator-1)。

智元提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成。 其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力, MoE中的Latent Planner(隐式规划器),是GO-1大模型中隐式的规划器,借助大量跨本体和人类操作数据获得通用的动作理解能力,让模型具备动作的理解能力。MoE中的Action Expert(动作专家),GO-1大模型的最后是作为动作预测器的动作专家模型, 借助百万真机数据获得精细的动作执行能力, 三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上一个新台阶。

VLM缺乏对物理世界的深刻理解,导致其推理输出难以直接应用于实际操作场景, ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟, 输入为多相机的视觉信号、力觉信号、语言指令等多模态信息,直接输出机器人的动作执行序列。

GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。 同时具备小样本快速泛化,GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移, GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习

用户给出指令告诉机器人要做的事情,比如“挂衣服”,模型就可以根据看到的画面,理解这句话对应的任务要求。然后模型根据之前训练时看过的挂衣服数据,设想这个过程应该包括哪些操作步骤,最后执行这一连串的步骤,完成整个任务的操作。

来源:老孙的科学讲堂

相关推荐