摘要:智元发布首个通用具身基座模型——智元启元大模型(GenieOperator-1),它开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)+MoE(混合专家)组成,实现了可以利用人类视频学习,
据智元机器人消息,智元发布首个通用具身基座模型——智元启元大模型(GenieOperator-1),它开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)+MoE(混合专家)组成,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体。
来源:科技浪潮之巅