摘要:智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的隐式规划器借助大量跨本体和人类操作视频数据
南方财经3月10日电,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的隐式规划器借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。 三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。(21世纪经济报道)
来源:南财快讯