智元发布首个通用具身基座大模型GO-1,让机器人获得革命性学习能力

360影视 动漫周边 2025-03-10 10:54 1

摘要:今天,“好东西”来了。智元机器人刚刚发布了首个通用具身基座模型——智元启元大模型(Genie Operator-1),该模型框架由VLM(多模态大模型) + MoE(混合专家)组成,它借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的

总部位于上海的智元机器人联合创始人兼CTO 稚晖君(彭志辉)上周末在微博预告称,“下周智元机器人有好东西发布”。

今天,“好东西”来了。智元机器人刚刚发布了首个通用具身基座模型——智元启元大模型(Genie Operator-1),该模型框架由VLM(多模态大模型) + MoE(混合专家)组成,它借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

具身智能的关键在于机器人可以感知物理世界并实时交互。大语言模型、多模态模型以及推理模型等AI能力,赋予了机器人听、说、看的功能,并能理解世界,以及拆分任何和逻辑推理等决策能力。

智元机器人研究院执行院长、智元具身智能事业部总裁姚卯青介绍,智元启元大模型开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构,其中VLM(多模态大模型)借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE(混合专家)中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。

人形机器人服务场景。智元机器人提供

不久前,智元机器人推出自主研发的大型仿真框架AgiBot Digital World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集,为机器人操作提供灵活的仿真数据生成方案、预训练的大规模仿真数据和统一的模型评测标准,同步开源海量仿真数据。

尽管AgiBot World 数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,智元机器人采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner预测这些Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

通过ViLLA 创新性架构,GO-1在五种不同复杂度任务上的测试较已有的最优模型的成功率大幅领先,平均成功率提高了32%。其中,倒水、清理桌面和补充饮料任务表现尤为突出。

目前智元机器人有三条主打产品线,分别是远征、Genie和灵犀;远征主要是面对商用场景的双足人形机器人远征A1、A2系列;Genie主要是面向通用具身操作的轮式双臂机器人G1,以及一条用于拓展家用场景的小型人形机器人灵犀产品线;灵犀产品线目前已经发布了一款X1,预计会在下半年发布一款面向机器人发烧友的产品X2。

智元机器人位于上海自贸区临港的智元机器人制造工厂已于2024年10月投产,还计划在上海张江建设年产能在1万台左右的人形机器人的二期工厂。

来源:文汇APP

相关推荐