摘要:据介绍,GO-1开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)+MoE(混合专家模型)组成。
编辑整理:双一流高教
3月7日,智元机器人联合创始人稚晖君(彭志辉)在微博上惊喜预告,下周智元机器人将有好东西发布。
3月10日 上午 ,“华为离职天才少年官宣刷屏”话题登上微博热搜第一,在榜时长超4个小时。
据介绍,GO-1开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)+MoE(混合专家模型)组成。
其中,VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。三者环环相扣,实现了可以利用人类视频学习,完成小样 本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了 一个新台阶。
智元机器人表示,通过Vision-Language-Latent-Action(ViLLA)创新性架构,他们在五种不同复杂度任务上测试GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%。其中“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(补充饮料)任务表现尤为突出。此外,他们还单独验证了ViLLA架构中Latent Planner的作用,发现增加Latent Planner可以提升12%的成功率。
智元机器人指出,GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际使用中持续不断地进化。
智元机器人还称,GO-1大模型将加速具身智能的普及,机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,通向更加通用全能的智能未来。
值得注意的是,3月10日,在智元机器人正式发布首个通用具身基座大模型后,彭志辉在微博上转发并留言称:“明天还有惊喜。”
智元机器人是国内知名的机器人品牌,隶属于上海智元新创技术有限公司,总部位于上海张江科学城。该公司专注于以 AI + 机器人的融合创新,致力于研发和生产通用人形机器人,目标是打造世界级智能机器人。
彭志辉 1993 年出生于江西吉安,2018 年从电子科技大学信通学院研究生毕业后,曾在 OPPO 研究院 AI 实验室工作。
2020年,彭志辉通过“华为天才少年”计划加入华为。2022年,他从华为离职,不久后创立机器人品牌智元机器人。
智元机器人成立以来获得了多轮融资,投资方有高瓴创投、鼎晖投资、高榕资本、BV百度风投、经纬创投、比亚迪等。2023年8月,公司正式发布远征A1智能机器人;2024年8月,又发布了五款商用人形机器人新品。目前,智元机器人主要有三条产品线,分别是远征、Genie和灵犀。
今年1月,智元机器人宣布量产的第1000台通用具身机器人正式下线,其中双足人形机器人(远征A2/灵犀X1)有731台,轮式通用机器人(远征A2-D/A2-W)有269台。
数据开源上,今年2月,智元机器人宣布推出自主研发的大型仿真框架AgiBot Digital World,为机器人操作提供灵活的仿真数据生成方案、预训练的大规模仿真数据和统一的模型评测标准,同步开源海量仿真数据。
近期,智元机器人通用业务部总裁王闯表示,2025年,智元机器人计划逐步上线开发者平台,提供机器人开发文档和工具链,同时推出机器人云服务和开发者社区,进一步降低开发门槛,吸引更多开发者参与具身智能的创新。
此外,A股方面,继科大讯飞、软通动力、均普智能后,今年以来,富临精工、蓝思科技等多家上市公司相继宣布与智元机器人展开合作。
来源:小茵科技论