华为离职“天才少年”,发布首个通用具身基座大模型

360影视 动漫周边 2025-03-12 08:21 2

摘要:3月10日,上海智元机器人联合创始人、原华为“天才少年”稚晖君(彭志辉)的微博预告如期兑现,中国首个通用具身基座模型“智元启元大模型(Genie Operator-1,简称GO-1)”正式发布。

半导体工程师 2025年03月12日 08:05 北京


3月10日,上海智元机器人联合创始人、原华为“天才少年”稚晖君(彭志辉)的微博预告如期兑现,中国首个通用具身基座模型“智元启元大模型(Genie Operator-1,简称GO-1)”正式发布。

彭志辉自2022年12月离开华为,于2023年2月创立了智元机器人关联公司上海智元新创技术有限公司(简称,智元新创)。

企查查显示,智元新创的实际控制人舒远春总持股比例为29.1674%,大股东桑蓬(上海)科技合伙企业(有限合伙)持股30.3775%。

比亚迪于2023年8月投资智元新创,认缴出资额为191.497万元,持股比例为2.5074%。除了比亚迪,其投资方包括高瓴创投、BV百度风投、奇绩创坛、经纬中国、蓝驰创投、沃赋创投、奇煜投资等。

彭志辉现任上海智元新创技术有限公司董事,桑蓬(上海)科技合伙企业(有限合伙)股东,并持有桑蓬科技13.79%的股份。

彭志辉,人称“稚晖君”、“野生钢铁侠”,原华为天才少年,2015年本科毕业于电子科技大学生命科学与技术学院,2018年研究生毕业于电子科技大学信息与通信工程学院。毕业后,他加入OPPO研究院AI实验室担任算法工程师。2020年,彭志辉加入“华为天才少年计划”,从事昇腾AI芯片和AI算法相关研究工作。2022年1月,他获得哔哩哔哩“2021年度百大UP主”称号。

据介绍,智元新创公司一直致力于AI与机器人的融合创新,打造世界级领先的具身智能机器人产品及应用生态。2023年8月,智元机器人发布第一代通用型具身智能机器人原型机——远征A1。时隔一年,智元机器人家族系列商用产品发布,在交互服务、柔性制造、特种作业、科研教育及数据采集等场景开启商用量产。

作为联合创始人,彭志辉于3月7日在微博上预告了即将发布的“好东西”,引发了广泛关注。

GO-1:VLA进化到ViLLA

智元机器人发布的研究论文报告提到,2024年底,智元机器人公司推出了 AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景(家庭、零售、工业、餐厅和办公环境)的大规模高质量真机数据集。基于这一数据集,智元公司发布其首个通用具身基座大模型——Genie Operator-1 (GO-1)。

GO-1 基于 Vision-Language-Latent-Action (ViLLA) 架构构建,相比传统的 Vision-Language-Action (VLA) 架构,ViLLA 通过预测 Latent Action Tokens(隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟。

智元机器人表示,ViLLA 架构是为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力而提出的。

ViLLA架构由VLM (多模态大模型) 和 MoE (混合专家) 组成,其中 VLM 负责场景感知和指令理解,MoE 中的 Latent Planner 负责动作理解和规划,MoE 中的Action Expert 负责精细动作执行。

报告提到,Latent Planner通过 Latent Action Model (LAM) 获取当前帧和历史帧之间的隐式动作,预测离散的 Latent Action Tokens。

混合专家一:Latent Planner(隐式规划器)

Action Expert采用Diffusion Model作为目标函数来建模低层级动作的连续分布。

混合专家二:Action Expert(动作专家)

在推理过程中,VLM、Latent Planner和Action Expert三者协同工作:

VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;

Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;

Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。

智元表示,“三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。”

报告表示,“通过Vision-Language-Latent-Action (ViLLA) 创新性架构,我们在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。此外我们还单独验证了ViLLA 架构中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。”

实验结果

GO-1大模型的创新

报告提到,GO-1大模型具备以下四个关键特性:人类视频学习、小样本快速泛化、一脑多形、持续进化,具体来说:

人类视频学习:结合互联网视频和人类示范数据,增强对人类行为的理解。

小样本快速泛化:在极少数据甚至零样本下,快速适应新场景和新任务。

一脑多形:支持在不同机器人形态之间迁移,快速适配到不同本体。

持续进化:通过数据回流系统,从实际执行中持续学习,越用越聪明。


智能机器人在发展过程中面临多方面的难题,这些难题涉及技术、数据、环境、成本等多个维度。

尤其在数据方面,机器人需要大量高质量的动作数据来学习复杂任务,但真实世界中的机器人操作数据(如真机示教数据)获取成本高、规模有限。现有数据集往往局限于特定场景或任务,缺乏多样性,难以支持机器人在开放环境中的泛化能力。互联网上的海量视频数据(如人类操作视频)无法直接用于机器人训练,需要复杂的“翻译”过程。

AgiBot World 数据集提供大规模、高质量的真机示教数据,支持复杂任务的训练。

ViLLA 架构通过 Latent Actions 和 MoE(混合专家) 架构,充分利用互联网视频数据和真机数据,提升模型的泛化能力和执行能力。

GO-1 大模型整合视觉、语言、动作等多模态输入,实现从感知到执行的高效闭环,支持长时程任务和复杂场景。

随着 ViLLA 架构 和 GO-1 大模型 的发布,机器人不仅拥有了大量真实和仿真的数据资源,还获得了快速学习和迁移的能力。这不仅扩展了它们的运动能力,还赋予了它们更强的AI能力,如理解自然语言指令和进行语义推理。这些进步使得机器人在各种应用场景中的作业能力大幅提升,从而真正具备了实用价值。

换句话说,机器人不再仅仅是按照固定程序运行的工具,而是能够自主学习、理解和执行复杂任务的智能助手,能够在更多领域发挥重要作用。

来源于电子工程专辑,作者Amy Wu


半导体工程师

半导体行业动态,半导体经验分享,半导体成果交流,半导体信息发布。半导体培训/会议/活动,半导体社群,半导体从业者职业规划,芯片工程师成长历程。

来源:芯片测试赵工

相关推荐