中信建投:智元发布通用具身基座大模型GO-1和机器人灵犀X2

360影视 日韩动漫 2025-03-14 10:26 3

摘要:智元机器人发布通用具身基座模型——智元启元大模型(Genie Operator-1),开创性提出了ViLLA架构,实现了可以利用人类视频学习,完成小样本快速泛化,提升了机器人学习能力,结合此前发布的开源百万真机数据集AgiBotWorld,将降低具身智能门槛,

智元机器人发布通用具身基座模型——智元启元大模型(Genie Operator-1),开创性提出了ViLLA架构,实现了可以利用人类视频学习,完成小样本快速泛化,提升了机器人学习能力,结合此前发布的开源百万真机数据集AgiBotWorld,将降低具身智能门槛,有望加速具身智能的普及。此外,公司推出灵犀X2机器人,模块化设计能力提升,且在运动控制、交互能力方面表现优异。人形机器人厂商模型持续迭代,软硬件能力持续升级,将进一步打开人形机器人应用场景的想象空间,加速产业化发展。

发布通用具身基座大模型GO-1,创新架构提高机器人学习能力

2025年3月10日,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),开创性地提出了Vision-Language-Latent-Action (ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化,实现一脑多形并持续进化,结合公司此前发布的开源百万真机数据集AgiBotWorld,将降低具身智能门槛,促进机器人向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,加速具身智能的落地应用。

发布灵犀X2机器人,运动控制、交互能力表现亮眼

2025年3月11日,智元机器人在全网多个平台发布视频,推出灵犀X2机器人,其模块化设计能力突出。更值得关注的是,X2通过结合深度强化学习和模仿学习算法的优势,不仅可以像人一样走路,还可以奔跑、旋转、跳舞,甚至实现骑自行车等复杂动作,运动控制效果优异。此外,灵犀X2可实现复杂的交互能力,拥有毫秒级的交互反应,视频中与人类沟通交流流畅自然。

人形机器人产业链梳理:随着国内外人形机器人厂商2025年分别逐步启动几千台或者万台的量产计划,2026年预期分别数万台或者10万台的量产计划,我们建议核心关注具备零部件低价批量供应能力的企业,以及具备技术或者产业链卡位优势的企业。

一、智元机器人自成立以来发展迅速,已实现通用具身机器人量产

上海智元新创技术有限公司(以下简称“智元机器人”)成立于2023年2月,是一家致力于以AI+机器人的融合创新、打造世界级领先的具身智能机器人产品及应用生态的创新企业。

2023年4月,公司设立上海总部;6月设立北京算法中心;同年8月18日,正式发布远征A1智能机器人。

2024年1月,公司建立全国首个机器人制造工厂;同年8月18日,智元机器人发布“远征”与“灵犀”两大系列共五款商用人形机器人新品;9月,4000平数采工厂建立;10月24日,智元灵犀X1面向全球正式开源;12月16日,智元机器人发布视频称开启通用机器人商用量产;12月30日,智元发布百万真机数据集开源项目AgiBot World。

2025年1月6日,智元机器人量产的第1000台通用具身机器人正式下线;3月10日,智元发布首个通用具身基座大模型GO-1。

从人形机器人新品发布以及量产节奏来看,智元机器人发展迅速,处于行业领先身位。2024年11月,智元机器人入选《2024福布斯中国创新力企业50强》,其创新属性备受认可。

公司创始团队具有丰富的技术背景和产业资源。智元机器人的创始团队包括“稚晖君”彭志辉在内的多位业内资深人士,成员背景综合互补,具有深厚的核心技术背景、产业管理经验和产业资源。其核心人员彭志辉,拥有华为“天才少年”的背景,在AI和机器人领域具备深厚的技术积累,主要负责人形机器人的智能算法、感知、认知和决策等方面的研发工作。另一位核心人物是上海交通大学博士生导师、上海人工智能研究院首席科学家、上海智元新创技术有限公司联合创始人闫维新,主要负责人形机器人的机械结构设计、运动控制等硬件方面的研发工作。

公司上市以来经历多轮融资,获得诸多资本方的认可。作为新兴的人形机器人初创公司,公司在成立的2年多时间内完成了多次融资。2023年3月,智元机器人完成天使轮融资;根据企查查数据,2023年公司又陆续完成了A、A+、A++、A+++轮融资,并于2024年又陆续完成了3轮融资。智元机器人吸引了包括高瓴创投、奇绩创坛、鼎晖投资、高榕资本、红杉中国、比亚迪等众多知名投资机构的投资。

2023年8月智元发布第一代通用型具身智能机器人原型机远征A1。远征A1机器人基于创始团队在机器人和AI行业多年的经验积累在半年内打造,这款机器人未来将可以在各种复杂场景下自主完成移动和操作任务。同时,智元公布其自研的一系列核心组件及其技术指标,包括核心关节电机PowerFlow、灵巧手SkillHand、统一软件框架AgiROS、语言任务模型WorkGPT、具身智脑EI-Brain等。

2024年8月智元发布远征、灵犀两大系列共5款机器人,覆盖不同场景。2024年度新品发布会中,公司发布了“远征”系列3款机器人,包括交互服务机器人智元远征A2、柔性智造机器人远征A2-W、重载特种机器人远征A2-Max;“灵犀”系列2款机器人,包括全栈开源机器人灵犀X1、专业数采机器人灵犀X1-W,多种机器人覆盖了不同应用场景,整体软硬件能力持续提升。2025年1月6日,智元量产的通用具身机器人累计下线1000台,包括731套双足人形机器人(远征A2/灵犀X1)、269套轮式通用机器人(远征A2-D/A2-W)。

二、发布通用具身基座大模型GO-1,创新架构提高机器人学习能力

2025年3月10日,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体。

GO-1大模型吸纳多维度数据,有望加速具身智能的普及。目前通用机器人大模型所需数据量极为庞大、且数据获取难度高,导致短期内通用机器人难以采集足够数量的真机数据用于大模型训练;同时,常规的VLA架构也难以利用大规模人类以及跨本体操作视频数据,目前业界主要采用仿真数据和互联网的图文数据以训练机器人。而GO-1大模型则吸纳了各种维度和类型的数据,将增强模型对人类行为的理解,并明显降低训练成本,加速具身智能的普及。

2024年底智元推出开源百万真机数据集AgiBotWorld,数据质量达到工业级标准。2024年底,智元推出了AgiBotWorld,这是包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集;是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集。相比Google开源的Open X-Embodiment数据集,AgiBot World长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工业级标准。AgiBot World数据集中涵盖的场景具备多样化和多元化特点,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等复杂动作,几乎涵盖了人类日常生活所需的绝大多数场景,该数据集的数据精度和涵盖面处于业内领先地位。

2025年3月智元启元大模型GO-1正式发布,提出ViLLA创新性架构。2025年3月10日,智元机器人正式发布其首个通用具身基座大模型——智元启元大模型(Genie Operator-1,简称GO-1)。为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了Vision-Language-Latent-Action (ViLLA) 这一创新性架构,GO-1即基于ViLLA构建。与Vision-Language-Action (VLA) 架构相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟,在真实世界的灵巧操作和长时任务方面表现卓越。

ViLLA架构由VLM(多模态大模型) + MoE(混合专家)组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。

在推理时,VLM、Latent Planner和Action Expert三者协同工作:①VLM采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;②Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;③Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。

GO-1大模型将显著提高机器人的学习能力。GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

GO-1大模型的特点主要包括:

①人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。

②小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

③一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。

④持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

GO-1大模型的推出,标志着具身智能向通用化、开放化、智能化方向快速迈进。①从单一任务到多种任务:机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练;②从封闭环境到开放世界:机器人不再局限于实验室,而是可以适应多变的真实世界环境;③从预设程序到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,而不再局限于预设程序。

GO-1大模型将提高机器人的学习能力,加速具身智能的普及。GO-1是通用具身基座大模型,不局限于机器人的具体型号、适用场景、预设指令,具备较好的泛化能力。机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,加速具身智能的落地应用。

三、发布灵犀X2机器人,运动控制、交互能力表现亮眼

2025年3月11日,智元机器人在全网多个平台发布视频,推出灵犀X2机器人。

灵犀X2模块化设计能力突出。智元把机器人的硬件系统抽象出了一系列可复用的核心组件,小脑控制器Xyber-Edge、域控制器Xyber-DCU、智能电源管理系统Xyber-BMS,以及核心关节模组PowerFlow,通过这些组件可以快速搭建一套完整的人形机器人系统,模块化设计能力突出。灵犀X2机体选择柔性材料,原型机全身28个自由度中,没有使用并联结构,既能够保证惯量上移,又实现了传动链的完全解耦。

运控算法持续突破,灵犀X2可完成骑自行车等复杂动作。当前足式机器人的运动控制已经全面从传统的model-based转向learning驱动的强化学习,智元通过结合深度强化学习和模仿学习算法的优势,使得X2不仅可以像人一样走路,还可以奔跑、旋转、跳舞,甚至实现骑自行车等复杂动作,运动控制效果优异。

灵犀X2可实现复杂的交互能力,拥有毫秒级的交互反应。借助目前大语言模型技术,智元为X2训练定制了多模态交互大模型硅光动语,在此基础上,通过边缘侧大脑端到端的模型架构以及大量的工程优化,让机器人拥有了毫秒级的交互反应,视频中灵犀X2可以和人类流畅交流、自然互动。同时,除了耳朵和嘴巴,基于VLM的硅光动语多模态模型,也赋予了X2通过视觉理解和认知世界的能力。

智元将操作智能的能力迁移到了X2。灵犀X2本体支持很好的柔性阻抗控制,可以装配包括灵巧手在内的各种末端,也具备精细操作的能力。此外,启元大模型使得X2初步具备了简单任务中对操作物体的零样本泛化能力,并可以在某些任务中实现多机协作。

智元对于灵犀X2的定位是支持高自由度运动能力的双足人形机器人、搭载情感计算引擎的智能交互机器人,以及初步具备通用任务执行能力的具身机器人,未来有望在家庭服务等多个场景得到应用。

四、人形机器人产业链梳理

智元发布通用具身基座模型——智元启元大模型(Genie Operator-1),开创性提出了ViLLA架构,实现了可以利用人类视频学习,完成小样本快速泛化,提升了机器人学习能力,降低了具身智能门槛,有望加速具身智能的普及。同时,公司灵犀X2机器人在运动控制、交互能力方面表现优异,也让我们看到了人形机器人主机厂在软硬件方面的快速进步,将不断打开人形机器人应用场景的想象空间。

随着国内外人形机器人厂商2025年分别逐步启动几千台或者万台的量产计划,2026年预期分别数万台或者10万台的量产计划,我们建议核心关注具备零部件低价批量供应能力的企业,以及具备技术或者产业链卡位优势的企业。

(1)AI发展放缓风险:无论是具身智能还是其中人形机器人的商业化落地进展,都依赖AI的持续发展完善,如果AI发展放缓甚至出现停滞,那么将影响具身智能与人形机器人的产业化进程。

(2)宏观经济波动风险:宏观经济如果出现重大下行,会影响具身智能与人形机器人产品的需求,影响社会创新热情。

(3)数据安全风险:无论是具身智能还是人形机器人,与物理世界的交互都会涉及到大量的数据及处理,可能会出现数据、知识产权风险。

吕娟:董事总经理,研委会副主任,上海区域总监,高端制造组组长,机械行业首席分析师。复旦大学经济学硕士,法国 EDHEC 商学院金融工程交换生,河海大学机械工程及自动化学士,2007.07-2016.12 曾就职于国泰君安证券研究所任机械首席分析师, 2017.01-2019.07 曾就职于方正证券研究所任董事总经理、副所长、机械首席分析师。曾获新财富、金牛、 IAMAC、水晶球、第一财经、 WIND 最佳分析师第一名。2021年新财富最佳分析师机械行业第二名。

籍星博:中信建投证券机械行业分析师。同济大学管理学硕士、工学学士。2022年入职中信建投证券,专注于船舶港机、光伏设备、检测服务等领域的研究。

来源:点滴财学

相关推荐