摘要:3月10日,智元机器人正式发布首个通用具身基座模型——智元启元大模型GO-1。紧接着,3月11日,1.3米高的灵犀机器人X2就在视频中展示了骑自行车、滑滑板车、穿针引线、烤面包等各种能力,“爱玩梗的”稚晖君(原名彭志辉,智元机器人联合创始人)将机器人的能力——
智元将具身智能的AI研发作为公司的战略级投入,因为他们确信,未来AI能力一定是区分整个机器人产品竞争力的核心环节。
文|钱丽娜
3月10日,智元机器人正式发布首个通用具身基座模型——智元启元大模型GO-1。紧接着,3月11日,1.3米高的灵犀机器人X2就在视频中展示了骑自行车、滑滑板车、穿针引线、烤面包等各种能力,“爱玩梗的”稚晖君(原名彭志辉,智元机器人联合创始人)将机器人的能力——保安、保姆和保洁称为“吉祥三保”,其中标配的基础能力还有情感陪伴。
在视频对话中,当被问道:“如果你和我的狗同时掉水里,你希望我先救谁?”灵犀X2说:“先救你的狗吧,它需要帮助,我没事。”
01
具身数据集开源了
智元机器人成立于2023年2月,稚晖君是智元机器人联合创始人。截至目前,公司发布了多款硬件本体。2024年12月,智元开启通用机器人商用量产,有人调侃“机器人自己生产自己”的时代要来了。
2024年12月,智元发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集AgiBot World,从而在2024年完成了三大开源承诺:AimRT、灵犀X1以及具身数据集。
智元具身研究中心常务主任任广辉回顾了在基座模型方面的研究成果。智元建造了全球首个数采超级工厂,2024年9月投入运营后,12月就向全球开源了百万真机数据集AgiBot World。该数据集在Hugging Face上连续多周下载榜排名第一。在开源数据集之后,智元又发布了首个机器人4D 世界模型,比3D空间多了一个时间维度,给机器人在3D空间操作提供更多的帮助。
智元启元大模型GO-1开创性地提出了Vision-Language-Latent-Action (ViLLA)架构,该架构由VLM(多模态大模型)+ MoE(混合专家)组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了借助人类视频学习,小样本快速泛化,降低具身智能门槛的目标,并成功部署到智元多款机器人本体。
02
具身模型的挑战和机遇
任广辉说,具身模型在落地上有四大挑战。
挑战一,具身模型的泛化性较差,到新场景时成功率大幅下降;挑战二,扩展新任务时需要大量数据,落地成本高;挑战三,不同本体的数据无法共用,数据成本高;挑战四,如果没有像自动驾驶那样完整的数据回流系统,模型无法持续进化。
任广辉举例说,人类学习技能有三种方式:从图文学习基础课,通过观看别人比赛进行模拟,以及教练一对一教授。越往金字塔尖走,数据越稀缺,成本也越高。
智元机器人也分析了市场现有的具身模型,各自都有不同的局限。
第一种是DP/ACT等具身小模型,无法利用到大规模图文、操作视频数据,无法构建通用的场景感知、指令理解、动作理解等能力。技能单一且无法快速学习新技能,物体、场景泛化性较差,所以这也是很多小模型没能走到公众面前的原因。
第二种是包括谷歌等海内外机构发布的VLA/RDT等以VLM为基础构建的具身大模型,这些以多模态大模型为基础构建的模型,好处是利用了互联网图文数据,有了场景感知和指令理解,但无法利用大规模跨本体/人类操作视频数据,无法构建通用的动作理解能力,动作泛化受限。
第三种是GR-1/2等以视频生成为基础构建的具身大模型,无法通过VLM利用到大规模图文数据,无法构建通用的场景感知、指令理解等能力,语义指令泛化受限。小样本泛化到新场景/新任务能力较弱。
智元团队针对以上模型的局限性,提出了ViLLA架构,这也是GO-1整个模型的核心架构。结合视觉、语言、人类操作视频以及真机示教数据,这一架构把整个数据金塔中所有数据量都用起来,构建一个完整、通用的场景理解、指令理解、动作理解,具有精细的动作、操作能力。
任广辉介绍,GO-1具备四大优势:第一,建立了人类视频学习能力,结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,便于机器人更好地理解人类的行为;第二,小样本快速泛化。在极少数据,甚至零数据下将机器人放到一个全新的任务场景中,可以降低训练成本和使用门槛;第三,一脑多形。GO-1是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体;第四,持续进化。GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。智元建立了软件、硬件、算法到数据回流的完备工作链条,通过小步迭代解决问题。
GO-1的发布,标志着具身智能向通用化、开放化和智能化迈进,即从单一任务到多任务。机器人可以在不同场景中执行多种任务,而不需要针对每个新任务重新训练。它让机器人从封闭环境走向开放多变的世界,从预设程序到指令泛化,理解自然语言指令,并根据语义进行组合推理,加速具身智能的普及。
任广辉说,以GO-1中的小样本泛化为例,在没有基础模型的情况下,倒水场景可能需要1万~5万条数据,有了基础模型,只需采集1000条左右的数据。把采集成本降低一至两个数量级。“数据是模型的燃料。如果你的燃料本身质量不高,或者是量不够,那你的模型是无从进步的。”
03
AI是机器人产品竞争力的核心
智元的AgiBot World数据集目前在Github上下载量超过2万次。在发布后的最初两周,一直处于榜首位置。
任广辉说:“用户反馈表明,目前这个数据集是行业内唯一一个可以接触到的高质量大规模数据集。我们有专业审核员进行工业级的质量把控。有用户提出,打算在一些数据上进行合作,为科研或应用场景提供一些数据。”
智元正在努力打破国外公司对中国人形机器人公司的刻板印象,即中国公司可以把硬件做好,但是在智能技术方面难有显著进展。任广辉说:“AI能力一定是区分整个机器人产品竞争力的核心环节。”
如今的新能源车和智能手机领域,硬件中有类似的方案在逐渐收敛,供应链出现高度整合,最后各方比拼的是AI能力。为此,智元将具身智能的AI研发作为公司的战略级投入。如今智元已经实现了机器人大规模量产,并利用量产机器人编队去采集百万级高质量数据。采集来的数据被用于自研大模型,并部署到硬件本体上,由此实现了数据采集的闭环和研发迭代,优质的数据为AI研发提供了基石。
04
机器人技术处于早期,开源有利于行业共进
任广辉说,大模型在机器人行业的应用是一个渐进的过程。从一些较为容易的结构化场景入手,再演化到半结构化、半开放的任务和场景中,最终通过在各行各业、各个场景中收集到的海量数据,以及与人类的交互数据,实现通用人工智能在物理世界的应用。智元预计,未来两年,人形机器人会在工业和服务领域得到应用,最终会走进家庭这样的开放式场景。
任广辉提到,DeepSeek的研发思路给了业界很好的示范。DeepSeek需要先模仿学习一个经过SFT 预训练的模型,比如DeepSeek V3模型,才可以进入强化学习阶段,即先构建一个基础通用能力,然后通过高质量的数据,采用强化学习对模型进行后训练。“强化学习需要思维链(COT),思维链是一个说话的过程,没有说话能力时,自己是无法进入 COT的。所以,机器人模型未来也会是结合模仿学习和强化学习两种技术一起来开发,也可以关注我们最终是如何把这两种技术方案有机地融合到机器人策略中的。”
智元在发布智元启元大模型GO-1的同时,也公开了相关论文,并计划不久之后对核心用户进行整体开源,以便用户未来在智元的模型上进行部署。任广辉说:“我们认为机器人的技术还处于早期,没有到技术收敛的阶段。由于行业受制于数据的问题,还无法去进行完整的验证,这也是我们为什么要去主动开源数据的原因。”(本文图片由受访者提供)
来源 | 2025年4月刊
来源:新浪财经