比美国Figure AI更进一步!“稚晖君”团队抛出最新具身基座大模型GO-1,提出ViLLA架构

360影视 动漫周边 2025-03-10 18:41 3

摘要:论文显示,该模型开创性地提出了一个Vision-Language-Latent-Action (ViLLA) 架构,由VLM(多模态大模型) + MoE(混合专家)组成,可以利用人类视频学习,完成小样本快速泛化,在现实世界的灵巧操作和长时域任务中展现出了卓越能

大数据文摘受权转载自头部科技

文丨谭梓馨

具身智能赛道正在迎来新一轮技术变革,不仅仅是人形机器人硬件技术和控制算法框架越来越成熟,也来源于机器人底座大模型的不断刷新。

今天,“稚晖君”的智元机器人团队抛出一个重磅研究:通用具身基座大模型 Genie Operator-1(GO-1)。

论文显示,该模型开创性地提出了一个Vision-Language-Latent-Action (ViLLA) 架构,由VLM(多模态大模型) + MoE(混合专家)组成,可以利用人类视频学习,完成小样本快速泛化,在现实世界的灵巧操作和长时域任务中展现出了卓越能力。

数周前,美国明星人形机器人公司Figure AI曾推出一个专为人形机器人打造的通用“视觉-语言-动作” (VLA) 基座模型Helix引发行业广泛关注,它能将感知、语言理解和学习控制统一起来,展示效果十分惊人。

与Figure AI的Vision-Language-Action (VLA) 架构相比,智元的ViLLA架构进行了扩展升级,成为继其2024年底推出AgiBot World开源数据集后的又一次技术大动作。

01 “VLA架构”升级版

在论文中,与GO-1同步推出的还有AgiBot World Colosseo,这是一个全栈式的开源大规模机器人学习平台,涵盖了数据、模型、基准测试以及生态系统,合作方包括上海人工智能实验室和上海创智学院等。

他们部署了100台双臂人形机器人AgiBot G1,用于采集多模态移动操作演示数据,还配有专业的远程操作员以及检测环验证机制来确保数据质量。

据了解,GO-1是一种新颖的通用策略,它能利用潜在动作表征来最大化数据利用率,展现出随着数据量增加,性能可预测地提升的特点,与在Open X-Embodiment上训练的策略相比,平均性能提升了30%,在复杂任务上实现了超过60%的成功率,比先前的RDT方法高出32%。

操作能力是机器人的一项基本功,它使机器人能够与物理世界进行交互并适应物理世界,在受控的实验室环境中,机器人的操作能力和适应能力已经得到了很大改进,但对于现实世界开放的场景而言,从对物体的精细操作、移动操作到协作任务等一系列任务,仍然是一个巨大的挑战,机器人在不同环境和场景中进行能力泛化仍然不足。

ViLLA架构比VLA架构改进体现在哪里?智元官方表示,ViLLA通过预测Latent Action Tokens(隐式动作标记),能够有效磨合图像-文本输入与机器人执行动作之间的转化。

具体而言,ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。

三者合力能让机器人的推理和操作能力得到大幅改善:

VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;

Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;

Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列;

智元团队将GO-1与之前的通用策略RDT-1B以及不含潜在规划器的基线模型进行评估对比,所有策略均在AgiBot World测试版数据集上进行了预训练,在所有任务和对比中,GO-1在很大程度上优于基线模型,提高了策略的泛化能力。

机器人想要具备现实物理操作上的灵活性,就需要在不同的环境和场景中进行泛化,而限制这样泛化能力的原因,被广泛认为是缺乏高质量的数据。

基于AgiBot World数据集的训练也正在突破这样的问题,智元展示了在该数据集上预训练的策略,无论是在已知场景(得分0.77对比0.47)还是分布外场景(得分0.67对比0.38),表现都优于在 Open X-Embodiment(OXE)数据集上训练的策略。

02 智商和动作同步“开窍”

无论是Figure AI的Helix模型,还是智元机器人的GO-1,都在揭开一个新趋势:离我们想要的那种具备较强自主操作水平、自适应能力的机器人已经不远了。

随着机器人的大脑智商和泛化能力增强,在不同场景中执行多种任务,将逐渐不再需要针对每个新任务都重新进行训练,此外,在如今AI大语言模型的加持下,机器人能够更好提取理解自然语言指令,并拆分语义指令进行组合动作推理,而不再局限于预设程序或人工操控。

智元机器人展示了几个应用场景,比如在家庭场景下,一句话让机器人倒水、做面包片早餐,完事儿还能帮你收拾起来。

虽然从演示来看,机器人操作的动作速度并不快,但能把从听见用户说话到一系列动作完成,行云流水的操作已经算是“开窍”了,想必以后会越来越快具备效率,直至能媲美人的反应和动手能力。

不仅如此,机器人还会使用咖啡机,如果出现动作错误后,能通过数据回流,进一步分析进行动作纠正,来实现任务流程完成。

此外,能力可泛化的机器人还以做迎宾接待,如在办工场景下,进行人员接待,发发胸牌、指引访客、送送茶水果盘递给用户等,机器人实用性正在得到进一步改善,而不只是一个笨拙的摆设。

不过,智元机器人此次展示的最新视频都是单个机器人的操作能力,并未太多体现不同机器人之间对用户指令的协同能力,而且产品也不是完全的人形机器人形态。

从技术框架上看,ViLLA架构比VLA架构更具优势,但从演示效果上讲,智元比起Figure AI当时推出Helix模型时的演示,还是少了点“科幻感”和“未来感”,啥时候能使用完全体的人形机器人进行操作演示非常令人期待。

03 中国机器人持续领跑

中国机器人厂商虽然很多是后起之秀,但在世界范围内的影响力正与日俱增。

以智元机器人、宇树科技等为代表的中国机器人厂商,在软硬件技术、底层模型框架方面的创新进展形成了鲜明的竞争优势,正在赶超美国Figure AI、波士顿动力等明星公司。

相关数据报告显示,中国机器人厂商在技术研发上投入巨大,取得了众多成果,这成为逐渐得到世界认可的核心原因,截至2024年7月,我国持有的机器人相关有效专利超过19万项,占全球比重约2/3,此外,中国商用服务机器人厂商在全球市场份额占比超60%,都这让中国在全球机器人行业逐渐拥有更多话语权。

随着技术框架的不断升级,机器人在日常生活、工作场景下的自适应能力和实用性有望变得越来越强,都为机器人的大规模商业化落地铺平了道路,尤其是被广泛看好的具身智能人形机器人。

根据机构Market Research Future的预测,2024年全球机器人市场规模达到740亿美元,并预计未来复合年增长率 (CAGR) 为18.4%,至2032年预计达到2860亿美元,随着最新的AI模型技术迭代加持和市场教育的完成,已经到了一轮爆发式增长的窗口期。

2025年被广泛认为是人形机器人的量产元年,我们将能看到更多中国机器人公司展现出领跑姿态。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

来源:大数据文摘

相关推荐