摘要:2025年3月18日,英伟达2025年GTC大会上,英伟达正式推出人形机器人开源基石大模型GR00T N1,并发表名为GR00T N1: An Open Foundation Model for Generalist Humanoid Robots。详细介绍了
2025年3月18日,英伟达2025年GTC大会上,英伟达正式推出人形机器人开源基石大模型GR00T N1,并发表名为GR00T N1: An Open Foundation Model for Generalist Humanoid Robots。详细介绍了GR00T N1的架构和训练过程。
图片来源:英伟达
机器人基准模型训练与LLM训练对比
图片来源:英伟达
GR00T N1整体架构
图片来源:英伟达
GR00T N1是典型的快慢双系统,慢系统即VLM,也就是系统2。快系统是扩散transformer即系统1。
图片来源:英伟达
上图是英伟达GTC2025大会An Introduction to Building Humanoid Robots演讲截图,快慢双系统就像人的大脑和小脑,大脑负责高维认知、推理和行为规划,是经过深思熟虑的,是有意识的,是主动选择。小脑负责具体低维运动,从传感器到电机的闭环控制,无意识,近似于本能。
VLM部分是英伟达自己开发的Eagle 2,注意北大和渥太华大学合作有一个名字完全相同的LLM模型Eagle 2,别混淆了,英伟达的Eagle 2详细情况可以看论文Eagle 2: Building Post-Training Data Strategies from Scratch for Frontier Vision-Language Models。
英伟达Eagle 2训练3阶段
图片来源:英伟达
Eagle 2有90亿/20亿/10亿参数三个版本,分别基于阿里的Qwen2.5 320亿/15亿/5亿,对于15亿和5亿,只用了SigLIP做视觉编码。GR00T N1默认使用的20亿参数版本。为了运行这个20亿参数版本的VLM,英伟达使用了价格略低的专业L40显卡,L40显卡的FP16稠密算力是181.05TOPS,稀疏算力362TOPS,显存为48GB的GDDR6,存储带宽864GB/s,最大功耗300瓦,目前售价大约47000元人民币,VLM的运行频率为10Hz,如果是英伟达的Jetson Thor,运行频率恐怕不到3Hz。
GR00T N1的系统1架构
图片来源:英伟达
为了对应各种类型的具身智能,系统1使用了DiT架构,将机器人状态和动作编码输入,隐式嵌入Eagle-2 VLM,VLM的输出token输入DiT做交叉注意力计算。
DiT架构
图片来源:论文《Scalable Diffusion Models with Transformers》
这原本是一种文本生成视频或图片的技术,被英伟达拿来改造后用于机器人领域。扩散模型是借鉴了物理学上的热扩散过程,在生成模型上,分为正向和逆向的过程。正向过程是向信号中逐渐每步加少量噪声,当步数足够大时可以认为信号符合一个高斯分布。所以逆向过程就是从随机噪声出发逐渐的去噪,最终还原成原有的信号。文本生成视频就是逆向,将文本视为要生成的视频随机噪音,DiT与Stable Diffusion最大的不同在于,DiT将网络结构从Unet转换成了Transformers,从而大幅提升了性能。英伟达将这个“视频”替换为机器人的动作action。用机器人状态、环境信息和指令视为随机噪音。
图片来源:论文π0: A Vision-Language-Action Flow Model for General Robot Control
英伟达GR00T N1架构实际和上图很接近,这是一家名为物理智能的机器人公司的论文,由VLM骨干组成,图像编码器将机器人的图像观测嵌入到与语言标记相同的嵌入空间。进一步增强了骨干结构,包括机器人特定的输入和输出(本体感受状态和机器人动作),并使用条件流匹配来建模动作的连续分布。独特的改进:包括为机器人特定的标记添加额外的输入和输出投影,一个用于合并流匹配时间步信息的额外多层感知机(MLP),以及为动作专家设置第二组较小的权重。采用块因果注意力掩码,分为三个块,每个块内有完全双向注意力,但块之间有约束。动作专家实现为具有两组权重的单个transformer,不同的输入被路由到不同的权重组。简单讲就是一个VLM的模型后面加一个flow match的action expert 做DiT结构,直接输出action chunk。机器人动作分布有限,因此这个动作专家模块参数很少,物理智能的模型里,参数仅为3亿,可以做快系统,估计英伟达的DiT模块参数会进一步压缩到1亿左右,这样英伟达快系统可以达到120Hz的速度。
英伟达GR00T项目流程
图片来源:英伟达
英伟达的架构没有太多创新之处,GR00T的关键也不是架构本身,而是训练数据以及英伟达强大的生态体系。GR00T-N1的20亿参数版本训练时间大约是5万H100小时,使用1024张H100显卡,90亿参数则是25万H100小时以上,训练成本是很低的,数据的成本至少是训练成本的一百倍。
英伟达GTC2025大会An Introduction to Building Humanoid Robots演讲截图,数据分真实世界、合成数据和网络数据三大类。
英伟达训练数据集
图片来源:英伟达
网络数据被归为Human Video Datasets。
图片来源:英伟达
英伟达GR00T-N1真实数据集搜集使用遥控或VR设备由人工完成,有88小时。
图片来源:英伟达
真实数据集是隐性学习,也就是无标注。
真实数据有三大类,第一类是英伟达内部采集的,动作频率为20Hz,第二类是大名鼎鼎的Open X-Embodiment Collaboration,这个机器人数据集是谁也绕不开的,包括了RT-1、Bridge-v2 、Language Table 、DROID 、MUTEX 、RoboSet、Plex 。第三类是英伟达内部搜集的100个机器人的14万轨迹路径,名为AgiBot-Alpha。
英伟达AGIBOT开源数据集简介
图片来源:英伟达
英伟达AgiBot数据集与其他数据集对比
图片来源:英伟达
英伟达为合成数据开发了DexMimicGen系统
图片来源:英伟达
DexMimicGen工作流
图片来源:英伟达
为训练GR00T-N1,英伟达制造了54万个demonstrations。
生成视频实例
图片来源:英伟达
共有827小时生成视频,共动用了3600个L40显卡,花费1.5天。除了生成视频,还有仿真动作轨迹生成,英伟达总共生成了78万仿真轨迹,等效于6500小时即9个月。
为了打造逼真的机器人工作环境,英伟达特别开发了一个仿真物理环境,即RoboCasa,详细可以看论文RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots,开发了一个包含120个真实场景、数千个交互对象和家具电器的仿真环境,利用生成式AI工具生成了环境纹理和3D对象。引入了100个系统化评估任务,包括25个原子任务和75个由大语言模型引导生成的复合任务。提供了一个包含10万+轨迹的大规模多任务数据集用于模型训练,展示了用合成数据做行为克隆训练的性能提升,以及仿真数据在真实世界任务中的应用价值。其创新点主要在于利用生成式AI工具扩充仿真环境的多样性,用大语言模型引导生成任务,并提供了目前最大规模的机器人操作数据集。RoboCasa基于RoboSuite进行开发,提供了包括120个厨房场景、数千个高质量3D物体模型(涵盖153+类别)的仿真环境。利用Midjourney等工具生成了环境纹理,用Luma.AI等生成3D物体模型,极大丰富了仿真环境的多样性。模拟了灶台、微波炉、水槽等可交互家电。家电可以打开关闭,状态可以发生变化(如打开炉灶会加热)。提供2500+高质量3D物体模型,涵盖蔬菜、禽肉、饮料等150+类别。
图片来源:英伟达
75个复合任务:由GPT-4、Gemini等大语言模型引导生成,涵盖20个高层厨房活动如烹饪、清洗、整理等。每个活动有多个对应的具体任务。
图片来源:英伟达
网络数据集即Human Egocentric Video Dataset,用VLM做自动标注。
英伟达为具身智能提供了一个完整的基础大模型,且完全开源,英伟达在数据方面拥有压倒性的绝对优势,具身智能厂家完全不必自己开发VLA大模型,英伟达已经替你完成了,而用户一旦选择了这个大模型,英伟达的软件工具和硬件都是捆绑的,英伟达不仅垄断高端无人驾驶,也要垄断具身智能的软硬件。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。
来源:佐思汽车研究