摘要:如今,机械臂被广泛应用于装配、包装、检测等众多领域。然而,它们仍需预先编程才能执行特定且往往是重复性的任务。为了满足在大多数环境中对适应性日益增长的需求,需要具备感知能力的机械臂,以便根据实时数据做出决策并调整行为。这不仅能让机械臂在协作环境中执行各类任务时更
如今,机械臂被广泛应用于装配、包装、检测等众多领域。然而,它们仍需预先编程才能执行特定且往往是重复性的任务。为了满足在大多数环境中对适应性日益增长的需求,需要具备感知能力的机械臂,以便根据实时数据做出决策并调整行为。这不仅能让机械臂在协作环境中执行各类任务时更加灵活,还能通过对危险的感知来提升安全性。
本期的“NVIDIA 机器人研究与开发摘要 (R²D²) ”探讨了 NVIDIA 研究中心和机器人灵巧操作、物体操控和抓取有关的工作流以及 AI 模型(相关成果如下文),以及它们如何应对机器人面临的关键挑战,如适应性和数据稀缺问题:
DextrAH-RGB:一种基于立体 RGB 输入实现灵巧抓取的工作流。DexMimicGen:一种利用模仿学习 (IL) 进行双手灵巧操控的数据生成流程,在 2025 年 IEEE 国际机器人与自动化会议 (ICRA) 上展示。GraspGen:一个包含超过 5700 万个针对不同机器人和夹具的抓取数据的合成数据集。什么是灵巧机器人?
灵巧机器人能够精确、灵活且高效地操控物体。机器人的灵巧性涉及精细的运动控制、协调能力,以及在非结构化环境中处理各种任务的能力。机器人灵巧性的关键方面包括抓握、操控、触觉敏感度、敏捷性和协调性。
机器人的灵巧性在制造业、医疗健康和物流等行业中至关重要,它使那些传统上需要人类精准操作的任务实现自动化成为可能。
NVIDIA 的机器人灵巧操作
工作流及模型
灵巧抓取是机器人技术中的一项具有挑战性的任务,要求机器人能够精确且快速地操控各种各样的物体。传统方法在处理反光物体时往往存在困难,并且难以很好地推广应用到新的物体或动态环境中。
NVIDIA 研究中心通过开发端到端的基础模型和工作流来应对这些挑战,这些模型和工作流能够让机器人在不同物体和环境中实现稳定可靠的操控。
用于灵巧抓取的 DextrAH-RGB
DextrAH-RGB 是一种基于立体 RGB 输入,实现机械臂手部灵巧抓取的工作流。利用这一工作流,相关策略完全在仿真环境中进行训练,并且在实际部署时能够应用于各种新的物体。DextrAH-RGB 借助 NVIDIA Isaac Lab,在仿真环境中针对不同物体进行了大规模训练。
训练过程分为两个阶段。首先,运用强化学习 (RL) 在仿真环境中训练一个教师策略。教师策略是一种特殊的织物引导策略 (FGP),它在几何织物动作空间内发挥作用。几何织物是一种矢量化的底层控制方式,将运动转化为关节位置、速度和加速度信号,并以命令的形式传输给机器人的控制器。通过嵌入避障和目标达成行为,这种方式在部署时确保了安全性和响应速度,从而实现快速迭代。
教师策略有一个长短期记忆 (LSTM) 层,能够对现实世界的物理特性进行推理和适应。这有助于融入诸如重新抓取和理解抓取成功与否等纠正行为,以应对当前的动态情况。训练的第一阶段通过利用领域随机化来确保策略稳定健性和适应性。在训练教师策略时,会改变物理、视觉和干扰参数,逐步增加环境的难度。
在训练的第二阶段,使用逼真的平铺渲染技术,将教师策略提炼为仿真环境中基于 RGB 的学生策略。这一步使用了一个名为 DAgger 的模仿学习框架。学生策略通过立体相机接收 RGB 图像,从而能够间接地推断出物体的深度和位置。
图 1. DextrAH-RGB 训练流程
波士顿动力 Atlas MTS 机器人
实现从仿真到现实的应用
NVIDIA 与波士顿动力合作,对 DextrAH-RGB 进行训练和部署。图 2 和视频 2 展示了一个由通用策略驱动的机器人系统,该系统在 Atlas 机器人的上半身成功部署了强大的、具备零样本从仿真到现实抓取能力的策略。
图 2. 使用 Isaac Lab 大规模训练 Atlas 机器人的教师策略
该系统展示了由 Atlas 机器人的三指夹具驱动的多种抓取方式,这些夹具能够抓取轻物和重物,并显示出逐渐形成的故障检测和重试行为。
用于双手操控数据生成的
DexMimicGen
DexMimicGen 是一种用于双手操控数据生成的工作流,它使用少量的人类演示来生成大规模的轨迹数据集。其目的是通过让机器人在仿真环境中学习动作(这些动作可以迁移到现实世界中),来减少手动数据收集这一繁琐的任务。这个工作流解决了人形机器人在双手灵巧操作的模仿学习中数据稀缺的挑战。
DexMimicGen 使用基于仿真的增强技术来生成数据集。首先,人类演示者使用远程操作设备收集少量演示数据。然后,DexMimicGen 在仿真环境中生成大量的演示轨迹数据集。例如,在最初发布时,借助 DexMimicGen,研究人员仅从 60 个人类演示中就生成了 21000 个演示数据。最后,使用模仿学习在生成的数据集上训练一个策略,以执行操控任务,并将其部署到真实的机器人上。
图 3. DexMimicGen 工作流
双手操控具有挑战性,因为在不同任务中需要两只手臂之间进行精确的协调。比如两只手分别抓取不同物体这样的并行任务,需要独立的控制策略。再比如抬起一个大物体这样的协调任务,需要两只手臂同步动作和时间。顺序任务则要求子任务按照一定的顺序完成,比如用一只手移动一个盒子,然后用另一只手把一个物体放进去。
DexMimicGen 在数据生成过程中考虑到了这些不同的要求,采用了一种 “并行、协调和顺序” 的子任务分类法。对于独立的手臂子任务,使用异步执行策略;对于协调任务,使用同步机制;对于顺序子任务,使用顺序约束。这种方法确保了在数据生成过程中精确的对齐和逻辑的任务执行。
图 4. 使用基于 DexMimicGen 生成的
数据训练的模型成功对罐头进行分类
当在真实世界中部署时,借助 DexMimicGen 的“现实—仿真—现实”数据生成流程生成的数据,人形机器人在进行罐头分类任务时,实现了 90% 的成功率。相比之下,仅使用人类演示数据进行训练时,模型的成功率为 0%。这些结果充分表明,DexMimicGen 在减少人力投入的同时,能够让机器人更有效地学习复杂的操控任务。
适用于多种机器人和夹具的
GraspGen 数据集
为了支持相关研究,GraspGen 在 Hugging Face 平台上提供了一个全新的仿真数据集,其中包含针对三种不同夹具的 5700 万个抓取数据。该数据集涵盖了不同物体网格的 6D 夹具变换数据以及抓取成功的标签。
图 5. 数据集中一系列不同物体的建议抓取方式
这三种夹具分别是 Franka Panda 夹具、Robotiq 2F-140 工业夹具和单触点吸盘夹具。GraspGen 数据集完全是在仿真环境中生成的,展示了自动数据生成在扩大数据集规模和多样性方面的优势。
图 6. GraspGen 仿真数据集中三种夹具的坐标系约定:Robotiq 2F-140 夹具(左)、单触点吸盘夹具(中)和 Franka Panda 夹具(右)
总结
为了满足在大多数环境中对适应性日益增长的需求,需要机械臂能够根据实时数据做出决策并调整行为。本文探讨了几种机器人灵巧操作、操控和抓取工作流以及 AI 模型,以及它们如何应对机器人面临的关键挑战,如适应性和数据稀缺问题。
想要了解更多信息,请探索以下资源:
DextrAH-RGB
项目网站:DextrAH-RGB:使用灵巧手抓取任何物体的视觉运动策略 (DextrAH-RGB: Visuomotor Policies to Grasp Anything with Dexterous Hands):DexMimicGen
项目网站:DexMimicGen:通过模仿学习实现双手灵巧操控的自动化数据生成 (DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning):NVlabs/dexmimicgen GitHub 代码库:Hugging Face 数据集:这篇文章是“NVIDIA 机器人研究与开发摘要 (R²D²) ”的一部分,旨在让开发者更深入地了解 NVIDIA 研究中心在物理 AI 和机器人应用方面的最新突破。
来源:NVIDIA英伟达中国