摘要:要知道,由于仿真环境和真实物理世界之间的动力学系统存在偏差,让机器人敏捷、协调地完成各种类人动作仍旧是一个巨大挑战。
明敏 发自 凹非寺
你以为的宇树机器人(H1):
实际上的宇树机器人(G1):轻松来一个帅气的科比投篮。
或者是像罗纳尔多那样华丽旋转跳跃。
英伟达卡内基梅隆大学一起,给宇树机器人“一雪前耻”了(doge)。
只通过一个训练框架,机器人就能成为“学人精”,完成各种高难度敏捷动作。
从这样(下左图)变成这样(下右图)。
△左图演我做运动
要知道,由于仿真环境和真实物理世界之间的动力学系统存在偏差,让机器人敏捷、协调地完成各种类人动作仍旧是一个巨大挑战。
ASAP方法解决的正是这个问题,论文和代码通通开源。
有人感慨,看来机器人时代距我们只有几步之遥。
主创之一Jim Fan也表示:期待2030年“人形”奥运会吧。
简单总结论文核心提出了ASAP(Aligning Simulation and Real Physics,对齐模拟与真实物理)。
这个框架主要分为两个阶段。
第一阶段,使用经过调整的人类运动数据在模拟环境中预训练运动跟踪策略。
第二阶段,将这些策略应用到真实世界,并收集真实数据来训练一个“残差”动作模型,用来弥补模型与真实世界物理动态之间的差距。
然后ASAP将预训练的策略与差异动作模型结合,并在模拟器中进行微调,以便更好地与真实世界物理动态对接。
具体步骤分为四步:
1、运动跟踪预训练与真实轨迹收集:通过将人类视频中的运动数据转换为类人机器人动作,我们在模拟环境中预训练多个运动跟踪策略,并生成真实世界的运动轨迹。
2、差异动作模型训练:基于真实世界的运动数据,我们训练一个“差异动作模型”,通过最小化模拟状态(s_t)和真实世界状态(s^r_t)之间的差距来进行优化。
3、策略微调:我们固定差异动作模型,并将其集成到模拟器中,以调整模拟和真实物理之间的匹配,然后微调之前训练好的运动跟踪策略。
4、真实世界部署:最后,我们将微调过的策略直接应用到现实世界中,不再需要差异动作模型。
研究人员在三个迁移场景中评估了ASAP的效果——
从IsaacGym到IsaacSim、从IsaacGym到Genesis,以及从IsaacGym到真实世界。
使用的机器人是宇树G1人形机器人。
如上是从IsaacGym到IsaacSim,G1踢足球的四种不同动作。值得一提的是,ASAP在多个动作中训练,不会过拟合特定示例。
从IsaacGym到IsaacSim,从IsaacSim到真实世界,ASAP微调前后G1运动跟踪表现如上。
在特定动作(詹姆斯消音步)上,可以看到使用ASAP后,机器人的稳定性更好了。
由此可以看到,G1能够完成横款大跳等有难度的运动动作,在姿态上也和人类更为贴近。
最后来看下研究团队阵容。
18位作者中绝大多数都是华人面孔。
共同一作有四位,分别是何泰然、高嘉伟、Wenli Xiao和Yuanhang Zhang。
其中何泰然本科毕业于上海交通大学,现在是英伟达GEAR的一员,之前还在MSRA实习过。
高嘉伟本科毕业于清华大学,现在还在申请博士。
Wenli Xiao也是英伟达GEAR的一员。Yuanhang Zhang本科毕业于上海交通大学,现在在CMU读研。
虽然动作表现更拟人了,但是宇树机器人还是没逃过跳舞的命运……
请欣赏宇树版APT。
项目地址:
来源:量子位