清华团队CoRL 2024摘得最佳论文奖,机器人模仿学习新突破!

360影视 2025-01-29 13:54 2

摘要:在近日闭幕的2024年度全球机器人学习顶级盛会CoRL(Conference on Robot Learning)上,来自中国清华大学的高阳教授团队凭借出色研究成果,在X-Embodiment Workshop中荣获最佳论文奖。该奖项不仅彰显了团队在机器人模仿

在近日闭幕的2024年度全球机器人学习顶级盛会CoRL(Conference on Robot Learning)上,来自中国清华大学的高阳教授团队凭借出色研究成果,在X-Embodiment Workshop中荣获最佳论文奖。该奖项不仅彰显了团队在机器人模仿学习领域的卓越贡献,也标志着中国学者在全球机器人技术前沿探索中的显著地位。

CoRL会议作为机器人学习领域的顶尖交流平台,每年都会吸引来自世界各地顶尖学府的最新研究成果。此次获奖的论文《Data Scaling Laws in Imitation Learning for Robotic Manipulation》,由高阳教授及其学生林凡淇、胡英东、盛平岳、Chuan Wen、游嘉诚共同完成。论文聚焦于模仿学习中数据规模定律的应用,特别是在实现零样本泛化方面的潜力。

研究过程中,团队通过精心设计的实验方案,收集了超过4万次人类演示数据,并在超过1.5万次机器人实际操作中进行了验证。实验发现,策略的泛化能力关键在于环境和对象的多样性,而非演示数量的简单累积。基于这一发现,团队创新性地提出了一种高效数据收集策略,仅需四位采集者花费一下午时间,即可获取足够数据,使机器人在新环境和新对象上的任务成功率接近90%。

为了进一步验证模型的泛化能力,研究团队将机器人部署在多种野外环境中,包括火锅店、咖啡馆、电梯、喷泉等,这些环境在数据收集阶段均未涉及。结果显示,模型在这些全新环境中表现出色,泛化能力远超预期。

论文详细阐述了实验设计过程,团队使用手持夹持器(UMI)在不同环境中收集人类演示数据,并采用扩散策略(Diffusion Policy)对数据进行建模。实验任务包括倒水、鼠标移动、叠毛巾和拔掉充电器等,通过改变训练环境数量、物体数量和演示数量,深入研究了策略泛化性能的变化规律。

研究结果显示,策略的泛化能力与训练物体数量、环境数量和训练环境-物体对数关系密切,符合幂律分布。随着训练物体和环境数量的增加,策略在未见过的物体和环境上的表现显著提高。这一发现为机器人模仿学习领域提供了新的理论支撑和实践指导。

获奖团队成员林凡淇和胡英东均为清华大学交叉信息研究院(IIIS)的博士生,他们的研究重点聚焦于具身智能领域,致力于通过大规模数据实现机器人的人类水平操作能力。盛平岳是IIIS姚班的本科生,对机器人技术、模仿学习和算法有着浓厚兴趣。Chuan Wen同为IIIS博士生,与宾夕法尼亚大学GRASP实验室保持密切合作,目前在伯克利人工智能研究(BAIR)担任访问学者。游嘉诚则是IIIS的一年级博士生。

高阳教授作为团队指导老师,现任上海期智研究院PI及清华大学交叉信息研究院助理教授,专注于强化学习与机器人领域的研究。他领导的具身视觉与机器人实验室(EVAR Lab)致力于利用人工智能技术赋能机器人,打造通用的具身智能框架。

CoRL 2024会议还宣布了其他最佳论文获奖名单,包括Kuo-Hao Zeng等人的《PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators》和Franck Djeumou等人的《One Model to Drift Them All》。这些研究同样在机器人学习领域取得了重要突破,为未来的技术发展提供了宝贵借鉴。

来源:ITBear科技资讯

相关推荐