AI顶会见闻:机器人操控仍是难点,投资人扎堆看具身项目

360影视 国产动漫 2025-05-16 17:19 2

摘要:据搜狐科技统计,在今年ICLR已公布的Workshop中有8个与具身智能相关。新加坡国立大学博士生高同学向搜狐科技表示:“今年会场很大,人非常多,做大模型研究的人和公司都来了非常多人。”据不完全统计,今年参会人数达到8000人以上,创下历史新高。

随着机器人赛道的爆火,具身智能领域的研究也逐渐成为顶尖学术会上热度颇高的话题。

不久前落幕的ICLR 作为深度学习和表征学习的顶级会议 ,其接收的论文及研究成果为机器人学的进步奠定了理论基础与创新方向。

据搜狐科技统计,在今年ICLR已公布的Workshop中有8个与具身智能相关。新加坡国立大学博士生高同学向搜狐科技表示:“今年会场很大,人非常多,做大模型研究的人和公司都来了非常多人。”据不完全统计,今年参会人数达到8000人以上,创下历史新高。

即将到来的ICRA (International Conference on Robotics and Automation)也是机器人和自动化领域最顶级、最负盛名的国际学术会议之一。今年的会议将于5月19日至23日在美国的亚特兰大举行。

据搜狐科技了解,中国科学家的论文数量占比逐年递增,今年国内中科院自动化所、银河通用、星海图、地瓜机器人等公司及机构多篇论文中稿,清华大学智能产业研究院、宇树、乐聚机器人将参展参赛,加速进化创始人程昊也计划赶赴现场。

根据目前已公布的数据,ICRA 2025 共收到 4153 篇论文投稿,最终 1606 篇论文被接收录用,论文接收率约为 38.67%。

ICRA 的内容非常广泛,涵盖了机器人和自动化的各个方面,包括但不限于:机器人系统设计与控制、人机交互与协作、传感器与驱动、机器人应用等等。

机器人落地技术愈发成熟的同时,具身智能已不再只是学术研究者们的狂欢。

已经参加过两届ICLR会议的加州大学圣地亚哥分校的博士生陶子进(Stone Tao)表示:“今年会上特别不一样的地方是VC(Venture Capital 风险投资)特别多,可能大家都想看下有什么新的热点可以投。”

操控依然是难点

机器人操作是具身智能的核心能力之一,使机器人能够通过与环境的物理交互来完成各种任务一直都是研究的热点。

新加坡国立大学高崇凯(Chongkai Gao)向搜狐科技表示:“Manipulation(操纵)可能还需要不知道多少年(技术成熟),这方面有很多方向的研究,最大的热点有人说是VLA,有人说是世界模型,还有人搭建了更好的模拟器等等,这些都是很好的方向。”

另一位受访者陶子进所从事的研究就是高崇凯所提及的模拟器方向。数据问题一直是困扰机器人行业发展的瓶颈。“收集现实世界中的机器人数据需要强大的资源且现有方案效率比较低,因此,模拟器能够受到众多学者的关注。” 陶子进表示。

陶子进所在团队展示的ManiSkill3是一款先进的状态可视化GPU并行机器人模拟器。ManiSkill3 支持许多方面的 GPU 并行化,包括仿真加渲染、异构仿真、点云等。

与其他平台相比,GPU 仿真+渲染占用的GPU内存减少了 2-4 倍,GPU 上的仿真以及 SAPIEN 并行渲染系统的使用,在基准测试环境中实现了高达 30,000 FPS 以上的帧率,从而使可视化强化学习能够在几分钟内完成任务。

基于如何构建高效、泛化性强、可评估的具身智能研究环境还有一些论文同样很有意思,比如Wayne Wu等人提出的MetaUrban仿真平台,他们认为随着机器人技术的不断成熟,公共城市空间不再是人类的专属。

例如,送餐机器人和电动轮椅已经开始与行人共享人行道,机器狗和人形机器人在不久的将来也能出现在街道上。因此,确保用于操控移动机器的人工智能模型的通用性和安全性至关重要。

MetaUrban 是一个可组合的仿真平台,专为城市微出行研究设计。该平台可以通过组合地形布局、路人、交通基础元素等等生成无限多样的城市场景。作者在平台上设置了社交导航任务,并使用不同机器模型如机器人狗、轮椅等进行评测。

结果表明,不同机械结构会显著影响AI策略的学习表现。作者做了详尽的消融实验,表明模拟环境的组合性特征,能够显著提升所训练机器人的泛化能力与安全性。

除了仿真方向,新加坡国立大学的高崇凯等人在《FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model》中,提出了 FLIP,这是一个基于视觉空间模型的世界模型的规划框架,旨在通过仅使用语言和视觉输入,并随着模型和数据预算的增加进行扩展,从而实现通用操作任务。

FLIP能够以图像流作为通用动作表征,跨物体、机器人和任务合成长周期规划,同时密集流(dense flow)信息为生成长视频提供指导。

此外,合成流和视频可用于指导机器人执行所需底层控制训练。在基准测试中表明,FLIP不仅能提升长视频规划合成的成功率和质量,还具有交互式世界模型特性,为未来研究开辟了更广泛的应用前景。

“我们的论文主要是做机器人manipulation task的一个通用的、能够做model base planning 的世界模型,区别于传统的那种直接生成视频的世界模型,我们的模型可以在每一个短时区内做研究,来解决生成长视频的难题。” 高崇凯表示。

触觉感知与视觉导航

触觉是具身智能体理解和操纵物理世界的重要感知系统。然而,由于不同触觉传感器的设计差异和数据特性不统一,构建通用的触觉感知系统一直面临挑战。

在《AnyTouch: Learning Unified Static-Dynamic Representation across Multiple Visuo-tactile Sensors》这项工作中,Ruoxuan Feng等人提出了 TacQuad 数据集,这是一个对齐的多模态多传感器触觉数据集,旨在整合来自四种不同视觉触觉传感器的数据。

通过整合触觉图像和视频作者提出了AnyTouch,一个统一的静态-动态多传感器表征学习框架,具有多级结构,旨在增强综合感知能力并实现有效的跨传感器迁移。

实验结果表明,AnyTouch 在各种离线数据集和真实世界的倾倒任务中均优于现有方法,展现出卓越的静态和动态感知能力。

这项研究的意义在于,它朝着构建与传感器无关的触觉感知系统迈出了重要一步,有望显著提高机器人触觉感知的可扩展性和通用性。

类似地,Harsh Gupta等人在论文《Sensor-Invariant Tactile Representation》 中提出了另一种解决传感器差异性的方案。

他们的工作重点在于提取与传感器无关的触觉表示,从而实现跨不同光学触觉传感器的零样本迁移。SITR 采用基于 Transformer 的架构,该架构在一个包含多种模拟传感器设计的数据集上进行预训练。这种方法的核心创新在于利用校准图像来适应新的真实世界传感器。

通过在多个传感器设计上进行物体分类和姿态估计任务的评估,SITR 展示了良好的跨传感器迁移能力。

这项研究表明,通过在模拟环境中进行充分的预训练,并结合简单的校准步骤,可以有效地弥合不同触觉传感器之间的差距,为在各种机器人应用中部署触觉感知提供了更灵活的途径。

除了触觉之外,视觉导航是赋予机器人自主移动能力的关键技术。Xinxin Zhao等人在《ImagineNav: Prompting Vision-Language Models as Embodied Navigator through Scene Imagination》中认为视觉导航是家庭辅助机器人的核心能力,通过目标物体搜索功能让机器人实现长周期日常任务。

作者将VLM用于无地图导航,该框架让VLM“想象”机器人在若干潜在位置看到的图像,然后将导航问题转化为VLM偏好的最佳视角选择。

具体来说,系统首先生成候选视角,再引导预训练VLM从这些想象图像中选出“最有价值”的下一步视角,最后由传统的点目标导航模块驱动机器人抵达所选位置。在挑战性的开放式目标导航基准上,ImagineNav优于使用纯文本规划的 baseline,展示了将VLM空间感知融入导航规划的可行性。

“纸上谈兵终觉浅”

也许,相比于专业的学术研究,许多用户与投资人更关心的是机器人的线下实操能力。相比于ICLR,ICRA 作为机器人与自动化领域的顶尖会议,则更侧重于将这些理论应用于实际的机器人系统和应用中。

除了论文展示外,ICRA还将举办一系列挑战赛用以展示最新的机器人技术发展,旨在帮助机器人解决现实世界的挑战并推动具身智能技术更加满足社会需求。

今年ICRA比赛项目包括:

谷仓挑战赛——机器人将参加一系列障碍赛,主要测试机器人导航能力;

机器人抓取和操作竞赛——机器人将竞相有效地组装和拆卸木板、将液体倒入杯中、重新布置和摆放正式桌子、折叠和展开布料等等;

身体机器人护理挑战赛——机器人将通过护理任务进行竞赛,包括协助穿衣和床上沐浴;

四足机器人挑战赛 (QRC) – 四足机器人参加多项机器人协作任务,包括动态障碍和实时感知;

自动驾驶汽车大奖赛——参赛队伍将打造一辆1:10比例的自动驾驶赛车,并为其编写软件,避免碰撞并进行竞速比赛;

机器人 Sim2Real 挑战赛——用模拟器支持机器人进行移动操控和飞行。

根据官网统计,今年预计将有超过7000人参加此次顶级机器人盛会,全球机器人领域顶尖学者都将齐聚于此。

谈及为何踏足具身智能领域的研究,作为年轻的科学家陶子进表示:“希望机器人能够真正帮人类提高工作效率与生活质量”,高崇凯则直言:“因为真的喜欢机器人”。

来源:小夭看天下

相关推荐