清华许华哲:具身智能需要从 ImageNet 做起吗?

360影视 动漫周边 2025-05-15 16:58 1

摘要:想认真地聊聊具身智能,文中会概述具身智能的发展线条,以及近期对”智能“的一些感想,但其中的判断、猜测很多缺乏实据,特别欢迎指出问题和讨论。关心具身智能技术问题的朋友可以看前一半,而更关心智能的朋友可以看最后的“具身智能之上”的部分。

具身智能要落地一定得有ImageNet时刻吗?

想认真地聊聊具身智能,文中会概述具身智能的发展线条,以及近期对”智能“的一些感想,但其中的判断、猜测很多缺乏实据,特别欢迎指出问题和讨论。关心具身智能技术问题的朋友可以看前一半,而更关心智能的朋友可以看最后的“具身智能之上”的部分。

1 为什么突然具身智能开始爆发

Move bits, not atoms. 是无论是科学家还是创业者都经常听到的一句”金玉良言”。比特的流动是光速的,但搬起一块砖缓慢而费力。互联网时代的电商取代实体店、流媒体替换DVD光盘;人工智能时代,ImageNet整合了网络上的海量数据、DeepSeek模型训练消耗的是电力与数据比特。最新的大语言模型,可以写代码、做奥数,接近甚至超过人类的智能。但具身智能还是火了,因为我们不得不关心他。

2 为什么我们不得不关心具身智能?(Atoms still matter)

人类本身无法完全数字化。无论是电子游戏还是元宇宙都没法解决人类需要作为物理实体活着的事实,所以物理世界的熵减过程始终需要被完成。当我们谈及”影响力“的时候,实质上是指对人类的需求进行了多大程度的满足或改变,这解释了为何具身智能仍广泛被谈及。

如果我们认可了我们需要关心atoms,那显而易见的现有的以大语言模型为主导的智能体,缺乏和物理世界的对齐,因为缺少感知模态和交互能力,所以对于物理世界的理解往往不够好,比较典型的例子是对空间信息的理解不足。

大模型的智能是先灌输再推理出来的。它阅读了世界上所有的文字资料,甚至借用别人的眼睛看到了一部分世界,然后用强化学习推理,变成了超级智能体。但是大多数的知识和数据都不来自大模型自己,使模型缺乏闭环反馈,所以无法校准自己输出,潜在地无法突破现有知识分布。

值得讨论的是,如果我们认真地去构建硅基生命,我们希望这些智能体有自己的体验,他们独有的传感器带来独特的经历,虽然这些经历可以以比特的形式进行分享,但是仍然会保持独特。一个皮肤失去触觉的人,可以读到、听到”触摸“的感受,但是却无法获得这样的体验,但相应的可能他的听觉格外敏锐。这些体验构建了什么是”我“。

3 具身智能的几种失败模式

具身智能是一个目标清晰,但路径不清晰的领域。和计算机视觉早早定义好“分类、检测、分割”三大任务不同,具身智能有相当多看似有道理的路。下面几种模式,我认为是会失败的,我可以为此押上一顿疯狂星期四。

4 找到那个最有趣的任务然后不择手段地干掉它

我无意扫兴,尤其是扫机器人学家的兴致。但传统机器人学有相当一部分的研究重点在于”特别“的机器人或者”特别“的任务。一个蛇形机器人,一个老鼠机器人,一个机器人去包饺子,一个机器人去操作塑料袋或者抖落衣服。他可以是一篇论文,是一篇最佳论文,甚至是一篇《科学》杂志的论文,因为它新颖独特、完成了困难的任务、用到了大量的控制论知识或者带来了结构上的创新。虽然对于科学有作用,但它对于推动具身智能的发展几乎没有用处。

虽然确实还是扫兴了,但如果回望深度学习/计算机视觉,推动力主要来自ImageNet这样的标准化数据集以及ResNet或Transformer这样的通用模型。你可能会说,凡事都有例外,如果”那个任务“是流水线分拣或者零件抛光打磨呢?那可能和语音转文字或者实时翻译一样,短期内有经济价值甚至可以去创业,但长期会被具身智能的进展淹没。可以这样想,如果你两年前是一个机器人叠衣服任务的专家,现在你看到模仿学习叠衣服可能会倍感失落;如果两年前你在研究让你的小模型加上语言学知识来总结一篇文章,那你现在准已经是“大模型专家”了,因为原来的饭碗已经没了。

5 干脆造一个虚拟世界,期待在数字世界里面解决所有问题

人们总是期待物理世界可以完全转化成数字世界,然后因为他是数字的,我们又可以和比特打交道,迅速提升数据量,复刻大模型的成功。

仿真一定是有用的,但是常见的失败模式是,尽可能在物理仿真引擎里搭建/复刻目标场景。这里面有很多问题:a) 物理引擎在流体、软体等物体的仿真上有本质困难,例如你很少能看到一块仿真的橡皮泥跟某一个橡皮泥商品有一样的物理性质,尽管他看起来已经很像一块橡皮泥了。b) 仿真运行的速度和质量总是有一定的权衡,“快的不好好的不快”始终没有存在完美解。c) 除了物理的困难即使有了3DGS的加持,想要在视觉上完全复刻场景也是极为困难的,尤其是铰接、软体、低纹理、高频纹理等处。可以期待生成式仿真或者世界模型,但我仍然觉得不能带着过高的期待,也许世界模型应该会比具身智能更难解决。

6 采集海量数据,期待现有的算法加上海量数据可以解决所有问题

另一条路是比赛谁的数据多,谁就能训出最好的模型。数据问题几乎已经成为具身智能中公认的核心问题,而数据的积累也很有可能是具身智能的决胜点。但数据绝非单纯的数量比拼,即使加上“足够丰富”这一条件我认为单纯的数据量也很难成为具身智能成功的充分条件。对模仿学习或VLA算法稍有经验的读者,应该常见机器人动作正确但无法完成任务,甚至偏离了物体的位置。这种对轨迹的“背诵”一方面我们可以责怪模型仍然不是最优,但更重要的是数据的来源来自人类。一个简单的类比是,一个孩子在孩童时代被手把手教写字,但是当老师把手松开后,他可能颇有进展,但远无法达到刚刚老师手把手带着写的那个字好看。这里数据的来源的差异是容易被遗忘的,是来自“模型”还是来自“人类”。在这里我的一个判断是,海量的真实数据一定是必要的,但他无法解决所有问题,而只是为最终解决所有问题提供一个先验。

7 具身智能的路线上的几个决策点

具身智能说简单也简单,机器人获取感知信号,随后进行决策,最终执行动作,动作执行后再更新感知信号.. 和自动驾驶相似,模块化的方案上升曲线陡峭但是潜在上限会低一些,端到端方案则需要数据的积累但是上限可能很高。这里我们几乎不假思索地只讨论端到端地方案,即感知信号(也许还会有任务或计划的文本信息)输入一个神经网络,并直接输出对应的动作。

8 最笨的问题:输入的视觉信号,二维还是三维?

这听起来是一个有一些滑稽的问题,如果所有的图像信息都不丢失,三维信号的信息量是严格多于二维的,那很自然地,我们会选择三维输入。然而时至今日,我们仍然无法做出这样的决策。

为什么二维图像输入仍然颇具生命里,甚至更主流?我们可以自己尝试闭上一只眼睛度过几分钟的时间,理论上我们应该丢失了三维信息,但是事实上我们日常的任务几乎不会收到很大影响。因为二维图像中包含的光影、语义、几何信息,配合上我们脑子里面对世界的先验,也足够让我们完成相当多的任务。换句话说,我们单独看一个瓶子,可能很难判断是一个近处的小瓶子还是远处的一个巨型瓶子雕像,但是配合上场景来看,我们几乎不会判断错。同时,二维图像是我们日常的摄影设备最容易捕捉的信号,所以二维图像数据是有量级上的数量优势的。

那么三维信号还有价值吗?去年 CoRL 上 Pi0[1] 发布后,我和几位朋友讨论过:如果基于图像的 VLA 已经能达到很好的性能,我们是否还需要三维感知作为输入?在哥伦比亚大学发布扩散策略(diffusion policy)[2]之后,我所在的清华大学具身智能实验室(TEA Lab)开发出了三维扩散策略(DP3)[3],取得了显著的性能提升。而我们近期提出的 H3DP[4] 通过利用深度图,进一步提升了模仿学习的性能。由此我们可以得出一个初步结论:在数据量较小的情况下,三维信息确实有助于提升模型性能。这也暗示着未来的后训练可能需要引入三维输入信息。至于数据量很大的时候会怎样,我们暂时不清楚。

这意味着三维一定无法规模化吗?也不是。连接二维和三维有一根线,就是单目三维重建如depth-anything [5]系列。海量视频+动作数据→图像三维重建→大规模预训练的链路是否会相较于直接用视频和动作数据的训练更好,还是一个未知数。但直觉来说,我认为是会的,但把握不大,把输入里面的两个浮点数对齐要比通过图像把夹爪和把手对齐简单的多,这也是少有的机器人相较于人的优势,他们可以阅读并理解精确的数字。

9 具身智能的最后一块拼图还是阿克琉斯之:触觉

具身智能的难点在物体操作,而操作任务会需要触觉。这是一条极为顺畅的逻辑链条。而且时常有一种,触觉的研究者们(包括我自己在内)经常会暗示触觉是具身智能最后一块拼图。然而,当我们去观察触觉研究的时候,却发现触觉研究者和具身智能中间似乎有一条巨大的裂痕。

到底我们需要怎样的触觉传感器?我认为对于任何具身智能的硬件,最大的要求就是“便宜”。在便宜的基础上,我们再去研究怎么提高信噪比、怎么提高一致性、怎么全指尖甚至全手去做覆盖。价格和市场大小是有一个近似反比例关系的曲线的,这个价格可以是制作和时间成本,也可以是商品的售价。也许有读者感到疑惑,为什么谈触觉技术要和商业搞上关系?这个我觉得最好的案例就是机械狗,不知道有多少读者用过早期的机器狗,摔坏、过热各种问题层出不穷,但是胜在便宜。相较于10倍价格的机器狗,大家愿意再买一个,或者返厂维修。用的人多了、迭代的次数多了,这东西现在还真就变得好用起来了,而且上面的算法更是层出不穷,跑酷、越野样样精通。所以,当我们谈价格和市场大小的关系的时候,实际上是在提有多少聪明的脑袋愿意和你一起迭代,并把算法放上来。最后,我们下一个孟浪之言,“手”的价格应该是“人”的价格的1/10,而所有的指尖触觉加起来不要超过手的1/10。如果达不到这个价格,大多数的买家是来研究“触觉”的,而不是具身智能的。在TEA Lab我们研发了DTact[6]和9DTact[7],成本只要200人民币甚至更低,并且熟练的同学经过改良,一个人一天可以造出百十来个。虽然成像质量不及gelsight, 但是贵在不贵。

如果再多和触觉的人聊聊,发现造触觉的多,用触觉的少。我们当然需要创造更好的触觉传感器,就像我们需要更清晰的摄像头,但是怎么样去把获取到的触觉信号用好其实才是真正把触觉融入具身智能。把平面变成曲面,加上温度的传感器,摄像头变光纤,当然都是很有价值的改进。如果真的要把触觉用进具身智能,我们首先要有数据,是对一样的输入有一样的输出,同时收集可以匹敌视觉体量的数据。所以是不是与其开发新功能,不如找到一种工艺,他能让表面的胶皮保持一致,且耐用耐造来得实在。Gelsight高强度采集数据2小时后会破损,Dtact可能几十个小时后也会破损,人的皮肤有再生能力,胶皮却没有。另一个就是加触觉经常看不到性能提升,叠杯子任务靠视觉就饱和了,而捋耳机线的任务又非常小众,所以大家往往看到触觉的论文,里面的任务有些刁钻,甚至会想:真能琢磨呀,这个任务还真必须要触觉。我做触觉研究的时候也是这么做的——我们的DO-Glove[8]工作我很喜欢,把机器人触觉和人类触觉联通起来,并且找到了一系列需要“力感”或“触觉”的任务。但这么做是会有一个恶性循环的,做触觉的人只做需要触觉的任务,这样无法进入到具身智能的大闭环里。

什么是大闭环?就是后面要讲的VLA和RL这些需要大量数据的模型。我们近期和上海交大合作的RDP[9]以及Gelsight的发明人Ted Adelson做的PolyTouch[10]让我们看到了把触觉融入这条大闭环的一些努力。所以在我看来,触觉有两条路,第一条触觉效果很好,可以解决很困难的任务(例如让一杯水在你手中滑落而不脱手),但我怀疑这条路会掉入第一种失败模式中;第二条路,把触觉做便宜做鲁棒,便宜到大家买他轻轻松松,顺手就把数据采了,说不定触觉有新的一片天

10 复刻大模型的成功:从模仿学习到VLA

模仿学习从角落里积灰到争相追捧就在近两年。这里面有很多原因,Aloha[11]的新构型带来的数据质量提升,扩散模型[2]带来的拟合能力和多峰行为预测能力提升。里面还有一个很重要的点,是一次要预测一串动作而不是一个,一定程度上他们在时间维度上相互监督,从而使动作更加明确而连续。这也很直观,我们在进行物体操作的时候,往往也是以终为始,先有一个未来的目标然后产生一连串的动作。模仿学习的形式极为简洁,图像输入,动作输出,目标直接优化生成动作和采集动作的某种距离。简洁的形式也带来了其脆弱性:面对扰动往往无法泛化。为了解决这个问题,我们做过DemoGen[12], 构造出一些数据来增强泛化,前一阵子还进行了直播,但这终究智能在一个较小的区域内解决问题。再往后想,一般延伸出了两条路,一条是VLA另一条是强化学习。这里我们先聊VLA。

VLA先用海量数据预训练,然后再用目标任务数据进行后训练。预训练的过程提升了模型的基础能力,其中最重要的是丰富的场景以及动作。因为预训练中数据要求更宽松,那些侥幸成功、从失败边缘纠偏回来的数据理论上都帮助VLA获取了更好的能力。但是老规矩,我们是来碰瓷的不是来吹捧的,VLA到现在可能连正确的结构都还没有找到,以pi0为代表的结构看起来极为不协调,前面的自回归VLM和后面的扩散模块生硬地拼接在一起。当数据量足够高时,全量的Transformer[13], 或者DiT[14]可能还是有重回巅峰的可能。

11 房间里看不到的大象:强化学习

AlphaGo[15]带来了一阵风,让强化学习从小众领域变成了人工智能的万灵药,一时之间风头无两。因为我恰好是2016年开始的博士生涯,所以基本也参与和见证了这一股风:大家在做两件事1)寻找适合的任务;2)在改进算法的数据效率和性能(这里记着,后面有用!)。在现在的视角下回看,当时的强化学习热潮没有达到预期,围棋之后我们解决了麻将、德州扑克、雅达利游戏、星际争霸和DOTA,得到了一个结论——只要数据成本足够低,强化学习或者说PPO[16]总是可以解决问题的。而大量的算法进展,也都伴随着这样的结论暗淡退场。此间,OpenAI已经展示出了对规模定律(scaling law)的追寻,灵巧手转魔方[17]、吴翼老师参与的红蓝小人捉迷藏[18],都是实例。但是很遗憾,OpenAI也陷入了完全依赖仿真的失败路径之中,所以在某个时间节点,转向了真实数据更多的自然语言赛道。而这条强化学习仿真-现实迁移的赛道,也逐渐演化出了各种机器人跳舞、跑酷的全身控制赛道。

那机器人为什么不靠这条路来做操作任务呢?仿真不够好,也做不好——哪怕只是用水洗一把菠菜这件事。那为什么不直接像人一样做真实世界强化学习呢?因为数据成本太高。DeepSeek和GPT-o1给了我们一个思路——“先验”,语言的输出空间本来也是非常巨大的,但是为什么我们可以做RL,因为做了输出空间的裁剪:谁裁剪的,是预训练好的大模型自己,感兴趣的读者可以去看《人工智能下半场》[19]。我想起了那群努力写莎士比亚的猴子,他们虽然理论上可以写出来,但是时间却要趋于无穷;但如果是预训练过的猴子,很有可能永远也写不出来,但是如果有判别器不停地告诉它们写得是不是莎士比亚,他们很有可能很快就写出来了。那前述的VLA和模仿学习,不正是对应了预训练好的大预言模型嘛?机器人在用强化学习抓杯子的时候,粗略地已经学习了抓杯子,只不过没法100%地成功,这正是强化学习大放异彩的时刻。

为什么VLA做不到的事情,强化学习能做到?一言以蔽之,是一个英文词叫“grounding”。意思是,要把数据和任务紧密地联合起来。VLA里面的海量数据都是被动的,当模型看到一条成功倒水的数据的时候,他其实只是简单地将图像作为条件,生成相应的动作。当这个条件发生一定扰动的时候,模型其实没有理解到只有抓到把手才是关键。反观强化学习,他的每一次的奖励获取都在不断告诉模型,只有抓住把手,才能成功,否则都算是失败。这种数据来自自身、有对有错、获得反馈的闭环,才能让机器人最终达到高成功率。

强化学习这么好用,现在大家在用吗?还记得当年提升数据效率的那波努力吗,算法时至今日已经有了长足的进步,我们从BEE[20]开始,到后面的DrM[21],FoG[22],都依然在努力提升算法的数据效率,因为真机数据昂贵,所以突然这些努力又有了一定的意义。更关键的是,我们说的那个“先验”VLA正在逐渐成型,例如pi0.5十分值得我们期待。TEA Lab的MENTOR[23]以及伯克利的HIL-SERL[24]都在VLA还没到来的时候做了真机强化学习,只要有合适动作空间,我们就能训成。但一切也没有想得那么乐观,真机强化学习的两座大山一直存在,一个是“重置”环境需要有一个人一直盯着,可能工作量不亚于数据采集;另一个是“奖励函数模型”,我们可以靠VLM去做,但这样的稀疏奖励是否足够用于训练还有待探索。另一个是近期美国公司Dyna Robotics选择训一个“任务进展”奖励函数模型,这方面我们也做过,但效果不佳,主要是这个奖励函数模型经常不单调递增,所以也期待进一步的探索。

总的来说,具身智能需要强化学习是显然的,但是怎么用、什么时间节点上能用仿佛一直被大家忽略了,也导致这头房间里的大象一直没有被看到。

12 最后的问题:具身智能要落地一定得有ImageNet时刻吗?

具身智能的”ImageNet”时刻是一个伪命题,至少是一个极具迷惑性的命题。ImageNet的妙处是采集了海量数据后,评测只需要把一部分图片预选出来,并且把他们的类别记录下来作为标签,不同人使用ImageNet的唯一的区别就是它用的模型的优劣,因此ImageNet成为了一个公认的竞技场。我们带着这样的拆解去看具身智能,就很容易发现“ImageNet时刻”的要求要高得多——除了提供的“ImageNet”以外,在不同用户处的其他部件应该一模一样。这意味着:1)场景可复刻;2)视角、光线等视觉条件一致;3)机器人型号统一;4)机器人跨本体一致。即使都是正午的太阳,纽约和上海也是不一样的,所以要做到前面这四件事,几乎不可能。在星海图,我们努力给大家一款稳定的本体;在斯坦福,有一个项目叫UMI企图对齐所有数据的形态。大家有没有想过,具身智能如果一定要有ImageNet时刻,其实不一定是一个数据集,而是一款本体?

具身智能是一个后发的领域,我们的上半场还没比完还在苦苦追寻ImageNet,但是已经有一个下半场比了半天的先知叫作LLM让我们看到了很多未来。所以我们仍然不清楚构建数据集的意义如何验证,又或者我们应该直接像语言模型一样到真实的场景、任务中的测试。在方法和模型还没完全摸清的时候,我们也去构造和收集大量数据,而且也不确定选用哪一款本体,好像过去和未来交织在一起。我们现在有了一点头绪,但也只是一点。

13 具身,智能之上

没关系的,都一样。——章北海

智能的形态可能殊途同归,视觉、语言、机器人,从应用的角度各有各的难处,但是从智能的角度,他们很有可能在解决一样的问题。过去自然语言的人要去学语言学、视觉的人要去了解神经科学、机器人的学者则需要精通控制论。而现在,大家都都transformer加上海量数据。所以如果大家关心的是最终的答案,很有可能所有领域会同时被卡住或者被解决。

例如我们屡次提到的规模定律(scaling law),确实很有可能只有当样本量指数增加时,我们才有可能提炼出更本质的规律。到这里有一点玄乎了,我们也彻底抛下了严谨性,但在各式各样的自然环境下,我们的练习时长、声音的分贝确实都在产生量级变化的时候,会给我们带来新的信息和能力。有兴趣的读者可以去看一下毕导的科普本福特定律,我们对世界的感知、以及世界上数字统计量的分布也极大程度上是指数分布的,或者说在取对数后才较为均匀。而我们的DNA带来的先验,可能就是人类走过漫长的指数级的数据后,提炼出来的全部能力。

另一个有趣的视角,是从表征去看——柏拉图表征假设[25]。它认为在神经网络模型中,随着模型规模的扩大和训练任务的多样化,不同的模型在表示真实的方式上越来越趋于一致。什么是表征?我认为是对已有的事件或事物中的信息进行合理抽取和组织得到一个新的且没有新增信息的变量,从而更适合于解决问题(例如鸡兔同笼问题中,兔子的表征是四腿动物即可),当然此处讨论的是神经网络提取的向量形式的表征。

故事从柏拉图《理想国》的“穴寓”说起,是柏拉图探讨什么是现实的一个思想实验。在洞穴寓言中,有一群囚犯自幼被锁链拴在洞穴中,对于洞穴外的世界一无所知。他们一直面对着墙壁,只能看到身后各种事物在影子。长此以往,这些影子便成为了他们眼中的“现实”。而哲学家就像是从洞穴中获释的囚犯,他们走出洞穴来到阳光下,逐渐明白墙上的影子并不是“现实”,而是“现实”的投影。回到柏拉图表征假设,如果我们认为这个世界有一个底层的真实存在,那么像素、语言、触觉等等则是我们感知到的“现实的影子”,如果我们去提取这些“投影”的表征,在某种意义上我们在提取他们所对应的真实世界的信息。令人惊奇的是,大家发现在ImageNet和Places365上训练的两个视觉模型可以互换一些神经网络层,大语言模型的表征可以用在视觉模型预测上,甚至发现大语言模型和人脑的表征也有很强的联系…本质上,所有的模型,包括我们自己的大脑,都在从庞大的数据量中完成通用的任务。

但究竟为什么他们会趋向于相似的表征呢?笔者很认同原文中的猜想:当我们要做100个任务的时候对表征的要求,要比做10个任务的时候对表征的要求高得多。因为每一个任务的出现,都会削减掉一部分不那么通用的表征。而随着数据/任务量增大(无论视觉、语言、还是具身智能),最终他们的表征都被限制在了相似的空间中。另一方面,由于模型越大越方便寻找到这一目标空间,所以这也再一次回应了为什么现在大家都要提“scaling law”或者”信息压缩即是智慧“了,因为数据/任务越多,表征质量越高且趋于相似,而模型越大,则更容易找到这样的表征。但回到我们说的第三种“失败路径”,一味的堆数据虽然原理上有效,但未必是最靠谱的方式。而怎样才靠谱,我在前述的RL部分也已经谈过一点。

用更长远、更宏观的眼光看,如果你的野心在智能,无论你做具身智能、大模型、世界模型,又或者是神经科学,也许都一样的。

14 写在最后

本意是想梳理一下课题组的一些研究思路,把繁杂的具身智能论文池子捋出几根线来。但最终似乎完全抛弃了作为一个学者的严谨性,难免文不对题,里面有一些学术讨论、一些冒失的批评、一些既不能证明也不能证伪的预测。只望激起一点思考的水花,在行至今日还没放弃思考的人里。

[1] Black, Kevin, et al. "$\pi_0 $: A Vision-Language-Action Flow Model for General Robot Control." arXiv preprint arXiv:2410.24164(2024).

[2] Chi, Cheng, et al. "Diffusion policy: Visuomotor policy learning via action diffusion." The International Journal of Robotics Research(2023): 02783649241273668.

[3] Ze, Yanjie, et al. "3d diffusion policy: Generalizable visuomotor policy learning via simple 3d representations." arXiv preprint arXiv:2403.03954(2024).

[4] Lu, Yiyang, et al, “H3DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning” https://arxiv.org/abs/2505.07819v1

[5] Yang, Lihe, et al. "Depth anything: Unleashing the power of large-scale unlabeled data." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[6] Lin, Changyi, et al. "Dtact: A vision-based tactile sensor that measures high-resolution 3d geometry directly from darkness." 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.

[7] Lin, Changyi, et al. "9dtact: A compact vision-based tactile sensor for accurate 3d shape reconstruction and generalizable 6d force estimation." IEEE Robotics and Automation Letters9.2 (2023): 923-930.

[8] Zhang, Han, et al. "DOGlove: Dexterous Manipulation with a Low-Cost Open-Source Haptic Force Feedback Glove." arXiv preprint arXiv:2502.07730(2025).

[9] Xue, Han, et al. "Reactive diffusion policy: Slow-fast visual-tactile policy learning for contact-rich manipulation." arXiv preprint arXiv:2503.02881(2025).

[10] Zhao, Jialiang, et al. "PolyTouch: A Robust Multi-Modal Tactile Sensor for Contact-rich Manipulation Using Tactile-Diffusion Policies." arXiv preprint arXiv:2504.19341(2025).

[11] Zhao, Tony Z., et al. "Learning fine-grained bimanual manipulation with low-cost hardware." arXiv preprint arXiv:2304.13705(2023).

[12] Xue, Zhengrong, et al. "Demogen: Synthetic demonstration generation for data-efficient visuomotor policy learning." arXiv preprint arXiv:2502.16932(2025).

[13] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems30 (2017).

[14] Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF international conference on computer vision. 2023.

[15] Silver, David, et al. "Mastering the game of go without human knowledge." nature550.7676 (2017): 354-359.

[16] Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347(2017).

[17] Akkaya, Ilge, et al. "Solving rubik's cube with a robot hand." arXiv preprint arXiv:1910.07113(2019).

[18] Baker, Bowen, et al. "Emergent tool use from multi-agent autocurricula." International conference on learning representations. 2019.

[19] https://ysymyth.github.io/The-Second-Half/

[20] Ji, Tianying, et al. "Seizing serendipity: Exploiting the value of past success in off-policy actor-critic." arXiv preprint arXiv:2306.02865(2023).

[21] Xu, Guowei, et al. "Drm: Mastering visual reinforcement learning through dormant ratio minimization." arXiv preprint arXiv:2310.19668(2023).

[22] Kang, Zilin, et al, “A Forget-and-Grow Strategy for Deep Reinforcement Learning Scaling in Continuous Control

[23] Huang, Suning, et al. "MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning." arXiv preprint arXiv:2410.14972(2024).

[24] Luo, Jianlan, et al. "Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning." arXiv preprint arXiv:2410.21845(2024).

[25] Huh, Minyoung, et al. "The platonic representation hypothesis." arXiv preprint arXiv:2405.07987(2024).

来源:AI科技评论一点号

相关推荐