对话周谷越&王丛:机器人为何不适用「完全端到端」?

360影视 2024-12-05 14:30 4

摘要:王丛在北京工业大学获得计算机学士学位,之后于美国莱特州立大学攻读博士。在担任地瓜机器人CEO之前,王丛任地平线机器人事业部总经理,负责包括机器人产品研发、市场和销售服务的整个业务体系。

作者 / 曹锦

对话人物简介:

王丛,地瓜机器人CEO:

王丛在北京工业大学获得计算机学士学位,之后于美国莱特州立大学攻读博士。在担任地瓜机器人CEO之前,王丛任地平线机器人事业部总经理,负责包括机器人产品研发、市场和销售服务的整个业务体系。

周谷越,清华大学智能产业研究院副教授、协同视觉与机器人实验室(DISCOVER Lab)主任:

周谷越于2014年取得香港科技大学的博士学位,师从国际知名机器人专家、硬科技创业教父李泽湘教授。同时他也是前大疆创新(DJI)核心团队成员,资深科学家,计算机视觉和智能机器人领域专家,深圳市高层次专业领军人才。

如今,具身智能产业链已初具规模,技术迭代也呈现出空前的速度。

除了一些常见服务场景外,在科教领域,具身智能技术应用也有着特别的意义——对于高校学生来说,具身智能可以成为教学工具,开发出更多的思路;对于K12群体来说,了解具身智能,就是提前了解未来的世界。

在此背景下,12月2日,清华大学智能产业研究院(清华AIR)DISCOVER Lab推出RDK UniBots具身智能科教平台,旨在通过多方共创,构建具身智能科教的标准化体系架构。

周谷越(左)与王丛(右)

RDK(全称 D-Robotics Robotics Developer Kits)是地瓜机器人一站式智能机器人开发者套件。而RDK UniBots将以RDK算力平台与板载具身智能算法为基础,融合机器人产业与科教产业的上下游,支持用户根据个性化需求快速创建科教应用。

在该平台发布之后,RoboX与清华大学智能产业研究院副教授、协同视觉与机器人实验室(DISCOVER Lab)主任——周谷越,以及地瓜机器人CEO王丛进行了独家对话,他们不仅对UniBots的功能和意义进行了深入介绍,也对具身智能的发展趋势和挑战给出了独到分析。

RDK UniBots能做些什么?

据介绍,RDK UniBots采用分层式技术架构,涵盖从硬件到软件的完整解决方案,能够打通从RDK算力平台到DISCOVERSE仿真平台、AIRBOT系列机器人平台等具身智能软硬件应用载体的技术开发链路。

由此,RDK UniBots可广泛应用于K12 STEAM教育、职业教育、高等教育、科研探索等各类型科教场景。

目前,该平台已在清华大学等高校开展多门课堂教学实践。同时,地瓜机器人与清华大学正式签署全面深度合作协议,并与北京师范大学、华东师范大学正式成立具身智能未来教育联盟。

“大学与前沿科技更近,所以我们先在大学落地…在教学上,RDK UniBots会面向三个针对性的使用课程:传统工科、新融合学科的实践教育,当然还有人工智能和具身智能教学。”周谷越说道。

他表示,目前在清华已经在上述三个方向的教学中,以及多个科研实验室运用了该平台。未来,RDK UniBots还将面向全国和亚太区域进行推广。“目前应该有40家左右院校和科研机构,已经在使用这一平台。”

周谷越指出,清华AIR孵化的求之科技,会和地瓜机器人一起在RDK UniBots上持续开发——“结合我们的具身智能仿真平台,我们会将pipeline进行完全部署匹配,上层应用开发的接口会做得非常友好。”

但是,该平台不只是面向大学和科研机构。周谷越认为,具身智能可能会带动20年后的世界呈现完全不一样的状态。因此,让K12的儿童们提前接触前沿科技,也很有必要。目前,在冬令营和夏令营上,RDK UniBots也已经做出了系统性的解决方案。

2025年的质变,从灵巧手开始?

随着具身智能软硬件的不断进化,其各个阶段的突破都备受关注。在预测明年技术走势时,周谷越认为,灵巧手和触觉大概率会迎来突破。同时,足式步态问题也应该会被解决——双足机器人将从「能走」,转向追求行走效率,以及地形的适应性。

他介绍称,由于受限于灵巧手和触觉技术,目前机器人能操作的物体和任务是有限的,但在2025年,这一情况将会得到改善。这一判断,是基于触觉、芯片、执行器等技术的进步。

“首先,传统的灵巧手没有高质量的触觉反馈,只靠视觉做抓取,难以进行精细操作;其次,灵巧手依赖于很强的边缘计算芯片,而芯片的研发周期又很长,所以导致灵巧手研发功能受限。”

不过周谷越认为,目前的芯片、传感器、材料,和执行器小型化等技术已经趋于成熟,现在正处于系统集成阶段,能够预见在2025年就可以做好系统集成,同时RDK应用平台上的应用也会更加成熟。

“现在的执行器小型化之后,灵巧手的自由度可多达22-23个。”

灵巧手的有效控制,依赖于传感器以及在线的计算单元,整个链路需要经过大脑端、服务器端,然后经过计算再传回来。这样的长链路,非常影响实时控制效果。

现在RDK正在推动的,就是将任务拆解从云端下放到本地芯片端,这对于本地芯片端的算力带宽又是一个挑战。

他认为,要保障灵巧手的实时控制,还是要装配边缘计算单元,再加上触觉反馈。但是对于具体的算力需求,目前仍没有定论,还是要取决于对延时和精细度的要求。

“不同的任务所要求的赫兹率不一样:抓取可以很慢,动作变化不大;但如果说要‘转核桃’,赫兹率就得很大。其实整个机器人学,都是在用神经网络的方式去生成执行轨迹。”王丛说道。

对具身智能逻辑的高度总结

王丛介绍称,具身智能技术可以分成3大块——基于大模型的任务理解, Manipulation(操控), locomotion(位移)。

他表示,目前locomotion的方法论已经成熟,后续基本就是硬件迭代;至于Manipulation,今年基本还都是夹爪式的。

目前,行业在研究如何用一套算法适应不同的夹爪,或者实现动作泛化时,是从刚性物体、柔性物体、铰链物体三条路线上分头实践的。但预计到了明年,有可能这几种方法会融合在一起,进行统一泛化。

“有些企业认为,在特定场景中,使用夹爪就够了。但到了终极的人形机器人阶段,它们还需要重新开发灵巧手,将上述3项工作重新再搞一遍,才能解决泛化问题。”

尽管机器人存在差异较大的不同形态,但归根结底,传感器类别的变化都不大,也都存在标准协议。尽管各家都有性能上的差异,但从接口Interface上来讲,其实都是相对标准的。

另外,从机器人本体的种类上来看,无非就是底盘式、足式、无人机,和带机械臂的几类。

其中,底盘类更多关注的是定位、导航、避障,并不关注locomotion;足式机器人需要加上定位导航,同时也要考虑locomotion问题;带机械臂则需要考虑manipulation的问题。

“虽然看起来形态各异,但机器人的细节上其实有很多共通性,不过肯定是比自动驾驶会更复杂一些。”王丛表示,正是因为这些共通性,RDK才可以快速灵活地适配各类机器人。

“当然,地瓜机器人也不是今年才开始搞,过去也已经搞过很多年了。”王丛透露称,为了应对算力挑战,明年地瓜还会推出算力更大的芯片。

「完全端到端」并不现实

“在现阶段,机器人采用「完整的端到端」是不是最有效的手段,还没有形成定论。自动驾驶的端到端,实际上是相对收敛的模仿学习,任务相对固定;但机器人的任务分布太广了。”

王丛认为,自动驾驶基本上就是结合各种传感器的信号,使得刹车油门等几个动作在联合分布上统一在一起。但机器人的动作超级多,任务也会超级多,所以未必能用端到端去解决一切问题。

“如果用人的第一性原理去思考:让一个人从小学习做木匠,他应该能学出来,但并不是一个「通用的人」。我认为,最终的机器人很可能不是完全的端到端,而是在特定任务上基于一个Foundation Modal,再加上一些小样本的端到端。”他说道。

而周谷越也指出,自动驾驶是一个非常具体的具身智能场景,机器人却是由成百上千个自动驾驶场景组合起来的,同时本体还在变,所以二者面临的挑战很不一样。

“从技术上来讲,所谓的端到端只是说从感知到决策的一条线给打通了。目前更现实的方法,是手脚局部的端到端——机器人应该不会融合全身所有零部件做到端到端,因为从本体的复杂度来说,汽车比现在机器人要低得多。”

他表示,类似灵巧手的单模块,是肯定需要端到端的。因为其动力学系统建模,基本上是不可见的,不适用其他解法。

“自动驾驶或许还能用rule based的方法去解,但要想用灵巧手操作柔性物体,传统控制方法就解不了。”周谷越称,自动驾驶主要关注的是短程任务,而机器人的任务往往需要被拆解成很多步骤,这就完全是两个问题了。

所以现在,周谷越将机器人的Pipeline分为四个层级——Large Model Layer、Grounding Layer、Acting Layer,Control Layer。在Acting Layer上的每个模块都是端到端的,而上层的长程任务会采用任务分解的模型——将任务描述进来,再去分解成每个末端执行器的输入。

“当然,如果未来数据足够多,或是垂直场景足够具体的情况下,同时符合ROI指标,也可以把这条线打通。”

来源:RoboX

相关推荐