千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈

360影视 日韩动漫 2025-04-29 16:26 3

摘要:“对于机器人来说,现在的规模仍处于 Scaling Law 里非常早期的状态。”解浚源解释道,“尽管赛道火热,但相较于大模型公司来说,大家的规模和估值都还较低,现在制约具身智能领域的不是算力和资本的投入,而是硬件迭代的客观周期,即做量产可靠的机器人、管理大规模

不久前,首届“人形机器人半程马拉松”在北京亦庄举办,为本就热度满满的具身智能行业再添了一把火。

一共 20 支队伍组成的“钢铁生命竞赛”,让此前集中在实验室 demo 阶段的人形机器人们,跑到真实场景中接受试炼,最终共有 6 支队伍完赛,完赛率为 30%。

质疑随着掌声纷杳而至:具身智能真的不是泡沫吗?

对此,千寻智能具身智能部负责人解浚源表达了自己对“具身智能 Scaling Law”的看法。

“对于机器人来说,现在的规模仍处于 Scaling Law 里非常早期的状态。”解浚源解释道,“尽管赛道火热,但相较于大模型公司来说,大家的规模和估值都还较低,现在制约具身智能领域的不是算力和资本的投入,而是硬件迭代的客观周期,即做量产可靠的机器人、管理大规模数据采集工厂所需的时间。这是一个制造业的问题,比软件慢一些,但相信在中国强大的供应链体系的支撑下,我们每年都能上一个数量级。”

就在上个月,解浚源在朋友圈正式宣布了自己加入具身智能创业公司千寻智能,全面负责具身大模型的研发。

此前,解浚源在深度学习框架和系统钻研十余年,曾任亚马逊资深科学家,在明星部门 AWS 负责深度学习算法和系统研发,是开源深度学习框架 MXNet 的主要开发者和维护者之一;2019 年又加入字节跳动的应用机器学习(AML)部门任 AI 高级专家。

作为具身智能领域的跨界人才,这其实并不是解浚源的第一次“破格尝试”。

解浚源本科就读于中国科学技术大学的计算机系,在大三那年就以一作的身份在顶会 NeurIPS 上发表工作,用深度神经网络对图像去噪与修复,论文引用量至今已超 1.9k。

2013 年,解浚源本科毕业后赴美深造,在华盛顿大学读博,先是做了一年左右偏理论的研究。他发现自己对偏应用的工作更感兴趣,便主动找到了现艾伦人工智能研究所(AI2)的 CEO Ali Farhadi,提出做与计算机视觉(CV)应用相关的研究,随后又同在 Meta FAIR 任职并提出深度学习算法 R-CNN 系列的 Ross Girshick 合作。

出于个人兴趣和研究需要,解浚源开始了对深度学习框架的探索,因认为相对成熟的框架 Theano 和 Caffe 不太好用,便试着自己写框架,但仍觉得所搭建的框架比较粗糙、不够灵活。

2015 年中,就在谷歌大脑团队发布 TensorFlow 的几个月前,解浚源收到了同届好友陈天奇推荐的深度学习框架 MXNet 的 demo,开始试用了起来,一边在自己的研究中使用,一边对其作出改进。

MXNet 由三个开源项目合并而成,分别是陈天奇的 CXXNet、张铮及其学生王敏捷牵头的 Minerva 和颜水成学生林敏牵头的 purine2。同时参与 CXXNet 和 Minerva 的李沐意识到两个项目能合并起来取长补短,便有了 MXNet(意为 mixed-net)的雏形,在 purine2 加入后于 2015 年年底正式开源。

2016 年底,亚马逊宣布将 MXNet 选为公司最主要的深度学习框架并为生态系统的开发提供软件代码、文档和投资。次年初,一直在为 MXNet 做架构的解浚源加入亚马逊 AWS,继续做 MXNet 相关的算法和系统研发。

2019 年,解浚源回国加入字节跳动的应用机器学习(AML)部门,先后负责优化推荐系统、搭建联邦学习平台、AI 芯片以及大模型的 ToB 业务。

今年,解浚源又再度“转行”,跨入了具身智能赛道,成为了千寻智能的具身智能部负责人,他表示,“机器人快速发展爆发的时刻即将来临,我不想错失这个机会。”

以下是 AI 科技评论与解浚源的对话。

跨界入局具身智能

AI 科技评论:加入千寻已经不是您的第一次“转行”,可以分享一下您的跨界经历吗?

解浚源:我博士读的是 CV 算法方向,但一直对写代码、做工程很感兴趣,接触 MXNet 后先是自己边用边改,接着慢慢从自己贡献到开始回别人的问题、做 Code Review,后来慢慢地开始做整体的架构。

在这过程中我写了越来越多与自己研究无关的代码,摸索出自己的兴趣所在。随着 MXNet 被亚马逊采用、李沐毕业后也去了亚马逊,我觉得自己继续做研究没有比做框架和工程有意思,所以就在博三休学了,去亚马逊做 MXNet 的架构师。

在亚马逊的工作基本上围绕 MXNet 展开。比如推广框架需要 SOTA 模型和 Model Zoo,为了给 MXNet 做一个最好 CV 方向的模型,当时团队整理了已有文献资料里的技巧(trick),把所有 trick 整合起来发现,每叠加一个,效果可以往上涨,最后做了效果最好的 ResNet-50,发了“Bag of Tricks”工作。

后来一位在字节的师兄介绍我和刚去字节负责推荐系统的刘小兵认识,我们聊得很投缘,后面就决定加入字节。一开始还在字节美国,后来发现业务核心在国内,我就在 2019 年回国,在 AML 组做推荐系统的优化。

接着我做了联邦学习平台,旨在解决广告主在抖音投放广告时因竞争产生的数据安全与隐私顾虑,通过联邦学习实现跨平台合作优化广告投放效果,同时避免直接数据共享。后来还做过新硬件项目,是关于非英伟达的 GPU 加速卡的调研和引进,2023 年后又在火山做大模型的 ToB 业务,算是 CV、系统、框架、搜广推、大模型等都有所涉猎。

AI 科技评论:您之前的经历集中在深度学习系统与框架,是什么关键事件让您决定踏入具身智能这一需要物理交互的领域?为何认为当下是入局的最佳时机?

解浚源:今年年初,我和一位在美国的同学聊天,对方向我分享了 Physical Intelligence 公司的 demo,视频里展示了该公司的机器人在叠衣服、纸箱,实现了对可形变的柔性物体的操作。

看完后我觉得眼前一亮,因为读博时自己一直做比较抽象的软件,觉得硬件这种看得见摸得着的东西很好玩,所以会很关注机器人领域的发展。但当时我觉得机器人进展很慢,动作特别僵硬,能做的事情极少,只能拿杯子这种不可形变的刚体做一些简单操作,离实际使用特别遥远。

而 PI 的 demo 实现了以前不可想象的机器人对可形变柔性物体的操作。对于一件衣服而言,有一万种方法把它团成一团,这对于机器人模型的识别而言,难度极高,显然机器人领域有了很大的飞跃。所以我就去详细研究了相关技术,包括最近很火的 VLA 技术,还看了自动驾驶对 VLA 的应用。

我发现端到端的 VLA 是条正确的技术路线,让机器人走上了类似从 GPT-2 到 GPT-3 再到 GPT-4 的路径,而现在的节点在GPT-2~GPT-3 之间,属于 Scaling Law 里非常早期的阶段,但已经展现出非常好的性能。那既然机器人快速发展爆发的时刻即将来临,我不想错失这个机会,就集中看了各家机器人公司。

AI 科技评论:可以聊聊您加入千寻智能的背后故事吗?现在您和团队其他成员们是如何分工配合的?

解浚源:在确认要加入具身智能赛道后,我就找了投资人朋友跟各家做具身智能的公司牵线交流。选择千寻是觉得千寻的能力比较强,且大家理念相合、比较投缘。现在我主要带领具身智能部,具体负责机器学习、AI 相关的算法、系统、平台,汇报给高阳老师。

大家擅长的方向都比较互补,韩总(韩峰涛)是机器人行业的连续创业者,对机器人行业有着深刻的洞察和丰富的经验。高老师和我负责 AI,高老师在算法研究和技术大方向上有比较多的经验,而我在大厂干了很多年,则对工程化和落地更有经验。

AI 科技评论:从最早的 CV 到框架,再到大模型和具身智能,作为多次“跨界人士”,您觉得您过往的经验积累如何帮助您应对机器人领域的挑战?是否遇到过因缺乏硬件、机械等机器人先验知识而必须补足的“认知盲区”?

解浚源:从 MXNet 开始,我就一直在做系统和框架。其实框架和系统在这么多年都是一套东西,不管是做什么应用,CV、推广搜、大模型、具身智能都是一套底层的系统和框架,所以好处在于可以比较丝滑地换业务,因为各个大方向都要用到 AI 及系统方面的东西。

我加入千寻前大家主要在做算法的验证阶段,我加入后发现,当时算法工程师写的基建代码比较粗糙,所以我就梳理了基建,把以前擅长的并行、算子优化、框架设计都直接应用过来。因为和之前的东西做得差不多,所以还比较驾轻就熟,现在把新的基建也搭了起来。

而在具体业务上,我对机器人有着比较快的直觉上的理解。尽管目前还在学习一些具体的控制算法等新知识,但因为机器人看得见、摸得着,看着它的表现就能建立直觉上的理解,所以并没有太多对于跨界的不适应。

比如有个项目是得把夹爪夹到电池上,当时出现的问题是夹爪进得太浅,会磕到电池,夹不进去。我看了模型的表现和数据采集的方式,发现采集时因为人比较熟练,经常从比较极限的位置夹。我就要求相关人员采集数据时,把弧线拉大一点,从稍远的地方空出几公分夹上去,这样模型学习时就能学到拉远和对准的过程,顺利解决了问题。

但对于机器人动力学的知识,比如机械臂的关节数量、位姿和关节角度之间正解、逆解的变换等等,这些东西虽然我之前有了解过,但现在要重新夯实一下。

路线已收敛至 VLA

AI 科技评论:目前关于具身大模型的讨论有很多,也有不少人认为路径并未收敛,因此衍生出各种定义,对此您怎么看?您认为必须具备哪些核心特征或架构才能被称之为具身大模型呢?

解浚源:虽然现在有说法称具身大模型尚未收敛,但我觉得其实技术路径已经收敛了,即大方向上比较确定为 VLA 路线,接下来就是 Scaling 的阶段。

VLA 路线基础的方向就是端到端,自动驾驶也是如此。自动驾驶之前一直做的是硬编码、写具有很多规则的系统,但这两年大家开始做端到端后,发现数据飞轮一旦转起来,用端到端模仿人的方式,进步就非常快。大模型领域同理,大家把之前自然语言处理中很多规则、先验的东西去掉了,直接做端到端的训练,发现模型自己学的比人为设计的东西要好得多。

具身智能也是如此,自从端到端的 VLA 路线表现出比较好的效果后,技术路线就已经收敛了,因为一旦实现端到端,后面就全是端到端,不可能再往回走。

AI 科技评论:所以端到端 VLA 的路线其实是比较明确的,但最大的卡点是在于数据这一块。

解浚源:没错,数据采集是这轮机器人技术最核心的难点。数据采集比以前 AI 需要做的所有数据标注工作都难,因为涉及物理世界的问题。要有机器人,要有数采员,要管理好整个供应链的机器人和数采员,让他们能够高效地采集多样化的数据。

在这之中多样化是很重要的。以前 AI 的数据标注比较机械,只要给标注员一张图片,让他们拉个框、点击鼠标,很标准化。但是机器人数据不同,如果重复做一些标准的动作,采集再大规模的数据都没有意义,反而采的越多,数据效率就会越低,所以一定要做多样化。

不过在规模扩张的同时实现多样化是一个很难的事。不能直接跟数采员说随机采数据,需要有一套很细致的管理方式,能把多样性可量化地落实下去。

AI 科技评论:那需要如此高度工程化的数据采集,我们能在什么时候看到可观的进步成果呢?

解浚源:机器人数据采集的规模每上一个数量级都能看到非常明显的提升,即机器人在操作简单物体的流畅度上、能执行不同任务的数量上都能有提升。

此外,不同于现在在桌子前操作,未来机器人还能在相对开放的空间里走来走去,做一些相对开放性的任务。还有把大的指令自动拆分成一个个小任务,然后一个个执行。这些我估计都能在未来一到三年被看到。

现在最重要的是如何高效地把规模提升。肯定不会特别快,但也不能太慢,太慢会被别人落下。现在就是怎样在硬件的制约下,以尽可能快的速度把规模做起来。

AI 科技评论:千寻近期披露了 VLA Spirit v1,和友商们同样都在做叠衣服的任务,亮点和区别在哪里? 在 VLA 方面还有哪些新研究或应用尝试?

解浚源:我们对机器人叠衣服的成功率要求很高,要实现一个比较高的水平,才能连续叠三件衣服,并一镜到底拍出来。

还有个细节是,机器人在叠衣服过程中有一个把衣服甩平的动作,这样比较快和自然,比较接近人叠衣服的状态。但是甩是一个高动态的动作,要让速度匹配惯性,所以要求以比较高的速度甩,还能做到精确,是比较不容易的。

这背后体现出的是我们搭建的整套工业化数据采集的 pipeline。因为 VLA 路线非常强,而且现在开源的视觉大模型的基础模型非常强,所以给了机器人数据后,能让它做一些看起来很不错的动作并不是特别难。更难的是工业化迭代,解决一个个细节的问题,最后累积起来,让模型的成功率从 50% 提升到 99%。这是具身智能工程化、落地最核心的能力。

当然我们现在还在建设和完善数采的 pipeline,有很多非常细节的东西,类似丰田当年“精益生产”的概念,这不是简单的一个点,而是成千上万的点累积起来,需要持续提升效果。

AI 科技评论:现在大家对具身智能落地的讨论十分热烈,您认为哪些场景是能先重点去突破的呢?

解浚源:我认为机器人的落地分为短期一两年、中期三五年和长期十年的三个时间段。短期做工厂的落地,因为现在模型能力差不多了,需要工程化落地一些场景;从中期来看,更大的机会在服务业里,比如物流、商场货架上货、酒店服务这些,是为人服务的场景,这些场景的机会比工厂大很多;而长期的愿景是十年后,10% 的人有一台自己的机器人,在家里协助自己做事。

具身智能的 Scaling Law

AI 科技评论:听下来您应该算是一个妥妥的“真机派”?

解浚源:对,我和高老师在这方面的观点比较相似,即不太相信仿真。千寻也不做很多仿真,仿真只是很小的辅助,我们不指望仿真能大幅提升模型性能。

这主要有三个原因——

一是柔性物体的仿真是个非常难的问题。做一个可以把衣服的物理特性模拟得很好的仿真器,可能比用机器人叠一件衣服还难。现有的游戏也没有能把衣服的物理特性模拟得很好的,衣服都会穿模。如果真的要把衣服的物理性质模拟准确,叠起来还不穿模,需要对衣服做特别大规模的有限元分析(Finite Element Analysis),可能要用一个集群才能模拟一件衣服。这里面消耗的显卡和工程成本已经比用真实机器人采叠衣服的数据更贵。而就算用只能模拟刚体的仿真器,也会发现生活中要操作的东西大多数不是完美的刚体,因此也不适用。

二是能从仿真器学到的东西不会超过在仿真器里做的工程量。想要模型从仿真器里学到更多东西,就得在仿真器工程上花更大精力,实际上等于用开发人员换数采人员,兑换比例很可能不划算。

三是做仿真需要大量显卡。显卡在美国相对便宜,但在中国,显卡比机器人贵,一块 H100 的价格都到 20 多万,但一台机器人的成本没有这么多。当机器人规模上量后,是比显卡便宜的。因此用显卡做仿真相对于美国没有优势,但用大量机器人真机采集数据,世界上只有中国能做,我们有强大的供应链、大量的熟练工人和工程师,做仿真相当于把优势放弃了。

AI 科技评论:但真机数据相对于仿真来说,是更难大规模上量的,这不就没遵循 Scaling Law 吗?

解浚源:我认为并非真机无法实现大规模量产,只是当前尚未达成这一目标。以中国强大的供应链能力来看,一万台机器人的产量并非难以企及,而且相较于一万块 H100 显卡,一万台机器人的成本更低。目前,“AI六小龙”这类企业投入大模型研发的基础配置已达到一万块显卡。搭建万卡集群相对迅速,毕竟显卡是现成的,批量采购一万块显卡,不到半年即可完成部署,但是搭建一万台机器人的数采工厂不可能这么快。

中国每年汽车量产规模可达数千万辆,从体积和技术复杂性来看,机器人并不比汽车更高。不过在硬件层面,机器人的技术迭代存在客观周期,无法像搭建显卡集群那样迅速通过资金投入加速推进。但循序渐进地提升量产规模是可行的,例如今年实现几百台,明年达到上千台,后年有望突破一万台,关键在于给予足够的时间周期,并非绝对无法实现大规模量产。

加上显卡价格居高不下,英伟达显卡毛利率高达 95%。与之相比,机器人的成本主要源于实际生产成本,不存在 20 倍暴利的情况,所以机器人在成本控制上具备优势,更有利于实现大规模量产推广。因此,从资本投入角度而言,一万台机器人的数采规模和万卡集群相比,对于中国公司来说效率更高。

AI 科技评论:您一直在强调数据的 Scaling Law,那这个规律在机器人和大模型这两个领域里都有什么区别?

解浚源:主要就是机器人具有大模型不具备的数据壁垒和数据飞轮。

先是数据壁垒。大模型其实没有数据壁垒,预训练的数据都是从公开的网络上爬的数据,比如全网有 14 万亿的 token,大家用的都一样,因为全人类高质量的文本数据只有这些。此外是花钱找人标注的数据,而这些数据一旦训到模型中公开提供服务,别人就能以非常低的成本直接蒸馏走。这就不光没有先发优势,反而有先发劣势。

换到互联网领域,如果互联网公司的数据能被人以非常低的成本全部拖走,那该公司就不值什么钱了,大模型是真的需要面对这个问题。而机器人不一样的,机器人数据都是私有采集的,即用自己的机器人针对性采集数据。这个数据别人拿不走,最多拿走模型。而没有数据,只有模型,没法迭代,没法从 VLA 模型中把原有数据蒸馏出来。因此,数据之于大模型是包袱,之于具身智能却是壁垒。

此外,大模型没有数据飞轮,现在没有哪家大模型公司能用用户的交互数据训练大模型,闭环提升业务指标。大模型在原理上就做不到这点,只能持续花钱找人工标注数据,还会被蒸馏走。

而对于机器人来说,一旦在某个场景落地,就能一边盈利,一边收集更多的数据,数据飞轮就转起来了。之前互联网赚钱几乎唯一的壁垒就是网络效益和数据飞轮。互联网成功和高利润的因素,大模型一个都没有,而机器人有,和互联网的模式比较像。

AI 科技评论:但具身智能里的数据壁垒较高,对行业的整体会利好吗?

解浚源:目前开源的数据集规模都非常小,只能做学术研究,没有工业落地的意义。私有的数据不需要那么多,并不是需要整个行业通力合作才能做出足够大的数据让机器人落地,一个公司拥有一万台机器人就够了,完全可以自己承担。

具身智能和大模型的共同点是 Scaling Law,区别是具身智能处于 Scaling Law 非常早期的位置,而大模型在摩尔定律进步之前是处在末期。摩尔定律两年翻一倍,大模型要提10倍、100多倍规模,要等十、二十年。而具身智能现在还处于实验室规模,一旦到工业规模就能上几个数量级。如果相信 Scaling Law,就会相信具身智能性能进步的空间一定会非常大。

来源:雷峰网leiphone

相关推荐