智源学者仉尚航：具身基础模型最终状态可能是「4D世界模型」丨具身先锋十人谈

摘要：今年，受大模型启发，业界看到了大模型带给机器人领域的新能量，开始研究能同时完成多种任务的具身智能的基础模型，希望实现能跨越不同任务、不同本体、不同场景，具有泛化能力的机器人智能体。

基于快、慢双系统的具身基础模型。

作者丨张进

编辑丨陈彩娴

今年业界开始流传着一个说法，具身多模态大模型是当下为数不多的新的创业机会。

今年，受大模型启发，业界看到了大模型带给机器人领域的新能量，开始研究能同时完成多种任务的具身智能的基础模型，希望实现能跨越不同任务、不同本体、不同场景，具有泛化能力的机器人智能体。

具身智能基础模型是一个新的领域，相关工作并不多，从早期的 Saycan 到后面斯蒂朗宁的 PaLM-E，RT-1、RT-2到RT-H系列，而最近的RDT-1B、π0的工作也引起了广泛关注。

近日在“智源论坛·2024具身与世界模型专题峰会”上，北京智源人工智能研究院作为中国大模型领域的黄埔军校，展示了他们在具身智能领域的诸多研究，其中由仉尚航领导的智源具身多模态大模型研究中心的主要研究方向是面向具身智能的多模态大模型与大数据构建，包括具身大脑大模型、端到端大模型、世界模型等，希望最终实现具身智能领域的 Scaling Law，使具身基础模型具备跨本体、跨场景、跨任务的泛化能力。

仉尚航是一位年轻的人工智能领域优秀学者，现为北京大学计算机学院长聘系列助理教授（研究员），博士生导师，智源具身多模态大模型研究中负责人。

她于2018年博士毕业于美国卡内基梅隆大学，后于2020年初加入加州大学伯克利分校 Berkeley AI Research Lab (BAIR) 从事博士后研究。她的主要研究方向包括具身智能与多模态大模型，拥有丰富的研究经验和诸多优秀的研究成果。曾获世界人工智能顶级会议AAAI’2021 最佳论文奖，Google Scholar引用数1.2万次。作为编辑和作者由Springer Nature出版《Deep Reinforcement Learning》，至今电子版全球下载量超二十万次，入选中国作者年度高影响力研究精选。仉尚航于2018年入选美国“EECS Rising Star”，于2023年入选“全球AI华人女性青年学者榜”。

仉尚航

当下，具身智能的基础模型已经出现两条不同的技术路线：针对原子任务的端到端多模态大模型，以及针对复杂长程任务的分层大模型，此外还有非常少量的关于具身世界模型的研究。

仉尚航带领的智源多模态大模型研究中心，基于上述不同的技术路线，设计了面向机器人具身模型的快慢系统，快系统能够直接预测末端执行器的pose和action，慢系统可以反思和纠错，不断提升机器人的大脑能力。

仉尚航认为无论是端到端模型还是分层结构，我们都希望机器人能够更好地理解物理世界中的物理规律，对世界进行理解、建模与推理，在时间和3D空间中与世界更好地进行交互，其中时空智能很重要，所以具身智能基础模型最终的状态可能是4D世界模型。

以下是AI科技评论与仉尚航的对话：

1 智源具身多模态大模型研究中心

AI科技评论：智源具身多模态大模型研究中心的主要研究方向和目标是什么？

仉尚航：面向具身智能的多模态大模型与大数据的研究。为了去构建、训练具身智能领域的大模型，我们需要去采集、标注具身智能大数据，包括真机数据、互联网数据、仿真数据等，最终是为了实现具身智能领域的 Scaling Law。

在 NLP 领域，Scaling Law 让大家看到了大模型的泛化性、涌现能力和通用性，因此，在具身智能领域Scaling Law 也有可能带给机器人一些泛化的、通用的能力，我们需要去探索机器人领域的大模型，实现机器人领域的 Scaling Law。具体来说，就是基于多模态大模型构建具身基础模型，驱动不同本体的机器人能够完成开放世界的复杂任务，实现跨本体、跨场景、跨任务的泛化。

AI科技评论：您研究中一个很重要的部分是开放世界泛化机器学习，这一方向是研究具身智能的哪些问题？面临的最大挑战是什么？

仉尚航：开放世界泛化机器学习的研究主要使AI模型在开放世界中面临新的数据分布时，可以自动适应新的环境，解决新的任务。比如如何提升自动驾驶模型面对不同季节、不同时间、不同天气以及其他长尾任务的性能，如何让机器人在开放世界的场景下完成复杂的任务。我们基于这个方向的积累提出了更具泛化性的具身基础模型，使机器人在面临复杂场景和任务时，可以自主发现错误，并进行自我纠正与模型进化。这个方向是构建具身大模型的基础。

AI科技评论：具身智能没火之前，大家都在做多模态大模型，之前做多模态大模型的那一拨人，跟现在做具身多模态大模型的，是同一拨人吗？两者有什么区别？

仉尚航：不会是完全是同一拨，目前来看做具身智能的学者或者从业人员很少专门跳去做多模态大模型，但是多模态大模型方向的研究人员有可能会转去做具身多模态大模型。要想做具身多模态大模型的方向必须具备至少两方面的能力：一个是多模态大模型方向的研究能力；另一个就是具身智能领域的专业能力。

AI科技评论：这样的人才在国内多吗？

仉尚航：很少。我们在智源招聘的过程中就发现，同时具备具身智能和多模态大模型能力的人现在非常少，因为两个方向都是比较新的，再结合在一起就更加少了。

AI科技评论：都是新方向的话，怎样去招人呢？

仉尚航：首先要尽量去挖掘。就像智源挖掘到我这样，可以通过我过去的论文发表情况看到我的研究包括多模态大模型、泛化学习、自动驾驶、与机器人，对进行具身多模态大模型的研究具备了良好的基础与潜力。

第二种方式就是想办法去强强结合。我们团队有擅长机器人的研究员，也有擅长大模型的研究员，然后我可以让两者去合作，互相学习和促进。

AI科技评论：具身多模态大模型研究中心现在有哪些研究成果？

仉尚航：目前中心成立不到半年时间，进展还是比较快的。我们的主要研究工作是面向具身智能的多模态大模型和大数据构建，它背后有一个统一的思路：设计具有类人思考快系统与慢系统的长程闭环框架。

基于这样的思路，我们研发了一系列的具身智能基础模型。该思路是受到了心理学家丹尼尔·卡尼曼的启发，他在《思考，快与慢》一书中提出，人的思考分为感性直觉的快系统和意识理性的慢系统。

我们创新地设计了面向机器人具身基础模型的快慢系统框架，快系统能够高效快速地预测末端执行器位姿，慢系统则是在面对复杂和错误行为时更加深入地思考和纠错，不断提升机器人大脑的能力。

为了实现该快慢系统框架，我们探索了具身端到端以及大小脑分层结构的不同技术路线，进行开放世界泛化物体操作，并基于大脑模型进行语义理解与常识推理，实现零样本物体导航。

无论是端到端模型还是分层结构，最终都是为了让机器人能更好地理解物理世界规律，更好地与环境交互，更好地执行时序上的准确行为。因此，智源同时提出了四维世界模型Robo4D，为世界模型构建四维时空，以解决机器人在开放世界中任务操作的物体泛化以及场景泛化等问题。

相关研究被国际旗舰会议NeurIPS 2024、ICML 2024接收。

2 具备快、慢系统的具身智能大模型

AI科技评论：具备快、慢系统的端到端大模型是怎么工作的？

仉尚航：针对端到端大模型，我们研发了一个具备快速直觉推理和慢速反思纠正能力的快、慢系统端到端大模型（Self corrected Multi model large language model for end to end Robot manipulation），这也是我们最近的一个投稿工作。具体指一个端到端大模型同时具备了快系统和慢系统。

快系统模仿人类思考的过程去构建一个机器人端到端大模型，所谓的快系统就是利用参数高效微调的技术进行一个准确 pose—estimation。当模型检测到部分执行会失败的时候，慢系统实现一个chain of thought的思维链纠错，自主化分析错误原因并调用 expert model 进行反馈提示，从而对它的 action 进行调整，使得我们可以有更准确的action输出。

这样的系统使得模型可以对错误进行反思并且修正自身错误，从而去增强模型的泛化性和鲁棒性。在实验过程中的 unseen 任务部分，和最新的 Sota 比起来我们有20%以上的提升，说明快慢系统的思路还是比较成功的。

AI科技评论：达到20%的提升是在多久时间内实现的？

仉尚航：如果是在服务器端进行训练和优化，30类任务只需要几小时便可以实现精度20%的提升。

AI科技评论：这样拥有快、慢思考的具身大模型会给机器人智能带来怎样的提升？

仉尚航：拥有这种架构的机器人能够拥有更强的推理与逻辑思考能力，能够更好地分析解决长程任务，此外同时面向一些错误的情况可以进行自我纠正，利用自我纠正的机制可以快速适应场景、学习新的技能。

我们认为具备自我进化能力的机器人才是解决所有任务所有场景的通用解。另外，一个能自主学习、自我进化的机器人的驱动方式也会有变化，一个比较远的设想这样的机器人是可以使用prompt，甚至更高级的概念比如同理心、好奇心、成就感进行驱动的，甚至只需要机器人三定律就可以让机器人出厂在人类环境进行自我进化。

AI科技评论：大脑大模型方面有什么进展？

仉尚航：我们最近研发了一个面向具身智能的大脑大模型。它基于多模态大模型，可输入多种模态的信息，包含视觉场景、指令、机器人状态信息。将这些信息输入给大脑大模型之后，能够输出多种模态的信息，包括关于任务的拆解和规划，它可能是一种伪代码的形式去输出。

这样的话大脑模型就生成了指令，接下来小脑大模型可以一步一步地按照指令去执行。这样就可以把一个长程任务拆解成一个个原子任务。同时，大脑模型还可以输出像 Trajectory、Key points等信息，帮助小脑大模型缩减它的动作执行空间，这样小脑大模型就相当于去处理一些更加简单的原子任务就可以了。

AI科技评论：小脑大模型呢？

仉尚航：小脑大模型方面，我们最近有一个工作RoboMamba被 NeurIPS 接受，今年 12 月在加拿大会有一个展示。它是一个端到端的多模态大模型，输入的是视觉、场景和指令，输出的是action，它的特点是既具有了推理能力，又具有了高效性。

RoboMamba借鉴了最近提出的状态空间模型Mamba，在它的基础上实现了高效推理和动作预测能力，而且它可以保持较低的微调和推理成本。通过整合视觉编码器与 Mamba 并对视觉标记和语言嵌入进行联合训练，RoboMamba 具备了视觉常识和机器人推理能力。此外，通过简单策略头进行高效微调，该模型以极少参数实现了 SE(3) 位姿预测。

RoboMamba的工作在一般的通用多模态推理评测基准以及机器人评测基准上，都展现出了比baseline更好的推理能力，并且它能够只用 3.7 B 的参数就可以适配到各种机器人本体上。同时还具备准确的end-effector pose预测能力，可以实现小脑大模型所需的功能。

而我们现在拥有的端到端大模型、分层大模型，在我们的研究体系里，可能又是分久必合、合久必分的状态，最终会统一成一个 4D 世界模型。

3 模型和数据就像跷跷板

AI科技评论：在大语言模型中会有算力、算法、数据这关键三要素，那么在具身智多模态大模型中是否也对应着同样的关键三要素？

仉尚航：是的。跟大模型一样，具身大模型有自己的数据瓶颈，而且更难；大模型的算力要素对应具身智能中的本体；大模型算法对应具身模型的设计。

AI科技评论：大语言模型的 Scaling Law 能够复制到具身大模型领域吗？

仉尚航：可以，很多具身多模态大模型也初步展现了一个能力，即当具身智能的模型规模变大、训练数据变多的时候，它确实具备了更强的泛化能力。

但同时，由于目前训练等数据不够多、模型还不足够大， ScalingLaw 只是初见端倪，离 Gemini 或者 ChatGPT 系列模型能力还是需要很长一段时间的路要走。

AI科技评论：具身大模型的数据与模型的关系，跟大语言模型中数据和模型之间的关系是一样的吗？

仉尚航：不太一样。大模型的发展进程是这样的，先有大语言模型，再有多模态大模型，而现在还没有非常多的视觉大模型，这一顺序背后很重要原因就是数据的瓶颈。

为什么大语言模型先出来？因为其训练数据容易获取，它通过有效的自监督学习就可以实现大规模的预训练，互联网上有广泛的、海量的数据，部分不需要大量的标注就可以去预训练。之后的多模态大模型，是借助大语言模型的能力再去做多模态能力，即视觉模态和语言模态的对齐，然后让整个多模态模型也具备了大模型的涌现能力。

但到视觉大模型就有点难做了，纯视觉大模型很少，因为视觉这个模态的标注是很难获取的，不像大语言模型那样直接上网下载一些语料就可以训练。所以这也是为什么到了视觉大模型这边反而进程会很慢，因为缺高质量的、有标注的视觉数据。

再进一步，到机器人的层面就更难了。因为机器人面临的不仅是视觉世界，它还有action，甚至还有物理规律。首先数据怎么采集是问题，并不是互联网下载就可以了，还得用真机去采，采完之后还得标注。而且数据是多元化的，甚至包含了触觉、声音、力，这一系列过程都是非常难且昂贵的。

AI科技评论：数据难题如何解决呢？

仉尚航：机器人的数据金字塔最下层是海量的互联网数据，往上是仿真数据，再往上是真机数据。其中精细标注的真机数据是塔尖，真机数据肯定是越多越好的，只不过成本有点大，所以目前没有办法采集很多。再往下是仿真数据，仿真数据面临的一个很大的问题是从仿真到真实得 gap，仿真数据训练的模型迁移到真实的场景中难度较大。

机器人领域也可以下载大量的互联网数据，例如：互联网人手操纵数据，但是怎么利用这些海量的互联网数据去训练一个机器人的模型是一个非常难的课题。

我觉得数据和模型就像是跷跷板，如果你对数据的要求变低了或者下载海量的互联网数据了，那对模型设计的要求就会相应变高了，就需要设计一个能够利用互联网数据去训练的大模型，那么这个模型的设计、算法的设计就变难了。如果模型变得简单一点，那么对数据的需求就变大了，需要是高质量的、大量的精标数据。所以两者就是一个跷跷板，一方的要求变低了之后，另外一方的要求就会变高。

AI科技评论：所以具身智能的多模态大模型需要从头开始训练吗？

仉尚航：既然已经有一定多模态模型或者视觉预训练模型的基础了，为什么不用呢？而且机器人大模型或者我们叫大脑大模型，它也是要像人一样去推理的，所以我们一般不是完全地从头开始训练。

AI科技评论：在数据收集上，多模态大模型研究中心是否有独特的方法？

仉尚航：我所在的小组侧重于真机的数据采集。第一，由于我们是跨本体的研究，所以我们收集的数据也不是只针对一种类型的机器人，会跨越灵巧手、手臂、整个身体、双足机器人、机器狗等全都覆盖掉；

第二，专门构建一个机器人数据训练场，面向家居、工业物流搭建了一系列场地专门用于采集数据；

第三，会根据最新的方案，去开发数据采集的遥操作系统；

第四，我们专门针对大模型的需求去定制了一个机器人数据的自动标注流程，并且实现了自动标注；

最后，由于我们比较擅长做机器人大模型算法层面的事情，所以会形成一个数据和模型的闭环，即我们不是只采数据，也不是只做模型，而是两者都了解。这样我们就知道针对模型训练，应该去采什么样的数据，可以保证采集的数据是切实可用的。

4 2D、3D到「Real World 4D」大模型

AI科技评论：现在的大模型大部分是集中在云端上，是没法在机器人本体上跑的，因为机器人需要一个非常高算力的板卡，这意味着成本高、散热成问题、功耗高，智源的具身多模态大模型如何跑在机器人本体上？

仉尚航：在CVPR2023和CVPR2024上，我们设计了一个端云协作的大小模型协同训练和部署的方式。可以在云端去训练这个大模型，然后通过知识蒸馏、模型量化的方式得到小模型，再把这个轻量化的小模型部署在终端上。

终端可以放一个Nvidia的板子，这个板子上可以部署一个小的如1B的模型。在终端上放置一个轻量化的大模型，既能保持住大模型的能力，也可以更高效地部署。

AI科技评论：具身大模型部署到机器人本体上是一个待解决的难题吗？

仉尚航：是的。目前我们去研究一个具身多模态大模型，会让其先具备推理能力、action 能力，也就是先做一个面向机器人场景，尽可能鲁棒的大模型。在这基础之上，再专门地去做模型的轻量化的方式。

我之前在伯克利的导师 Kurt Keutzer，他带的一个研究组做了从 CNN 到 Transformer 到大模型一系列的轻量化工作，有很多技术储备。因此于我们中心而言，不太担心模型不容易部署的问题，更何况我们还有端云协作的系统，可以实现 online 的更新。

退一步讲，如果模型轻量化之后能力没有云端大模型那么强，我们还可以借助端云协作的模型，在遇到特别难的 case 后，可以把给它传到云端，让云端更大的模型去进行推理工作。所以轻量化部署的问题的话，并不一定是第一步就要解决的，我们的第一步还是要先把具身智能大模型做得尽可能强大。

AI科技评论：智源的具身多模态大模型主要落地到什么样的机器人上？适配了哪些芯片？

仉尚航：我们在智源设计的具身大模型是具备跨本体能力的，智源与国内的多家人形、机械臂与灵巧手的公司进行了合作，预期在国内形成数据、模型以及本体和业务的生态循环。

有关芯片我们的考虑是先在Nvidia生态上的服务器和自动驾驶端的芯片上进行快速迭代，我们看到国产的芯片也在逐步往机器人具身任务上发力，比如地平线成立了地瓜机器人，华为也在支持机器人方向的落地，这些都是未来我们要合作的对象。

AI科技评论：为什么要研究「Real World 4D 模型」？

仉尚航：无论是端到端模型还是分层结构，最终都是为了让机器人能更好地理解物理世界规律，更好地与环境交互，更好地执行时序上的准确行为。因此，我们同时提出了四维世界模型Robo4D，4D 即三维的空间加上一维的时间，就变成了四维的世界模型。

为世界模型构建四维时空，以解决机器人在开放世界中任务操作的物体泛化以及场景泛化等问题。利用世界模型预测机器人与环境交互后的未来事件，从而生成准确的行为，提前预测行为是正确还是失败。实现真实世界的四维时空世界模型是迈向机器人整体AGI的重要一步。

四维世界模型将作为机器人的世界基础模拟器，同时具备时间与空间智能，拥有长短期记忆与物理概念学习等能力，与真实物理世界进行交互并从中得到反馈。

真正的 4D 的世界模型，它可以集感知、导航、操控为一体，和真实世界交互，反映物理规律，更准确地完成各种任务。

在机器人的整体AGI 概念中，预测是非常关键的步骤，例如，未来的机器人不是说向它发送了「要喝水」的指令，它就可以按照从一到五的步骤一次性地生成出来，而是机器人会根据每一步的操作再去决预测下一步，它会判断第一步操作之后世界会发生了什么变化，再根据世界的变化去执行第二步的操作。尽管我们在大小脑的路上充满期待，但同时也意识以人为参照的话，具身大模型还缺少了“想象”这一环。这一环就是世界模型来补足的。

AI科技评论：如何实现一个「Real World 4D 模型」？

仉尚航：这需要在数据、模型结构以及训练方式上都有创新，从我们的角度来看，在数据层面采集更多的真机数据进行更系统的标注与处理，并针对性的指导数据采集方向，探索能够更高效将互联网低成本数据使用起来的网络结构。

基础模型层面我们部署自我纠正的机器人模型在现实世界进行更大规模的数据采集以及自我进化，模仿人类的思维方式，提出泛化性更强、更鲁棒的基础模型。我们并不只是堆砌数据进行预训练，而是通过人和机器人与世界的交互来引导具身模型迭代，更系统性的构建具身大模型与大数据，从而实现real world 4d模型的训练数据构建。

从模型结构角度来说，我们也一直从各个角度在探索各种预测器。空间上我们近期研究了机器人场景下的4D重建模型，是在探讨多视角的预测问题；时间尺度上我们近期从视频生成模型的角度提出EVA，具身智能世界模型的视频预测器，研究通用视频生成模型在机器人任务下的泛化能力，都是对世界模型模型的探索。

此外更积极的拥抱机器人本体公司与算力生态的公司，推进大模型在某些有价值的场景获取更多真实的数据与更多的反馈。世界模型就是要让我们、让机器人、让模型、让数据快速的和真实世界交互反馈增强，

AI科技评论：具身大脑有几种技术路线分别是多模态、空间智能、世界模型。这几条路线是渐进式的关系吗，先是多模态，然后再是空间智能，然后再到 4D 世界模型？

仉尚航：路线确实有点渐进的意思。

目前端到端和分层结构是并行的，但是在端到端和分层结构之后可能就要到世界模型了。现在大部分处理的还是 2D 的问题，接下来就要处理3D几何信息，包括我们团队现在正在做的就是 3D 具身智能大模型，下一步或者同时在进行的另外一系列工作就是 4D 世界模型和4D VLA模型，所以从 2D 到 3D 到 4D 也是一个进程。

但实际上并不意味着只有一条路线达到终点另外一条路线才会开始。具身智能现在是百家争鸣的状态，各家有不同的理解和方法。但最终都是在研究时间和空间的理解，4D世界模型可能是一种大家都需要达到的最终形态。

AI科技评论：具身智能的基础模型的终极形态会是4D世界模型吗？

仉尚航：有可能，但目前还无法下定论。因为人还有触觉、嗅觉、力等其他维度，这些是当下的机器人还不具备的，但至少它们已经能够帮人类完成很多现实生活中的任务了。

AI科技评论：在世界范围内，4D 世界模型现在有什么样的进展？

仉尚航：目前在国内外的话，有很多关于自动驾驶的世界模型工作，机器人世界模型也有一些2D video的工作，但是4D世界模型的研究还是空白。

可能我们算是第一个提出的。现在也已经做有了初步的成果，马上就会投稿到人工智能顶会上。