摘要:在2025年3月29日,中关村论坛—未来人工智能先锋论坛上,智源研究院发起了一场以《具身智能,通往AGI之路?》为主题的圆桌讨论。来自银河通用、穹彻智能、乐聚、星动纪元、智源研究院等机构的多位专家学者齐聚一堂,围绕“具身智能”的发展路径、数据范式、算法突破、系
大数据文摘受权转载自智源社区
在2025年3月29日,中关村论坛—未来人工智能先锋论坛上,智源研究院发起了一场以《具身智能,通往AGI之路?》为主题的圆桌讨论。来自银河通用、穹彻智能、乐聚、星动纪元、智源研究院等机构的多位专家学者齐聚一堂,围绕“具身智能”的发展路径、数据范式、算法突破、系统架构与落地挑战等展开讨论,七问具身智能。
具身智能作为AGI探索中的关键方向,逐渐显现出技术路线上的分歧与融合:有人强调其对动态感知与物理交互的依赖,有人提出“99%合成+1%真实”的训练策略,有人认为世界模型尚未触及本体物理,有人则支持其未来的预判能力。正是在这些交锋与思辨中,具身智能的发展逻辑逐渐清晰,其对 AGI 的意义也愈发凸显。
本次论坛的嘉宾有银河通用机器人创始人、智源具身智能研究中心负责人王鹤;上海交通大学教授、穹彻智能创始人卢策吾;乐聚机器人创始人兼董事长冷晓琨;星动纪元创始人、清华大学助理教授陈建宇;智源研究院院长王仲远共同参与讨论,并由机器之心主编李亚洲进行主持。
01
一问路径:具身智能代表人工智能发展的高级阶段
李亚洲:为什么说“具身智能”是通向通用人工智能(AGI)的必经之路?与其他路径相比,它具有什么独特的优势?
图注:上海交通大学教授、穹彻智能创始人 卢策吾
卢策吾:可从两方面理解。一是静态层面,它具备模态完备性,直接对应实体世界。图像和语言只是世界的投影,而具身智能能承载更全面丰富的信息。二是动态层面,它具备开放探索能力,能通过交互不断获取新信息,实现持续更新。因此,具身智能不仅代表了人工智能发展的高级阶段,也可能是通向 AGI 的必经之路。
陈建宇:人类本身就是AGI 的最佳例证。我们的智能不局限于语言或图像,而是基于丰富感官,能以多模态方式与现实深度交互。更重要的是,人类始终处于“感知—认知—决策—行动—反馈”的闭环中,不断优化认知与行为策略。因此,构建全面感知能力和动态闭环机制,是迈向 AGI 的关键路径。
王鹤:从数据和学习效率两个维度看,当前大模型主要依赖互联网上的文字和图像数据,但这远不能覆盖人类婴儿成长过程中所接触的真实、多模态感知信息,例如触觉、运动和环境互动等。婴儿通过主动探索和多感官交互来理解世界,其类比推理和学习效率早已超越当前的视觉-语言大模型。这种具身智能特有的学习方式,有助于加速智能体的成熟,是迈向 AGI 的重要路径。
冷晓琨:具身智能出现的核心,在于大模型具备与真实世界交互的能力。强化学习能够成功,本质上也因其能与环境进行实时互动。现实环境的细节极为丰富,例如玻璃起雾、热胀冷缩等,只有在AI 智能体能够探索真实环境时,才有机会学习掌握这些细节。过去,人形机器人缺乏清晰的发展逻辑,直到具身智能出现,才让它成为通用智能理想的载体。具身智能需要在真实世界中感知和行动,人形形态正好适配多种场景和任务。我相信,具身智能与人形机器人的结合,将持续推动智能体向通用方向演进。
王仲远:在去年的智源大会上,AGI的定义存在争议。一年过去了,尽管学界和业界持续交流,但对AGI的理解仍未统一。如果只看文本维度,当前大语言模型在理解和推理方面已接近人类,“文本领域的AGI”已初步实现。但现实世界远不止文字,还涉及图像、声音、视频与时空等多模态感知,这些对现有模型来说仍是挑战,处于探索早期。而在具身智能与环境交互感知方面,AGI 的发展更是处于起步阶段,甚至可称之为"婴儿期"。
02
二问数据:“99%合成数据+1%真实数据”的训练范式
李亚洲:在各位老师的分享中,多模态数据的重要性被反复强调,这确实是发展具身智能的关键要素。
请问:未来哪些模态的数据对具身智能的影响比互联网文本和图像更大?采集这些数据时的主要瓶颈是什么?
图注:智源研究院院长 王仲远
王仲远:当前具身智能研究主要集中于视觉与文本模态,例如视觉语言模型(VLM)或视觉语言动作模型(VLA)。与此同时,诸如触觉、温度、力反馈以及对空间与时间的感知等模态信息却常被忽视,尚未得到充分利用。我们认为,这些模态对于未来的具身智能至关重要。
冷晓琨:我们在研发具身机器人时也面临关键问题:究竟需要采集哪些数据?虽然现有模型的数据标准看似完备,但其实际任务能力仍需验证。目前有两个核心疑问:是否需要更高层次的抽象模型?现有数据模态(如视觉、触觉等)是否足够?尤其值得注意的是,当前硬件在触觉数据采集上存在明显局限,通常只能获取基础力反馈。更根本的挑战在于:由于技术路线尚未定型,我们面临数据采集的"迭代风险",即投入大量资源获取的数据,很可能被后续模型升级所淘汰。
王鹤:具身智能发展的关键瓶颈在于数据,主要分为真实数据和仿真合成数据两类。真实数据包括无动作标签的被动观测数据(如互联网视频)和机器人遥操作采集的交互数据。虽然互联网视频数据量庞大,但训练价值有限,因为模型需要先具备基础运动能力才能有效模仿学习。因此,银河通用主张优先使用大量合成数据进行预训练,之后再用真实机器人数据精调。
在人形机器人尚未达到自动驾驶百万量级规模的现阶段,合成数据是最具价值的数据资产。采用"99%合成数据+1%真实数据"的混合训练范式,能高效推进技术发展,在最后关键环节利用真实数据完成应用落地,是目前最行之有效的策略。
图注:星动纪元创始人、清华大学助理教授陈建宇
陈建宇:在多个模型中,视觉最重要,我为其赋予 80 分的权重。视觉信息获取方便,可来自互联网或仿真生成。其次是触觉。若要实现精细操作,必须依赖触觉数据;最后是声音。声音不仅可用于语音识别转文字,还能辅助操作过程。例如倒水时,流水声有助于控制动作。然而,目前大多数 AI 模型不具有这些反馈能力。
卢策吾:关于方法论和技术路线,目前已有诸多争议,但现阶段无需纠结优劣。不同类型的数据各有信息价值,关键在于合理分配和搭配使用。这就像配方优化,随着技术发展,自会趋于平衡。
常见的数据来源包括:
互联网数据规模大,但缺乏操作细节,多为动作表象,虽不完美,仍能提供识别线索。
仿真数据同样丰富,但在处理复杂接触和数据管理上存在挑战,尤其当识别容错率低时,使用成本高。
真机数据在缺乏力反馈时噪声大,加入反馈系统又提升成本。新兴的“伴随式操作”则通过人类替身方式,降低了采集难度与成本。
03
三问算法:跨本体是实现泛化的最后一步
李亚洲:自深度学习时代以来,数据始终是人工智能的重要组成部分,而核心算法同样不可或缺。
请问:在具身机器人研究中,如何定义其泛化问题?当任务规模与复杂度不断提升时,如何实现跨本体、跨场景、跨任务的泛化能力,迈向更高水平的通用性?
图注:宇树科技的春晚机器人,现场扭秧歌
王仲远:泛化能力是具身智能的核心挑战。尽管网络上机器人演示精彩纷呈,真正能现场稳定运行的团队并不多,我们是其中之一。另外,我观察到现在一个2岁的小朋友通过刷短视频自学,再通过尝试和练习掌握,自主学会了拆糖果、用牙签串蓝莓。这正体现了“预训练 + 后训练”的学习范式。我们希望未来机器人也能像人一样自主学习、积累技能,拓展更多实际应用。
王鹤:我非常认同王仲远院长关于人类学习的观察。一个2岁小朋友通过观看拆糖果的视频并获得“糖果奖励”,展现出类似多模态大模型+强化学习的能力。而具身智能领域对此仍处在早期探索阶段。在讨论任务通用性、能力泛化和跨本体迁移时,我们应意识到:人类其实也不具备真正的跨本体能力。例如,长期卧床会导致肌肉萎缩,需要康复训练才能恢复功能,这只是生理状态的变化,已说明跨本体对任何智能体都是极大挑战。因此,应先在单一本体上实现泛化,再拓展技能,最后再考虑跨本体迁移。
从产业角度看,应优先聚焦具备生产价值的基础任务,如抓取、放置、移动等。这些动作虽简单,却是工厂、零售等场景的基本组成,支持大量真实应用。
图注:银河通用机器人在操作拿取杯子和水
只要结合大模型和少量数据,让机器人在基础任务上实现较强泛化,就能显著提升生产力。这也是人形机器人走向更复杂任务与场景的前提,跨本体迁移应作为后续目标。
04
四问落地:从实验室到家庭与工厂,机器人需要更鲁棒性
李亚洲:当前多数实验仍局限于实验室环境,由研究人员进行精细操控。那么在家庭和工业这些实际场景中,如何大规模验证机器人的鲁棒性和稳健性?
陈建宇:要让机器人真正落地,必须建立完善的质量测试体系,涵盖多个层级。先确保硬件本体的可靠性,明确其出错概率和使用寿命。例如,对灵巧手或多关节部件要测试其老化周期和一致性。整机组装后,还需评估其动作的持续性与稳定性。
在硬件测试完成后,还要结合实际场景进行验证。机器人进入家庭或工业环境前,也需经历类似严格的评测流程。只有通过系统性的测试体系,才能确保其鲁棒性和可靠运行。
图注:乐聚机器人创始人兼董事长冷晓琨
冷晓琨:目前人形机器人行业仍处于初期阶段,尚无成熟标准。比如,若用于工业生产,需评估其“无故障运行时长”。我们内部标准是连续工作 1500 小时(约 100 天),达到这一可靠性,才能进一步考虑投资回报率(ROI)。
从技术角度看,机器人执行任务的稳定性依赖于场景状态、机器人状态和任务本身。实现真实工业应用,就必须采集并分析这些数据。当前行业多从简单应用入手,通过“相似场景”的泛化能力打基础,并在训练场中进行大量模拟训练。只有当其在预设 ROI 标准内表现足够稳定,才能胜任复杂任务,真正融入生产与生活。
李亚洲:机器人进入家庭,将面临更复杂任务,用户期望其具备通用性,方能真正“走进千家万户”。
接下来请谈谈机器人灵巧手的重要性。目前对于灵巧手的灵巧程度有哪些衡量标准?不同的传感器又有何种技术要求?
图注:全球首例机器人刮胡子,穹彻智能出品
卢策吾:我们实验室在研究灵巧手,这是一个非常有价值的方向。当前工业多用二指机械手,但其灵活性有限,灵巧手可在此基础上补充关键功能。
从学术角度看,灵巧手研究需求强烈;从产业角度则需关注稳定性、价格与必要性。若场景中二指机械手已能胜任,就无须使用更复杂的五指灵巧手。商业化需在这三方面权衡。
我常提醒学生,研究应聚焦二指无法完成的任务。许多工作仍停留在抓取层面,而这通常二指即可胜任,为何还需灵巧手?有些任务灵巧手任务,尽管看起来“酷”,却难有实际研究价值。
李亚洲:几年前,OpenAI曾发布过一张“五指机械手玩魔方”的图片。
图注:2019年,OpenAI 发布,机械手玩魔方
卢策吾:玩魔方的商业应用价值或许不大,但确实是二指机械手难以完成的任务,是很有意义的研究方向。
05
五问系统:具身智能中的大脑与小脑协同机制
李亚洲:王仲远老师在介绍智源研究院成果时提到“大脑”“小脑”与机器人本体的概念。请问,在构建智能“大脑”时,如何实现“大脑”与“小脑”的协同控制?又如何解决不同机器人本体与具身“大脑”间的兼容性问题?
王仲远:关于具身智能方向,目前学术界和产业界尚无统一共识:应采用分模块实现,还是端到端整合?参考自动驾驶,端到端或许是最终形态,但需依赖海量数据,而分模块方式更易落地。我们观察到,许多机器人公司正通过数据采集训练技能。如果能通过“跨本体”的大脑复用不同厂商的技能,将加速实际部署,并积累更多数据,为实现真正的具身智能打下基础。当然,合成与真实数据缺一不可。如我之前所说,这些数据将用于微调和后期训练,赋予机器人一定的泛化能力。
李亚洲:冷老师有何看法?
冷晓琨:我更倾向于分层方式。端到端虽进展快,但易造成算力浪费。人类也是分层控制,若“大脑”和“小脑”耦合不佳,会导致资源闲置或重复。产业上,各团队侧重点不同:有的关注模型,我们更关注“小脑”和硬件。这种分工导致协同困难,通用化阶段易产生冗余。核心问题是:接口规范应由模型方主导,还是硬件方主导?这关系到技术信任与主导权。因此,未来“大脑”和“小脑”都会发展,但关键在于如何高效融合团队,这既是技术问题,也是行业挑战。
06
六问方向:“它不是具身智能的主要力量” V.S. “我支持世界模型的研究方向”
李亚洲:当前,世界模型是研究热点。请问能否利用现有的大语言模型和多模态模型,构建具备物理预测能力的世界模型,以推动具身智能发展?其中面临哪些关键挑战?
王鹤:我对“世界模型”这一方向持保留态度。以“Sora”为例,它虽称为“世界模拟器”,实则缺乏对真实物理特性的建模。当前许多所谓世界模型主要依赖视频合成,忽略了机器人本体和物理交互的信息,如关节位置、力控参数等。如果只通过第三人称视角的视频模拟环境,而不关注机器人自身的结构和控制机制,只能算是“视觉合成”,而非真实的世界建模。
图注:Jurgen 2018年 放出论文“world models”。该文章最终以 “Recurrent World Models Facilitate Policy Evolution”的title发表在NeurIPS‘18
若想通过“世界模型”推动人形机器人发展,需大量机器人在真实环境中操作并采集数据,但现实中我们缺乏足够的人形机器人来完成这一任务。即便已有这些数据,或许直接用于三维动作生成更有效,也不必依赖视频合成。问题在于:没足够的机器人,就难以获得高质量数据;没数据,又难训练出准确的世界模型,形成“鸡生蛋”的困境。因此,世界模型或视频大模型目前更适合作为辅助工具。
陈建宇:我支持世界模型的研究,并认为其对智能系统发展至关重要。人类之所以智能,不只是依靠条件反射,而是不断预测未来:看到杯子会担心它掉落,开车会预判其他车辆动作。这种预测能力让我们做出更稳健的决策,而现有大多数“感知-动作”模型正缺乏这一点,通常只是将感知直接映射为动作,类似条件反射。预测虽不必绝对准确,却足以提升决策的效率、泛化能力与适应性。我们也在研究中将世界模型融入大模型,在部分基准测试中已取得不错的成果。
07
七问未来:具身智能的ChatGPT时刻不远了!
李亚洲:关于世界模型与具身智能,大家看法不一。无论是视觉模型、世界模型,还是大语言模型,技术都在快速演进。我想抛出一个预测性问题:具身智能作为长期方向,各位认为它的“ChatGPT时刻”何时会到来?未来五年,相比现在又会出现哪些新机会?
卢策吾:大家看法不一。目前算力和算法仍在发展,具身智能的“ChatGPT时刻”不会突然到来,而是会在不同场景中逐步显现,每一次突破都反映模型能力的进步。我认为这是一个阶梯式演进过程,最终会在某个时点迎来拐点。虽然时间难预测,但未来一两年可能出现第一波关键进展。整体上,具身智能可能以两年为一个周期,持续推进。
从应用场景来看,物流领域的抓取操作将是最快突破的方向,根据我们的实践观察,食品精加工等标准化场景也具有较快落地潜力。此外,结构化环境中的应用同样值得关注。
陈建宇:机器人的ChatGPT时刻”取决于怎么定义。如果像ChatGPT那样通用、开放、反应灵活,那就要求机器人能在各种场景中自主完成任务并做出合理推理,这一目标至少还需三年以上。不过,未来一两年内,机器人在特定场景中实现实用落地是有希望的。
图注:银河通用机器人创始人、智源具身智能研究中心负责人 王鹤
王鹤:如今,人形机器人热度很高,这条路线需要长期打磨。智能与硬件将在发展中交替成为瓶颈,相互推动。目前轮式机器人,已经可以从货架上主动取下咖啡供人使用。在此类场景中,轮式方案在成本、续航和可靠性上更具优势,不一定需要“腿”。
阻碍轮式机器人应用于便利店等复杂场景的关键在于智能水平。预计到2025年或2026年,会迎来“货架级别智能”的突破,能大规模部署十万元以上、功能可靠的轮式机器人。虽然这未必是“ChatGPT时刻”,但对行业价值却相当大。
冷晓琨:具身智能与纯软件型智能的最大区别在于对硬件的依赖。ChatGPT作为一款软件,一旦成熟可迅速推广,而机器人则受限于硬件发展的节奏,从实验室到产业化通常需要3到5年,同时还依赖软硬件的协同演进。
之前有一项数据显示,工业机器人虽然看似规模庞大,但其对GDP的贡献不足2%,关键原因在于功能专用。而具身智能与人形机器人的出现,凭借通用性,能推动机器人在更多场景中落地。在这一过程中,产业化不断成熟,智能程度不断提升,技术将逐步渗透各类场景。当然这个过程不会一蹴而就,会从较简单或垂直的场景开始,逐步深入。等到五年或十年后再回顾,会发现智能机器人已经无处不在。
王仲远:“ChatGPT时刻”其实取决于怎么定义。回顾深度学习的发展:2006年Hinton在《Science》发表论文,2012年其团队在ImageNet比赛中大幅降低错误率,引发视觉领域突破,也让深度学习受到广泛关注。此后,语音识别、语音合成等技术不断进步。2017年Transformer提出,2018年BERT模型问世,自然语言处理迎来飞跃。最终,2022年ChatGPT的出现,让大众真正感受到深度学习的巨大潜力。
图注:2006年Hinton《science》发文 Reducing the Dimensionality of Data with Neural Networks
对具身智能而言,过程会更加复杂:不仅要考虑模型的发展,还要顾及硬件研发。二者相互促进,就像“鸡、蛋谁先存在”的问题。具身智能会先在特定场景实现可用性和一定的泛化能力。过去可能要十年才能实现通用,如今有望五年左右达成。
图注:3月29日,智源研究院发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain。
正是基于这一考量,我们选择开源技术路线,想推动更多企业参与实践验证,从而带动整个产业发展。智源的具身大脑大模型RoboBrain已经在GitHub和Huggingface全开源,期待汇聚全球开发者智慧,共同推动具身智能领域的创新与发展。
我们诚邀各本体公司,采用 RoboOS 框架,为智能硬件产品注入智慧内核。接入 RoboOS 框架,本体公司产品能实现智能化升级,提升竞争力。同时,双方将基于应用场景反馈,共同优化框架,实现技术与产业的双向促进。具身多模态大脑模型RoboBrain开源链接:
Github:https://github.com/FlagOpen/RoboBrain
Gitee:https://gitee.com/flagopen/robo-brain
Huggingface:https://huggingface.co/BAAI/RoboBrain
来源:大数据文摘