具身智能全景解析:技术演进与市场前景

360影视 日韩动漫 2025-03-23 03:10 3

摘要:中国计算机学会(CCF)将具身智能(Embodied Artificial Intelligence, EAI)定义为一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

原创 LitGate团队 LitGate

Part 1

行业概览

什么是具身智能?

从基本概念出发,具身智能是指具备物理载体的智能体,与物理环境交互产生智能行为和适应性。

中国计算机学会(CCF)将具身智能(Embodied Artificial Intelligence, EAI)定义为一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

行业趋势

从行业趋势来看,近两年具身智能领域涌现出大量产品:特斯拉Gen-1亮相掀起“人形机器人”浪潮,OpenAI/Nividia/谷歌发挥自身专长加快生态布局;国内厂商积极响应,依托产业链优势,涌现出不少亮点。

行业现状

具身智能由 “具身” 和 “智能” 组成,包含 “本体、环境、智能” 三要素且深度耦合:

“具身” 指具备物理实体,能感知并与真实世界(拟人化)交互;深度耦合意味着在与环境互动中持续学习、适应,实现智能涌现和进化。“智能” 则涵盖认知理解世界、思考推理决策,以及自主学习、持续迭代和能力泛化等方面。

从行业范畴来看,具身智能不仅需要具身和智能,更需要本体与环境深度耦合、涌现智能。

虽然距离具身智能和AGI仍有较大距离,但目前已出现一些雏形案例,例如人形机器人、L5 无人自动驾驶等,但也有包括AI PIN,玩具+GPT等产品门类因为感知弱,环境无耦合等因素不属于具身智能的范畴。

发展历程

具身(GENERAL ROBITCS)的演进历程可以大致分为三个阶段。早期萌芽阶段处于20世纪50年代到90年代 。这一时期主要是 “逻辑规则算法 + 机器人” 的早期试验,应用场景较为简单。技术积累阶段处于20世纪90年代21世纪到20年代 ,仿生机器人的研发工作不断推进,深度学习与强化学习也得到广泛应用。自 2022 年起,具身智能进入技术突破阶段。大模型的技术突破,让各种实体拥有了类人水平的通用智能,人形机器人领域迎来爆发。

智能AI的发展历程也可以大致分为三个阶段。发展初期由符号主义主导,借助逻辑规则等模拟思维;而后行为主义兴起,强调身体与环境交互产生智能;接着连接主义盛行,通过 ML、DL、RL 模拟大脑。如今,大模型技术正在逐渐突破,助力 AI 向通用人工智能迈进。

市场规模

马斯克宣称2040年人形机器人未来数量将超过人类,替代人类完成危险、无聊和不愿意做的工种,成为生产主力,数量有望达到100亿台。特斯拉目标年产10亿台,占10%以上市场份额。

高盛预测2035年人形机器人规模为378亿美元,高速增长、但体量受限,堵点在于产品性能&价格能否达到C端消费者广泛采纳的阈值。

从出货量的角度看,2024-2035年全球人形机器人销量预计快速增长,乐观估计2035年出货量达1158万台,C端(消费端)占比84% 。

国内市场方面,预计2030年出货量35万台,市场规模581亿元,也将保持高速增长。

Part 2

技术拆解

核心模块

具身智能的核心模块有两个:具身、智能体,或者简单的分为硬件和软件。

两者相互配合、协作,共同完成“感知 →理解→思考→决策→规划→控制→执行”等一系列流程,从而使其产生智能行为和适应性。

具身模块

具身模块主要以硬件为载体实现感知、思考/决策和执行三个层次的功能协同。

感知层主要通过摄像头/雷达/惯导IMU等传感器进行视觉、力觉、位置/运动和听觉/嗅觉/触觉的识别。

思考/决策层通过端侧+云端结合共同实现。端侧可以像小鹏Iron自研图灵AI芯片,也可以是宇树科技那样采用英伟达Jetson Orin计算芯片,云端自然是使用API调用大模型。

最后的执行层通过移动或旋转关节、灵巧手实现执行动作。

智能体模块

智能体模块则是数据、算法和模型等软件层上实现决策和执行,通过计算机视觉将相机信息转为3D场景,再通过多模态大语言模型实现思考、决策,运动控制算法驱动电机执行指令。

感知层由于涉及到的元件众多,但实际上最终输入的最重要的两种内容就是视觉和语音。在视觉方向采用比较多的方案是SLAM(Simultaneous localization and mapping,同步定位与建图),大致流程就是:多模态感知数据 → 全景分割识别 → 3D体素/点云重建;而语音以及其他信号的输入,都会采用对应的模型进行转换并识别处理。

思考/决策层目前主流的选择有两种方案,分层决策和端到端决策。前者通常指将复杂任务拆解成多个层次的子任务,每个层次负责不同的决策和处理。后者指的是通过一个统一的模型(通常是深度学习模型)直接从感知到行动生成决策,而不依赖显式的中间层次或子任务划分。

分层决策是目前的主流方向,主要的技术路线是视觉语言模型+运控算法。

具体实现是通过顶层的多模态大语言模型进行中间层任务/运动的规划,再到底层驱动硬件的执行。优点是时延较低、执行成功率高,但在复杂的动态环境中,层级结构可能会导致决策僵化,难以灵活应对新情况。目前Figure、Tesla Optimus、宇树、智元等著名企业都采用这种方案。

另外一种方案是端到端决策,原理是一体化的VLA,集成视觉-语言-动作大模型。虽然泛化性能得到显著提升,但是现阶段整体还不成熟。优点是决策能力强,泛化/精度提升,但存在时延较高、执行成功率低、可解释性差等缺点。谷歌RT2、RT-X、RT-H系列等使用的是这种方案。

全流程拆解

具身智能全流程大致可以分为一下几个步骤:人类下达指令 → 意图理解/任务规划 → 视觉感知 →高级任务规划→低级动作规划,以一个简单的日常任务为例简单进行介绍:

首先人类下达命令“拿一个苹果到我的房间”,具身智能意图理解后进行任务规划。

然后是视觉感知阶段,一部分会通过识别沙发、书桌和抽屉等视觉对象进行视觉描述,另一部分通过场景图和视觉标记形式进行可视化表示。

高级别任务规划上会基于更好的提示、相关的案例和视觉描述通过LLM和VLM进行不断迭代计划内容。

规划好后可执行的子任务属于d低级别行动规划,这个阶段通过LLM、VLM和VLA共同作用完成感知、导航和拾取等行动。至此整个指令执行完毕。

技术路线

目前具体的技术路线还尚未定型,由于企业的技术积累和模型特点的差异,主要体现在数据采集和训练方式上的不同。

数据采集

数据采集根据数据来源的不同,可分为真实数据和仿真数据。

真实数据基于真实世界,通过本体采集、遥控、动作捕捉和视频学习等方式进行采集,例如Tesla曾经招聘数百人组建动作捕捉团队进行数据采集。这种方法数据真实可靠但是获取数据成本高、难度大。

仿真数据基于仿真环境,通过仿真软件Sim2Real、基础世界生成模型等进行数据采集,例如英伟达、1X、银河等都曾通过合成视频采集数据。该方法优点是可低成本大规模获取但迁移性能不高。

训练方式

训练方式根据策略不同,有模仿专家行为、深度强化学习和元学习/自主学习。

模仿学习指通过观察和模仿专家的行为来学习任务,该方法可快速学习专家策略,早期受欢迎,但是成本高且受限于专家数据。

深度强化学习指与环境交互来学习最佳行为策略,这种方法可实现简单泛化,也是目前的主流,但是学习效率低,面对复杂任务时学习难度高。

元学习/自主学习也是现在比较受关注的训练方式。前者指一个智能体或系统“学习如何学习”的能力,旨在提高模型的效率和适应性,使其能够在数据或经验较少的情况下解决新任务;后者指的是系统能够自主探索并学习的能力,让系统能够在没有外部监督的情况下发现新的策略、行为或见解。

虽然元学习和自主学习虽然在理论和实验中取得了显著进展,但由于其对数据、计算资源、可解释性、泛化能力等方面的高要求,目前大规模应用还面临一些瓶颈,处于探索阶段。

Part 3

重点厂商扫描

海外厂商扫描

整体格局

头部科技大厂领衔发挥自身优势、处于第一梯队。特斯拉领先,借助智能驾驶经验计划三年量产 50 万台机器人;谷歌专注科研,迭代出多款端到端 VLA 大模型;英伟达完善基建,其技术受中小厂商青睐 。OpenAI系和老牌厂商波士顿处于第二梯队。OpenAI系中,Figure快速迭代、品效尚可,Pythsical Intelligence自研具身大模型Pi 0、接近GPT-1水平,1X 自研世界模型、效果一般;波士顿动力作为老牌厂商技术路线受阻,被迫转型、品效尚可。其他第三梯队的新兴厂商艰难探索、量产不及预期。Skild AI 正在研发机器人模型 Skild Brain,凭借优秀团队获得资本追捧;而 Sanctuary AI、Agility Robotics、Neura Robotics、Apptronik 等厂商,因量产未达预期,仍在艰难摸索发展 。

Tesla

Tesla近几年在具身智能方面快速迭代、软硬件能力同步提升。其在2022年AI Day发布首个原型机器人BumbleBee,仅能够实现基础行走功能,而24年“We Robot” 发布会上展示的 Optimus 机器人新一代 22 自由度灵巧手则表现亮眼。

从技术路线来看,Tesla硬件全体系仿生学自研、软件继承FSD智驾系统,战略上规划25年量产千台、三年内大规模生产50万台。Optimus 项目则由特斯拉自动驾驶工程主管 Milan Kovac 兼任管理。目前团队超 150 人,Tesla Bot 岗位重点招募深度学习等多领域专业人才 。

重点产品 Optimus Gen 2 基础运动表现较好、指令任务有限场景下表现尚可、灵巧手实现精细控制,品效稳居第一梯队。

目前对于Optimus Gen 2的应用预期,首先是在工厂场景优先采用,远期则被规划为“人类友好”的家用自主助理。

OpenAI

OpenAI 在具身智能领域,早期采取了 “模型赋能 + 投资孵化” 的策略。将OpenAI的大模型应用于Figure、1X Technologies 以及 Physical Intelligence这三家新兴初创公司中,并且向其提供了投资 。

而在 2024 年 12 月,OpenAI 决定亲自下场进行机器人自研工作。为此,OpenAI 产品副总裁 Peter Lead 转向机器人探索领域,同时MetaAR前智能眼镜AR负责人Caitlin Kalinowski加入Open AI负责硬件。

Figure

Figure 由 ACHR 创始人 Brett Adcock 于 2022 年 5 月成立。OpenAI、微软、亚马逊、英伟达、英特尔等参与投资,累计投入 8.5 亿美元,公司估值达 26 亿美元。

2023 年 3 月,Figure 01 概念原型推出;到 2024 年 8 月,Figure 02 进入工厂试验落地阶段,持续朝着实际应用迈进 。

技术方案上,Figure运用分层决策和端到端训练模式。依托 OpenAI 多模态大模型,顶层实现视觉推理与语言理解,中间层由神经网络策略控制运动并生成指令,底层负责指令执行。结合 VLM 和运控算法,可快速分解并响应任务。硬件采用常规配置,采用人形外骨骼结构。配备 6 个 RGB 摄像头组成视觉系统,支持语音对话,搭载 16 自由度机械手。2.25KWh 定制电池可续航 5 小时,CPU/GPU 将机载计算和 AI 推理能力提升 3 倍。

从产品效果来看,机器人能实现简单行走、拾取放置以及语音互动等操作,但速度较慢。在实际应用中,Figure 已初步落地宝马工厂,而家用场景远不成熟。

1X

1X 于 2024 年 8 月推出家用机器人 NEO Beta,该机器人采用自研世界模型进行视频学习。不过,其产品演示中传达的产品稳定性和精准性存疑,演示效果不如 Optimus,能执行多种任务,但模型一致性差。

而软件部分的 Physicial Intelligence 由斯坦福教授及顶尖科学家创立。产品仅具身大模型 Pi0,无自研实体。基于多源数据构建,含预训练 VLM 和 Action Expert 模块。其于2024 年 10 月发布,达 GPT - 1 水平,可完成高灵活任务,适配机械臂,性能超 OpenVLA 等模型 。

Google

Google聚焦具身大模型,迭代出多款端到端VLA大模型(RT-2/RT-H),这些模型初具思维链推理能力。同时,开源的 OXE 数据集也推动了技术发展。目前Google的具身大模型主要由旗下公司DeepMind主导,系列研究以科研为主,暂未涉及商业化产品 。

端到端VLA模型:RT-2

RT-2 模型是端到端的 “视觉-语言-动作”(VLA)模型,借助Vision Transformer将机器人动作转化为字符串,结合大语言模型和互联网大规模视觉问答及机器人动作数据,经联合微调后部署控制机器人。该模型具备 “思维链” 推理能力,可通过互联网数据学习下达动作指令,相比RT-1,任务正确率提升3倍,泛化能力提升2倍。但存在局限性,应用场景局限于桌面任务,具身能力较弱。

“动作层次”具身大模型:RT-H

RT-H是 “动作层次” 的具身大模型,将动作模块拆分为运动语言和动作编码。通过语言运动查询和动作查询等方式,能基于视觉语言模型(VLM)对机器人动作进行规划和执行,还可在线纠正动作并利用纠正数据进行训练。其优势在于能把复杂任务分解为简单语言指令,提高任务执行准确性与学习效率。相比 RT-2,RT-H 的基准任务能力提升15%,泛化任务能力提升8%-12% 。

Nvidia

Nvidia 围绕通用机器人开发构建了一整套软硬件基础设施,包含自研芯片 Jetson、开发平台 Isaac、操作系统 ROS,以及机器人模型 GR00T 和 Cosmos,主要服务 B 端客户 ,是这次AI”淘金热”中的“卖铲人”。

GROOT 作为通用机器人基础框架,涵盖多样化环境生成、机器人运动轨迹生成等整套研发流程,基本覆盖中腰部客户。

Cosmos 是视频基础模型,经 2000 万小时训练,能生成高质量视频,有两种训练方式、四个开源模型,以及两种生成方式,可用于合成自动驾驶和人形机器人的新训练数据 。

波士顿动力

波士顿动力早期美国军方资助MIT实验成果转化,采用液压驱动+模型预测控制,成本高、品效差,商业化欠佳、几经转手,24年4月宣布转型“电机驱动”。

技术上动力系统因液压驱动存易漏液、成本高问题,正转型为电机驱动;MPC 基于非线性动力学等理论,通过数学模型预测优化系统行为,但效果不如强化学习。

波士顿的核心产品有机器狗 Spot、轮式搬运 Stretch 和人形机器人 Atlas,其中 Spot 销量 2000 台,销量不及宇树。Stretch 处于早期阶段销量低,Atlas 未商业化,仅供研究和展示。

非重点厂商

Skild AI CMU教授联手开发机器人基础模型、备受资本追捧,暂无产品;Sanctuary AI、Agility Robotics、Neura Robotics 商业化不及预期,艰难探索

国内厂商扫描

国内格局

国内的主要布局具身智能的厂商可分四类:

第一类是以宇树科技为代表的新兴初创型公司;第二类是小鹏、小米这批有AI汽车经验的电动车企;第三类是正在寻求业务拓展的传统机器人企业,代表有优必选、傅利叶;第四类是腾讯、阿里、字节等科技大厂,主要进行投资孵化和模型赋能等轻度探索;

竞争态势

竞争层面主要呈现三梯队:

宇数Unitree凭借主研硬件和极致性价比等优势,实现了机器狗Go2/B2-W销量全球市占率70%出色成绩,因此稳居第一梯队。第二梯队上,银河凭借BAAI&北大教授自研具身大模型GraspVLA,WRC展台上服务2千名观众,成功率98%。智元则靠整合现有硬件供应链、软件方案,资本支持,得到连续8轮融资、并且一口气官宣5款机器人,量产千台。电动车企小鹏、小米积极布局,目前已初步落地工厂。第三梯队的厂商最多,有星纪动元、逐际动力、智平方、有鹿机器人、加速进化等这类拿到数亿元融资的新兴初创企业。还有像优必选,傅利叶医疗转型服务人形机器人这类还在追赶的传统企业。最后是华为、字节这类自研具身大模型,阿里、百度、美团投资孵化,腾讯Robotics X 轻度探索的互联网科技大厂。

宇树科技

宇树科技于 2016 年 8 月在杭州创立,创始人王兴兴毕业于上海大学机械工程,公司定位为从事机电技术、控制技术,研发生产高运动性能机器人。截至 2023 年,员工人数为 258 人。其累计融资达 10 - 15 亿元,目前估值 80 亿元,投资机构包括顺为、红杉、美团、深创投、中信等。

宇树科技在2022年前专注于机器狗的研发和生产,22年受启发于Musk和GPT涌现就将方向拓展至人形机器人,通过技术复用,实现产品快速迭代。

人形机器人

G1、H1运动性能表现出色,适应各类地形行走、奔跑,能实现砸核桃、开汽水、颠勺、焊接电路等操作,整体上与Optimus相当,G1售价16000美元。

优秀的运动性能来自于软硬件上的配合。G1、H1在硬件上凭借自研电机和英伟达芯片在低成本的前提下实现优异的表现。软件上则采用英伟达仿真环境+RL训练的技术方案。

机器狗

消费级的Go2在GPT的赋能下主打智能伴随、语音交互,能完成跳跃/坐下等动作并且销量可观,售价1600美元,2023年销量2.4万台、市场占有率高达70%。而工业级B2-W凭借自研高性能关节,能实现超强运动能力,在不同的复杂路况都表现优秀例如楼梯、斜坡、路障行进,草地、石板路、碎石路穿越等。

智元新创

智元新创于2023年2月由彭志辉创立,高瓴、奇绩、鼎晖、蓝驰、经纬、BV百度、比亚迪、红杉中国、北汽等累计融资16~20亿,估值超70亿元

硬件为常规组件仅有部分自研,软件上采用分层、英伟达RL训练,总体为整合现有硬软件解决方案。

产品效果方面,目前家用产品仅处于演示阶段,智能程度不高,工厂场景下可以完成简单的流水线任务。

银河通用

银河通用由北京智源研究院具身智能中心主任王鹤创立,公司得到两轮天使融资12亿元,现估值约70亿元,2024年6月推出首代机器人G1,2025年1月研发出首个全面泛化端到端大模型GraspVLA。

产品硬件上较为常规,但是软件侧坚持“合成数据 + Isaac仿真训练”,自研多款具身大模型,在具身市场有一定竞争力。产品在固定场景表现不错,抓取准确率高、支持简单泛化。

美团与银河通用已签署战略合作协议,双方将在线下零售、智慧货仓、智慧物流等多个领域围绕机器人赋能服务展开全面、深入的合作。

优必选

优必选是一家传统机器人公司,早期获得过多家公司投资,2023年首次公开募股募资10亿港币,市值376亿港元。近几年布局人形机器人市场,发布人形机器人 Walker S系列,但营收不及预期,导致长期亏损、腾讯巨额减持,1400亿市值跌至200亿。

优必选产品布局以传统自动机器装置为主,常规教育机器人、仓储、服务、养老营收占比99%,Walker系列仅售出10台。

人形机器人Walker S系列表现较为一般,目前只能实现简单搬运、缓慢行走、拧螺丝,目前与比亚迪和极氪工厂有试水合作,但整体上落后于头部。

电动车企

多家电动车企都在布局具身智能市场,代表企业为小米和小鹏。

小米

小米的战略为“投资为主、轻度试水自研“,投资多家新兴初创企业的同时也小批量、分阶段进行自研。

小鹏

小鹏布局较早,凭借AI汽车系统的经验,初步将机器人进驻小鹏汽车工厂,例如小鹏P7+汽车的部分组件就是由Iron亲手组装。

其他厂商

傅利叶主营医疗康复机器人,累计融资13亿元,估值超35亿元,现转型人形服务机器人,旗下GR-2基础运动尚可。
星动纪元由清华姚班孵化,累计融资近 5 亿元,自研端到端模型ERA-42、灵巧手XHAND优先商业化,但人形机器人量产取决于工业场景应用情况。
逐际动力累计融资超 3 亿元,2024年10月开启发售的多形态机器人TRON 1主要面向科研用户,能实现上楼梯、下斜坡和室内外行走。

此外,智平方、有鹿机器人、星海图、加速进化、帕西尼感知、星尘智能融资均超亿元,整合现有供应链“组装拼接硬件”、英伟达仿真训练,但是效果并没有特别理想,同质化严重。

头部科技大厂

对比以上公司,腾讯、阿里、字节这类头部科技大厂的动作就显得较为谨慎,虽然都自研具身大模型,并且有自家大模型的赋能,但也只是以投资孵化为主,商业化的下场布局尚不明朗。

产业政策

企业在不断努力的同时,中央和地方也在一直出台政策支持具身智能的落地,具体体现在加快重点场景应用、加强行业标准规范建设、设立专项财政与基金支持、加速人才引进与技术培育等方面。

Part 4

总结

从具身智能领域的综合实力来看,Tesla、宇树、Nvidia、谷歌处于第一梯队,海外厂商大模型智能较为领先、Tesla 软硬件均衡突出,国内厂商“宇树”品效破圈,Nvidia 全产业链生态布局初见成效。

总体来讲,目前具身智能赛道尚处于萌芽期,人们对具身智能虽有关注,但对其的技术期望尚未被过度拔高。预计在2-5年内具身智能技术可达到技术发展成熟的阶段。

具身智能当前处于从通用原子技能(任务编排调用基础模型控制机械臂等),到端到端操作技能(数据驱动认知推理规划大模型实现抓放递等操作)的阶段。未来还将向基于海量数据的端到端操作大模型发展,最终迈向具备感知、决策与执行能力的 AGI(通用人工智能) 。期待能借助类似 GPT 带来的 “智能跃迁”,与 “新质生产力” 协同发力,推动产业革新。

目前具身智能发展也存在诸多疑难点,受限于数据短缺、大模型智能不足、硬软件耦合差等因素,实现大规模商业化的难度较大。

来源:人工智能学家

相关推荐