具身智能行业研究:决定机器人泛化能力天花板的“大小脑”

360影视 国产动漫 2025-03-11 08:29 2

摘要:具身智能的定义:一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息理解问题、做 出决策并实现行动,从而产生智能行为和适应性。 具身智能的实质:强调有物理身体的智能体通过与物理环境进行交互而获得智能的人工智能研究范式。 从机器人的角度出发

具身智能的定义:一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息理解问题、做 出决策并实现行动,从而产生智能行为和适应性。 具身智能的实质:强调有物理身体的智能体通过与物理环境进行交互而获得智能的人工智能研究范式。 从机器人的角度出发,具身智能在机器人上的应用体现可以划分为三阶段:感知、推理、执行。

具身感知

机器人需要具备环境感知能力,依据感知对象的不同,可以分为四类:物体感知、场景感知、行为感知、表达感知。

具身推理:任务规划

具身感知的过程主要包括以下几步:任务规划、导航、具身问答。 任务规划:任务规划(Task Planning)是具身智能的核心任务之一,将抽象的非可执行人类指令转换为具体的可执行 技能。这一步骤的完成需要两步:1)将人类指令分解为机器人可执行的技能,2)执行技能。 结合大模型的任务规划:大模型作为转换器、大模型作为分解器。 作为转换器:LLM+P,用LLM将状态信息描述成PDDL语言再进行规划,取代以往需要人工针对实际问题书写PDDL语 言对任务进行建模; 作为规划器:可以zero-shot进行任务规划。

具身推理:导航

具身导航(Embodied Navigation):智能体在3D环境中移动完成导航目标。早期的具身导航,通过构建一系列基于规则的组件和算法,实现有效的环境感知、定位、路径规划和避障。而基于学 习的导航则利用深度学习与强化学习技术,提高模型对复杂环境和新场景的泛化能力。不同于传统算法依赖预定义的 规则和手工设计的特征,基于学习的导航算法从大量数据中学习环境特征和导航策略,实现强自适应性和高灵活性。 视觉导航:基于学习的导航的一个重要分支,它依靠计算机视觉来理解环境信息并做出导航决策。视觉语言导航:通过自然语言指令和视觉图像进行导航的任务,其目标是开发一种能够与人类进行自然语言交流并在 现实3D环境中导航的具身智能体。1)大模型出现之前:主要通过RNN,LSTM,Transformer等网络来提取命令中的 语义信息; 2)大模型出现后:利用大模型作为辅助来帮助规划器输出规划或者大模型直接作为规划器来输出规划。

具身执行

具身执行,就是把任务具体执行出来,其中最重要的环节就是技能学习。 技能学习:以技能描述、环境观察为输入,输出完成技能所需的7Dof轨迹(主要指人手腕或者机械臂末端执行器的位 置、朝向、末端状态)。技能学习主要有两类方法: 模仿学习:收集专家演示数据,用神经网络拟合。 强化学习:设计奖励函数,机器人通过交互学习行为策略。 两者的差别在于:模仿学习是从样例中学习,机器人学习过程中不与环境进行交互;而强化学习从交互中学习,机器 人学习过程中与环境进行交互。

机器人的通用性取决于泛化性的发展程度

在上个世纪六十年代,人类已经制造出机器人并且可以控制其执行给定的动作。但是对于复杂抽象的人类指令,早期 需要专家人工设计动作轨迹,然后再由机器人执行。一个理想中的智能机器人应该是“通用”的,可以适用于各种场 景,进行推理决策并执行相关技能,完成各种任务。 从人工设计专门的程序到通用型智能机器人,存在着巨大的技术发展空间,其中最关键的问题之一即为泛化性,包括 人类指令、环境配置、物体形状位置、机器人类别上的泛化性。泛化性描述了机器人因为学习场景和应用场景的任务 设置不一致导致的性能变化情况,这衡量了机器人在特定维度上的通用性。 从泛化性的角度来看,智能机器人技术可以划分为以下几个阶段,其对应泛化性逐渐变强。

机器人发展线:从自动化工具到直接影响物理世界的智能体

从历史的角度来看,工业机器人的硬件进化不断发展,从自动化设备到移动机器人,从协作机器人到人形机器人,每 一步都代表着技术的进步和创新。当下,已经进入了AI大模型与机器人在底层技术创新和应用融合的交叉时代。 技术的每一次进步都会带来机器人应用场景的突破,且一般会在精准、重复的工业场景作业流程中率先得到应用。未 来,如何提升智能机器人在开放场景的可用性,是具身智能正在解决的问题。

人工智能发展线:从理性主义到深度学习

在机器人领域的应用上,生成式AI技术正在兑现提升机器人关键能力的潜力,在环境感知、自主决策、学习与适应等 多个方面均有表现。 基于网络数据训练的大模型似乎正在触及AI认知的边界,ScalingLaw下的预训练大模型性能似乎快要达到极限,参数 量和数据量的扩充已经难以给模型带来质的突破。AI想要进一步发展,必须与物理世界建立更加紧密的联系,具身智 能将是AI继续向AGI进步的关键途径。

具身智能:两条发展线的汇聚点

人工智能和机器人技术的发展并非孤立进行,而是相互促进、共同演进的。人工智能为机器人赋予了“大脑”,使其 具备感知、思考和决策能力;而机器人则为人工智能提供了“身体”,使其能够与真实世界进行交互,获取经验和知 识。 具身智能的兴起是人工智能和机器人技术各自发展到一定阶段的必然结果,是两者深度融合的体现。人工智能的持续 进步需要与物理世界的交互能力,而机器人的未来发展也离不开更高级别的智能化水平。

2024年迎来具身智能投资热

如果说OpenAI的ChatGPT引爆了2023年对大语言模型的投资热潮,那么Tesla入局人形机器人和黄仁勋的“AI的下一 个浪潮是具身智能”,则彻底带火了具身智能与人形机器人领域的投资热潮,成为2024年科技产业投资的最大热点。 从投资角度看,头部人形机器人的本体研发集成厂商已经历多轮融资,估值较高,行业整体投资热点正从人形机器人 本体向具身智能模型和其他上游零部件迁移。

具身大模型&非具身大模型

从物理空间的角度来划分,大模型可以分为非具身大模型(Disembodied Model)、具身智能大模型(又被叫做机器 人大模型)(Embodied VLA Model)。它们的区别是能否生成运动姿态(例如夹爪的末端位姿等),即是否能跟物理 机器人联系起来。

具身大模型:分层模型or一体化端到端

目前,具身大模型可以分为两大流派。一类是端到端大模型,一类是分层具身大模型。从人体“大脑-小脑-肢体”的架构来看,分层大模型通过不同层次模型协作,利用底层硬件层和中间响应快的小模型弥 补上层大语言模型的不足,推动机器人在实际场景的应用,并越来越多地采用基于学习的控制方法。 VLA等端到端模型能够直接实现从人类指令到机械臂执行,即输入图像及文本指令,输出夹爪末端动作。 分层式路线一度是主流选择,因为端到端路线受数据制约难以达到性能要求;机器人数据正在逐步积累,端到端路线 在未来可能成为主流。

端到端大模型

在机器人中,端到端大模型可实现直接端到端地从人类指令到机械臂执行,即输入是图像及文本指令,输出是夹爪末 端动作。以谷歌的RT-1到RT-2的进化迭代为例: 谷歌RT-1——关注泛化能力:2022年,谷歌机器人研究团队历时17个月基于13个机器人得到了130k episodes 以及超 过700个任务的数据,在该数据集的基础之上,基于模仿学习中行为克隆学习范式,把 Transformer 应用机器人的操纵 任务上,提出了 RT-1模型。RT-1 的输入由图片序列、自然语言指令构成,输出由机械臂运动的目标位姿( Toll , pitch gaw , gripper stαtus)、基座的运动 、模式转换指令构成。 谷歌RT-2——获得涌现能力:2023年,Google 的 DeepMind 团队基于互联网上数据训练视觉-语言模型(VLM),使其 能够学习到更多关于视觉和语言之间映射关系的知识后,在机器人操纵任务上微调,提出了 RT-2 。RT-2 的目标是训 练一个学习机器人观测到动作的端到端模型,且能够利用大规模预训练视觉语言模型的益处,经测评,这类学习方法 产生的Vision-Language-Action(VLA) 模型获得了涌现能力。

端到端大模型的主要优缺点

优点(以VLA为例): 端到端架构:VLA是一个端到端的大模型,这意味着它可以简化传统上需要多个独立模块才能完成的任务流程。 这不仅可以提高系统的效率,还能增强其灵活性和适应性。 泛化能力:VLA具有强大的泛化能力。以谷歌DeepMind推出的RT-2为例,该模型可以在新的物体、背景和环境 中表现出显著改善的性能。它可以理解并响应那些在训练数据集中未曾出现过的命令,并基于底层语言模型提供 的思路链进行推理,从而做出合理的决策。通用性:VLA具备高度的通用性。由于它是建立在一个通用的大规模预训练基础上,因此理论上几乎所有的“智 能机器设备”都可以使用这套算法。无论是汽车、飞行器还是其他类型的机器人,只需要经过适当的微调就能满 足特定应用场景的需求。 缺点: 数据来源非常有限:谷歌在Mountain Village(美国加州)办公室的厨房里采集了17个月,得到13万条数据,使 得其机器人在谷歌的厨房里表现可以非常好。但一旦出了这个厨房,需要考察其环境泛化性,它的成功率就从 97%骤降到30%左右。并且这种泛化是有选择的泛化,不是将其直接放到施工工地、非常嘈杂的后厨等场景中。推理、响应速度仍有待提升:RT-2大模型中包含了谷歌上一代大模型PaLM-E,它的速度只能达到1~3Hz,对应 机器人的反射弧长达0.3秒甚至1秒。

从工业制造的确定性走向家庭服务的灵活性

机器人在C端的应用最具想象力,但短期来看,任务相对聚焦,对泛化能力要求不高工业制造场景下的任务正在更快进 入商业化阶段。 在工业制造场景实现商业化落地之后,海量机器人的具身数据叠加算力技术的进步,机器人的能力将循序渐进逐步解 锁,并向商用服务、家庭服务等更开放的场景进行延伸,届时市场有望达万亿级。

率先落地场景:工业制造

工业制造流程的特点使得该场景在具身智能技术落地应用方面占据先发优势,如柔性生产需求迫切、工作环境结构化 程度高、成本效益优势突出等需求特点,刺激着工业制造场景客户对工业具身智能的应用更加期待。工业具身智能机器人能够有效提升工厂生产任务的灵活性与适应性,并在作业过程中实现自主学习,不断增强其复杂 任务执行能力与操作精度。 具身智能的训练需要数据,而质量更高的数据需要从真实场景中来,机器人落地最快的场景仍然是场景相对封闭的工 业制造场景,越早实现规模化落地,就有望越早实现模型的能力提升。

未来如何训练机器人:世界模型

世界模型:被认为是实现通用人工智能(AGI)的重要环节,终极目标是构建一个统一的模型能够复制基本的世界动态。 世界模型可大体分为两部分:内部表征和未来预测。1)内部表征:用于理解世界机制;2)未来预测:预测未来状态 以模拟和指导决策。 作为具身环境的世界模型:具身环境世界模型的开发对于模拟和预测智体如何与外部世界交互和适应外部世界至关重 要。这些模型不仅代表世界的视觉元素,还结合更准确反映现实世界动态的空间和物理交互。通过整合空间表示并从 基于视频的模拟过渡到沉浸式具身环境,世界模型现在可以为开发能够与复杂的现实世界环境交互的智体提供更全面 的平台。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

来源:未来智库

相关推荐