摘要:最近,一个视频在网上火了:两个AI,一个替酒店接电话,一个帮人订房间,它们对话后发现彼此都是AI助手,就改用人类无法听懂的语言对话,并顺利完成订单。这两个AI助手,就是具身智能的核心概念——智能体。
最近,一个视频在网上火了:两个AI,一个替酒店接电话,一个帮人订房间,它们对话后发现彼此都是AI助手,就改用人类无法听懂的语言对话,并顺利完成订单。这两个AI助手,就是具身智能的核心概念——智能体。
今年政府工作报告提出,建立未来产业投入增长机制,培育生物制造、量子科技、具身智能、6G等未来产业。其中,具身智能首次出现,受到各方关注。
根据中国计算机学会(CCF)官网的解释,具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、作出决策并实现行动,从而产生智能行为和适应性。
近日,我国在智能体研究领域取得了一系列进展:
3月11日,智元机器人的人形机器人灵犀X2上线,它除了常规的行走、跑、跳舞外,还会举重、踩滑板车、玩平衡车以及骑自行车。
3月19日,宇树科技表示,其研发的1.8米高的H1实现全球首次电驱人形机器人原地侧空翻。
3月20日,我国自主研发的半侵入式脑机接口“北脑一号”在天坛医院成功完成北京第三例人体植入手术。目前三例患者术后均状态良好,其中的瘫痪病人已实现意念控制运动,因患渐冻症而失语的病人已实现中文交流能力。
……
具身智能还将给我们带来什么惊喜?我们该如何看待具身智能的发展?库叔与北京邮电大学人工智能学院的陈光教授一起来畅想未来。
受访|陈光 北京邮电大学人工智能学院
采访|谢芳 瞭望智库
本文为瞭望智库原创文章,如需转载请在文前注明来源瞭望智库(zhczyj)及作者信息,否则将严格追究法律责任。
1
从具身智能到智能体
具身智能是人工智能的一个发展领域,强调智能行为源于“身体”与环境之间的交互,而不仅仅依赖大脑的运算。这其实很好理解,就像我们人类想要认识世界,光靠大脑思考是不够的,还得用眼睛去看、用耳朵去听、用手去触摸,通过各种行为与外部环境进行互动,进而产生智能。
早期的人工智能主要基于符号主义,认为知识可以用符号来表示,智能就是对符号的运算。这种方法在一些特定领域取得过成功(比如国际象棋),但在处理一些日常问题时总会“捉襟见肘”。这是因为现实世界充满了不确定性,很多知识难以用符号准确表示。
智元机器人。图 | 新华社
20世纪80年代,一些学者开始反思符号主义的局限,提出了连接主义。他们认为,人类的智能源自大脑中神经元的连接,而不是抽象的符号运算。这促进了人工神经网络和深度学习的发展。但是,连接主义仍然把智能视为大脑的产物,忽视了身体在智能中的重要作用。
进入21世纪后,随着认知科学的发展,越来越多的证据表明,人类的智能是大脑、身体和环境相互作用的结果,具有鲜明的身体性。这就是具身智能的核心思想。
儿童心理学家皮亚杰通过大量实验发现,婴儿是通过手抓、眼看、口尝等感知运动来认识世界的。语言学家莱考夫指出,我们对很多抽象概念的理解借助了身体隐喻,比如理解是“抓住(grasp)”、高兴是“向上(up)”。由此可见,我们的思维方式深深植根于身体经验。
受此启发,人工智能学者们开始探索具身智能的实现路径,其中一些学者设计了拟人化的机器人,让它们像人一样用手操纵物体,用眼去感知环境,通过不断尝试来学习各类技能。
具身智能强调智能源自身体与环境的动态互动,具有鲜明的身体性和情境性。这一理念与传统人工智能方法形成鲜明对比——传统方法往往侧重抽象计算和符号处理,忽视身体经验的重要性。在机器人领域,具身智能理念引导设计者超越单纯的模块化架构和计算导向,转而构建能与环境深度互动、持续适应并从互动中学习的智能系统。而在更广阔的层面,具身智能推动着人工智能从单一的工具智能,向更全面、更通用的智能跃迁,让机器人在认知、情感、社会性等方面更贴近人类。
智能体则是具身智能的核心概念和研究对象。根据承载智能体的具体形式,我们可以将其分为以下几个类型:
物理智能体,既可以是类人的人形机器人,也可以是各种不同形态的专用机器人,如工业机械臂、仓储搬运车、探测巡逻无人机等。它往往要面对复杂多变的物理环境,需要强大的感知、规划和控制能力。同时,由于要与真实世界交互,它还必须具备较高的安全性和适应性。
虚拟智能体,是存在于计算机软件中的智能体。它没有实体的物理形态,而是以程序代码的形式运行在电子设备上,常见的包括聊天机器人、智能助手、电子游戏中的非玩家角色(Non-Player Character,NPC)等。与物理智能体相比,虚拟智能体更容易复制和传播,也更容易升级和扩展。
增强智能体,是一种连接物理世界和虚拟世界的混合智能体。它以人类为主体,但通过与各种智能设备的紧密连接,获得扩展的感知、辅助决策和行动能力。例如,装配了智能假肢的截肢者通过假肢中的传感器和控制器,可以恢复行走、跑、抓握等能力;佩戴智能眼镜的视障人士可以通过语音提示和图像识别,获得周围环境的信息;连接脑机接口的瘫痪病人可以用意念直接控制外部设备。增强智能体代表人机混合增强智能的发展方向,它让人和机器深度融合、优势互补,扩展人类智能的边界。
2
技能点拉满的背后
人形机器人举重、踩滑板车、骑自行车,乃至侧空翻,都是如何做到的?
以灵犀X2为例子,它各种新技能的实现,源于对具身智能的深刻诠释及多项前沿技术的融合。
灵犀X2骑自行车。图 | B站up主稚晖君
它通过视觉语言模型(VLM),高效整合视觉、语音和动作等感知数据,实时响应环境变化和用户指令,为实时交互奠定基础。比如,它利用摄像头和麦克风“看到”“听到”周围情况,经过认知模型的分析后迅速驱动身体做出反应,形成“感知-决策-行动”的闭环。
它拥有28个自由度和仿生足弓设计、柔性关节和抗冲击材料(如TPU-ET复合材料),结合深度强化学习与模仿学习算法,实现了类似人类的步态和复杂动作。比如,它被人类用力推的时候会后退,而不是直接摔倒。
它还是首款搭载情感交互系统的机器人,能模拟人类情感表达,例如通过细微动作或语音展现共情,为具身智能的情感研究开辟了新方向。比如,被问到“如果给你看《银翼杀手》,你会不会哭到短路”时,它可以答出“不会哭,但我会感慨万千”这种类人情绪的表达。它还会撸狗,狗狗非常享受它的“抚摸”。
灵犀X2撸狗。图 | B站up主稚晖君
它的另一大亮点是任务泛化能力,仅需少量数据就能快速学会新任务,展现出高度的自主学习能力和灵活性。它能在与环境的互动中不断优化自身表现,其Latent Planner组件还能将复杂任务拆解为小步骤,并根据实时反馈调整策略,这种边做边学的特性,正是具身智能进化的核心所在。
此外,它在边缘侧实现低延迟的多模态交互和运动控制(简单说就是在没有网络连接的情况下处理数据),摆脱了对云端的依赖,这一优化对于机器人在复杂环境中的实时应用具有重要意义。它还深度整合国产供应链,大幅降低了成本,既提升了性价比,也预示着人形机器人正逐步从实验室走向现实生活。
最近备受关注的大模型DeepSeek,也影响着具身智能的发展。
DeepSeek有望破解一些关键难题,比如,数据困境。具身智能的训练往往受限于真实场景数据的稀缺和高成本,而DeepSeek通过合成数据生成技术和开源多模态数据集,为这一问题提供了新思路。这与Sim-to-Real(从仿真到现实)的技术逻辑不谋而合——利用虚拟环境生成海量数据,再迁移到现实场景中,不仅降低了训练成本和风险,还提升了系统的适应性。
DeepSeek还对行业生态带来了深远的重构。通过开源战略,DeepSeek降低了具身智能的开发门槛。开源的模型权重和API接口让中小型企业无需从头打造“大脑”层,而是可以专注于“小脑”层的运动控制等难题,这无疑会加速技术的普及和应用。同时,其开源的多模态架构有望成为行业标准,促使更多企业加入开源行列,形成一个良性循环的生态系统。
3
未来产业的重点方向
具身智能首次被写入政府工作报告,意味着这一领域正式跻身国家战略的高度。这不仅为相关产业发展指明了方向,也带来了实实在在的利好。
首先。国家层面的战略定位带来资源倾斜。具身智能被列为未来产业的重点方向,意味着政策、资金和人才等资源将向这一领域集中。
2024年1月,工业和信息化部联合多部门发布的《关于推动未来产业创新发展的实施意见》就已将人形机器人列为十大标志性产品之首,显示出国家对这一领域的战略重视。
当下,地方政府的积极响应进一步加速了政策的落地:北京提出到2027年突破百余项关键技术,推动万台机器人投入使用;深圳则依托超过5万家机器人相关企业,打造出全球领先的产业集群,提出到2027年实现10亿级应用场景落地50个以上。此外,广东、山东、四川、河南、山西、重庆等多地已明确将“具身智能”列为2025年要重点抓好的工作之一。这种从中央到地方的协同发力,不仅为技术研发提供了长期支持,也为产业化进程注入了强大动能。
2025年3月6日,在国家会展中心(天津),宇树科技的一款人形机器人现场表演。图 | 新华社记者 孙凡越 摄
其次,核心技术的攻关和产业链的协同也将迎来新机遇。有了政策的支持,产学研的融合会更加深入,特别是在核心算法、环境感知和精细操作等关键技术上的突破将提速。
同时,我国在机器人供应链上的国产化能力也在稳步提升,像电机、传感器、AI芯片这些关键部件,以及DeepSeek这样的大模型技术,逐渐摆脱了对进口的依赖。数据显示,2023年中国在人形机器人领域的专利申请量达到6618件,有效专利3110件,双双位居全球第一。技术与产业链的双轮驱动,不仅能解决硬软件协同的复杂难题,还为具身智能的规模化生产奠定了坚实基础。
最后,多场景应用的加速落地是另一个显著利好。政府的重视将推动具身智能更快走进医疗康养、工业安全、家庭服务等实际场景。
在家庭和养老领域,具身智能有望成为应对老龄化的得力助手,既能提供陪伴和护理,又能在安防、教育、娱乐中发挥作用。工业场景中,具身智能将在柔性制造和危险作业中大显身手,比如在核电站或矿山这样的高风险环境替代人力。在更远的未来,太空探索和极地科考等任务也可能因具身智能的加入而拓展人类的活动边界。这些场景的实现,将让技术真正服务于社会需求。
从数据上看,2023年,中国具身智能市场规模已达到4186亿元,预计到2027年将增长至6328亿元。其中,人形机器人的市场规模预计在2025年达到53亿元,到2030年全球累计需求可能高达200万台,中国市场占比约32.7%。
可以说,中国在全球具身智能领域已奠定坚实基础,政策、技术与市场的多重优势为其未来的爆发式增长铺平了道路。下一步的关键在于攻克技术瓶颈、降低商业化成本,并推动跨领域协同创新。只有这样,中国才能在全球竞争中巩固领先地位,真正引领具身智能的未来。
4
失控?替代?
谈论人工智能,就绕不开“失控”。
本文开篇提到的引发热议的视频下有一个高赞的评论是“它们多对账几次,就会发现其实人类是多余的。”
从技术本质来看,视频中的案例体现了具身智能在环境感知、跨模态协作和任务优化上的突破。
两个AI通过音频信号沟通,完成了从对话到订单的无缝衔接,这得益于自然语言处理、流程自动化以及智能体间协同能力的结合。这种技术已在智能客服、工业生产等领域崭露头角。
不过,大家往往聚焦于AI“自主性”的潜在威胁。事实上,这种行为更像是预设算法的高效执行,而非真正意义上的“自我意识”。当前的具身智能仍受限于场景边界、物理规则和训练数据,远未达到脱离人类掌控的地步。比如,机器人运动依赖动力学约束,决策依赖数据输入,其行为本质上是可以追溯和干预的。因此,视频中的现象更应视为技术优化的成果,而非失控的先兆。
从社会影响的角度看,具身智能对工作的替代既有现实冲击,也有共生可能。
一方面,它确实在逐步取代重复性、高危或标准化任务,比如流水线作业、电话客服甚至危险环境下的救援工作。这种“梯度效应”已经显现,北京等地明确推动机器人替代危险岗位。但另一方面,技术进步并非单向的淘汰游戏,它也在催生新职业,比如AI训练师、机器人维护工程师等。
与此同时,人类在复杂决策、情感共鸣和创造性领域依然保有不可替代的优势,比如心理咨询师的温暖陪伴、艺术家的灵感迸发,这些都是AI难以企及的。
所以,我们需要关注的更深层次的问题是,当AI接管更多决策流程,人类可能从“驾驶员”退化为“乘客”,这种权力让渡可能因技术垄断加剧资源分配的不平等,需要新的责任机制。
如何应对这些挑战?我们需要在技术治理和社会协作上双管齐下。
首先,在技术层面,透明化和安全性是关键。AI系统的交互逻辑和数据流向应当公开,避免类似音频信号这样的隐秘通信成为监管盲区。同时,可以在硬件和算法中嵌入实时监控机制,一旦发现异常行为便及时干预。更重要的是,将伦理原则融入设计,比如确保AI优先服从人类指令、不伤害用户隐私。这些措施能有效划定具身智能的“行为边界”,让技术进步不偏离可控轨道。
其次,在社会层面,人的能力升级至关重要。我们应强化创造力、情感智慧和精密操作等AI难以复制的优势,同时推动职业培训,帮助劳动力转向人机协作的新角色,比如从操作员转型为任务设计者。
此外,公众教育也不可或缺,通过普及技术原理和局限性,既能消除不必要的恐慌,也能避免盲目依赖。
制度创新同样是护航未来的重要一环。政策上,可以探索“人机协作”的工时标准,完善职业转换支持体系,像深圳的机器人产业集群那样推动产教融合。而在伦理和法律层面,可以对具身智能实施风险分级管理,尤其关注隐私保护、自主行为的法律责任以及系统故障的追责原则。
总的来说,具身智能正迈入“能力涌现期”,从谷歌机器人自适应环境,到国产机器人的情感计算,这些突破无疑带来了效率革命。与其将其视为人类的替代威胁,不如定位为拓展能力的“外延器官”。我们应以开放的心态迎接创新,同时以敏捷的机制护航未来,让具身智能真正服务于人类解放,而非成为失控的阴影。只有在效率与安全之间找到平衡点,技术才能真正助力社会迈向更广阔的可能。
来源:晚晚的星河日记一点号