人形机器人渐行渐近

360影视 欧美动漫 2025-04-17 14:36 1

摘要:过去几个月,人形机器人频繁亮相于各个舞台,大展绝技:在春晚舞台上扭秧歌,在社交平台上跳舞、翻跟头,在工厂里“拧螺丝”,在公众视野中弹琴、端茶倒水……仿佛一夜之间,一轮技术巨变的浪潮汹涌袭来,将我们迅猛卷入曾经只存在于科幻小说中的未来世界。

本刊记者 张燕 郑雪 宋杰 郭志强 牛朝阁

迎宾的、唠嗑的、端茶倒水的、写诗作画的……在近日举办的2025中关村论坛年会上,“忙里忙外”的机器人成为现场最大的亮点,组团上演了一场科技秀。

过去几个月,人形机器人频繁亮相于各个舞台,大展绝技:在春晚舞台上扭秧歌,在社交平台上跳舞、翻跟头,在工厂里“拧螺丝”,在公众视野中弹琴、端茶倒水……仿佛一夜之间,一轮技术巨变的浪潮汹涌袭来,将我们迅猛卷入曾经只存在于科幻小说中的未来世界。

实际上,机器人技术的发展进程正不断提速。从1973年日本早稻田大学研发的WABOT-1诞生至今,人形机器人的研究范式不断变化。如今,人形机器人被视为实现具身智能的最佳载体之一。

所谓具身智能,顾名思义即“具有身体(物理载体)的智能(能感知交互和会学习思考)”,而人形机器人无疑是最重要、最受期待的实现形式之一。

2023年10月,工信部印发的《人形机器人创新发展指导意见》就已将人形机器人精准定位为“集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的又一颠覆性产品,它将深刻变革人类生产生活方式,重塑全球产业发展格局”。

今年全国两会上,“具身智能”首次被写入政府工作报告。同时,据记者统计,“具身智能”也出现在了全国6个省份的2025年政府工作报告中。

产业链协同突破前沿技术

感知、计划、行动,这一过程恰似人类与世界的互动模式。人形机器人亦是如此,凭借摄像头、雷达等设备感知外界,借由大模型与算法进行分析并作出决策,最终依靠由执行器构成的肢体付诸行动。

从产业角度来看,人形机器人主要依赖三大核心组件:“大脑”、“小脑”与本体。“大脑”司职高层决策以及智能信息处理;“小脑”专注于运动控制;本体则作为机器人的物理载体,切实承担具体的运动任务。

细腻的皮肤、灵巧的手,机器人正“进化”得越来越像真实人类。

人形机器人使用灵巧手抓握樱桃模型

数据采集人员穿戴动作捕捉装置,“教”机器人做各种家务。

顾客下单后,机器人可以为顾客自主取送指定商品。本刊首席摄影记者 肖翊I摄

让机器人递水比跳舞更难

与其他形态的机器人相比,人形机器人的优势就在于未来与人类社会交互并执行任务。这也使得运动控制成为首要需解决的问题。

物理世界的复杂性要求“小脑”系统在训练过程中,必须将各种各样不同的环境变量纳入考量范围。尤其是双足行走,每一次迈出的步伐,都会产生不确定性:地面可能湿滑、物体或许具有弹性、摩擦系数也处于动态变化之中,这些因素均会对机器人的平衡感和判断能力造成干扰。

在一次公开采访中,宇树科技创始人王兴兴透露自己曾经并不看好人形机器人。彼时的算法水平还不足以支持人形机器人应对复杂多变的环境。然而,人工智能的迅猛发展,为人形机器人进步带来了质的飞跃。如今,机器人研发者不再需要编写程序来操作机器人,而是可以通过大模型,让机器人不断学习传感器同步的实时数据,进一步完善运动控制,使人形机器人的平衡控制、动态性能更高。

“人形机器人之所以称为机器人领域最难攻克的类型,就在于其运动控制的门槛极高。若无法做好运动控制,根本不具备进入该领域竞争的资格。”乐聚机器人副总裁柯真东对记者表示,人形机器人的构型极为复杂,身上关节数量少则十几个,多则40多个。要用一套算法同时精准控制40多个关节,还要保障机器人在运动过程中不会倾倒,且动作平滑、柔顺,这使得机器人的建模过程充满挑战。柯真东直言:当下,各家机器人在运动控制方面的差异,已成为拉开彼此差距的关键因素。

对于人形机器人,学会行走只是运动控制的第一步。从产业化视角看,双臂与手的协同操作能力才是重中之重。优必选首席品牌官谭旻指出,未来两三年,机器人行业竞争焦点将集中在上半身,而非下半身。

在运动控制领域,“灵巧手”被业内公认为最难突破的部分。解剖学研究显示,算上手腕,人类双手拥有27个自由度(编者注:自由度是机器人常见术语,指它的各个关节可以在三维空间中独立移动的方向和角度的数量,自由度越高,机器人越灵活),能组合出超300种基础动作模式,这种多维度协同让人类得以完成系鞋带、弹钢琴等精细复杂任务。

宇树科技提供给记者的一段视频中显示,该公司最新发布的Unitree Dex5灵巧手,具备单手20自由度(16主动+4被动)以及单手94个灵敏触点,能够完成打扑克、玩模仿、翻书等动作。在论坛现场,记者还亲眼看到了灵心巧手Linkerbot人形机器人用双手演奏钢琴与电笛的精彩表现。

“灵巧手作为机器人的末端执行器,想要完美复刻人手结构与功能是非常难的,它需要具备强大的能力,执行捏、拿、握等种种精细操作,这关系到复杂的结构设计和精密的控制问题。”灵心巧手(北京)科技有限公司联合创始人张延柏对记者表示,当前常见的人形机器人一般设有16~18个主要关节,而他们公司研发的单只灵巧手,就拥有21个主动关节。

张延柏认为,目前灵巧手研发面临诸多现实挑战,如部件强度与自重平衡、传感技术精度、数据采集效率与准确性、学习算法优化等。这些因素不仅影响优质灵巧手的性能与实际可用性,还关系开发成本、使用成本,甚至决定其能否大规模量产与广泛应用。

关节自由度之外,触觉传感器的相关技术也同样决定着灵巧手的成败。人类历经漫长的进化过程,才发展出对物体的力觉感知和形状感知能力。而机器人只能依靠机器硬件以及算法来作出判断,其间的技术难度不言而喻。

在上海清宝引擎机器人测试中心,一台约1.6米高的双足人形机器人正流畅地摆动双臂,伴随音乐跳起一段机械舞,关节活动时的细微声响与精准动作引得在场人员惊叹。

“它的往返精度达到±0.05毫米,全球能做到这种水平的寥寥无几。”公司董事长王磊说话间,机器人转向观众,眼部高清摄像头捕捉到记者表情后,显示屏立刻浮现微笑。在这台机器人旁,另一台装备皮肤、五官的机器人,也在同步回应记者动作。王磊称,它的眼皮、眉毛、嘴唇均可灵活运动,能根据对话对象情绪切换16种表情。

即便动作精准度如此之高,王磊仍坦言:“让机器人像人一样递一杯水,需融合视觉识别、运动控制和智能决策,难度比跳舞高出10倍。”

让机器人“大脑”更“灵光”

在中关村论坛现场,仿生交互机器人妮娅凭借逼真的形象与细腻的表情,吸引了众多参会者的围观与互动。

北京清飞科技创始人、CEO魏宇飞向记者介绍,妮娅是清飞科技研发的仿生交互型机器人,在中关村论坛年会中承担接待工作。除了语音互动,妮娅还能通过观察人类表情感知情绪反应,让交互过程更加自然、人性化。“这也是仿生人形机器人最大的亮点,它十分通人性,不仅智商高,还很有眼力见儿。”魏宇飞说道。

在这些语音交互、表情交互的背后,发挥关键作用的正是人形机器人的“大脑”。

在人工智能诞生前,人形机器人的“大脑”是一系列精密设定的方程式,尽管经过精密计算,但由于难以涵盖所有变量,机器人距离真正意义上的“思考”仍有很大差距。如今,大部分人形机器人采用VLA模型(Vision-Language-Action Model,即视觉—语言—动作模型),能够从视觉感知出发,通过学习知晓如何行动,实现业内所说的“端对端”效果。

视觉感知是VLA模型的重要组成部分。视比特机器人副总裁刘婷婷介绍,深度相机是当前人形机器人的主流视觉方案,包括结构光、ToF、多目视觉三类。目前国内在视觉感知方面,不管是价格还是技术都非常成熟。

然而,就目前人形机器人的发展状况而言,视觉感知到行动执行之间仍存在一定差距。穹彻智能联合创始人卢策吾指出,当前常见的VLA模型存在两大突出问题:一是缺乏对世界的理解能力;二是在末端执行环节,空间不确定性较大。

刘婷婷也向记者坦言:“将人工智能技术应用于人形机器人领域,目前面临的最大问题是泛化能力不足。人工智能系统在特定场景中经过充分训练后表现良好,但一旦置于不同场景,运行就会陷入混乱,无法有效适应新环境并完成任务。VLA大模型虽为机器人“大脑”的主流构建方式,但以此控制机器人,其泛化性和灵活性仍有很大提升空间。”

“泛化”是业内谈及人形机器人“大脑”时频繁出现的词汇。泛化意味着机器人有能力完成未学习过的任务,可能是举一反三,也可能是基于理解执行更复杂的任务。例如执行任务时,若光影背景、物体种类、空间位置等发生变化,甚至任务过程受到人为干扰,机器人也应具备应对能力,这正是泛化需要攻克的难题。

让机器人包揽家务,是人们对人形机器人的初步设想。然而,即便机器人能够完成高难度武打动作、创作出优美诗词,厨房里的一个脏碗却可能让它束手无策。人类凭借直觉就能判断碗的材质、重量、油污程度,并依据水流情况自然地做出清洗动作。而机器人则需通过视觉或触觉逐步识别这些信息,再计算出合适动作,这种感知与运动的复杂性超出了当前技术能力范围。

爱观视觉投融资负责人刘昊对记者表示,未来人形机器人将由三大板块构成:本体系统(包括运动控制与灵巧手)、感知系统(视觉、听觉及传感器)及后端处理系统(大模型或“大脑”)。他强调,当前行业仍处于各板块独立发展阶段,尚未形成高效整合。“真正实现人形机器人的全面替代,需要这三部分协同演进。”

伽南科技(北京)有限公司品牌总监梁骐钧直言:“人形机器人的发展仍需大量时间,还有很长的路要走。”她进一步表示,当下人形机器人企业多聚焦于本体的开发和身体控制研发,虽然目前人形机器人在智能(“大脑”)方面存在欠缺,但有一天人形机器人能接入“大脑”时,此前训练出的良好身体机能便能与之更好地协同配合。

“无论是中国还是全球范围,在软件层面,即机器人的大脑成熟度方面,都尚处于早期阶段,未来的探索之路还很漫长。” 刘婷婷说道。

机器人也需要不断训练

在位于首钢园的人形机器人数据训练中心,超百台机器人拥有各自不同的“工位”,它们每天都在这里重复进行百余次训练。

记者在训练中心看到,人形机器人已经开展了在不同场景下的模拟应用,比如采摘果实、叠衣服、擦家具等场景,而机器人旁边,则站着它们的“老师”——人形机器人训练员。他们操控机器人,以极其细微的动作慢慢“教”会机器人从一个个分解动作开始,熟悉完成一整套连贯动作。

“相当于我们的工作员在教这个机器人怎么操作,怎么完成任务。在完成这个任务的时候,机器人可以记录各种数据,比如相机的、手机的、底盘的或者是末端执行器的。”人形机器人数据训练中心负责人张钦锋介绍,为了让机器人拥有在不同场景“举一反三”的泛化能力,采集员要不断地调试环境。

在上海,智元机器人同样拥有一个类似的数据采集中心。4000平方米的厂房中,搭建出家居、餐厅、工业、商超、办公五大类场景,包含超过200个细分场景的任务。在这些场景中,数百名数据采集员头戴VR眼镜、手持操作手柄指挥着机器人进行各种动作。

“智元机器人的模型训练路线与语言大模型比较类似。最开始是预训练,该阶段使用尽量多的数据进行训练,形成对环境的基本感知等,之后从中采集数百条高质量数据。训练的同时也会做一些泛化,比如倒水的动作,我们会对水壶、桌面、光照等进行更换,对拿放位置及倒水姿态进行调整等,大概数百条数据能让机器人实现比较好的倒水效果。”智元机器人合伙人、具身业务部总裁姚卯青说道。

数据训练或许能解决泛化的难题。但与此同时,人形机器人在技术上还面临一些其他瓶颈:电池续航、自我负载、机械结构的灵活性及稳定性等。

以电池续航为例。根据中国信通院发布的《人形机器人产业发展研究报告(2024年)》,人形机器人需要高性能电源来提供持久的动力。我国目前大部分人形机器人的运行时间通常为2至4小时。

一方面,人形机器人的体积有限,对其能够携带的电池容量和重量都提出了要求;另一方面,越是对人形机器人提出高要求的动作需求,其所需要的电量耗能更多。随着“大脑”技术逐渐成熟,人形机器人将配置更高级的传感器、更复杂的控制系统、数量更多的芯片,能耗问题将进一步凸显。

“我们预计,未来两到三年,硬件方面的问题将逐渐得到解决,相关标准会趋于统一。届时,人形机器人企业的核心竞争力将更多体现在场景数据的积累、智能算法(类似大脑、小脑功能)等方面,而机器人本体硬件部分在竞争中的核心地位将有所弱化。”柯真东说道。

人形机器人一步步从概念走向现实 本刊首席摄影记者 肖翊I摄

从实验室迈向现实的关键跨越

从最初仅能带来新奇体验的 “玩具”,迈向有望切实助力各行业发展的 “工具”,这一转变意义非凡。如何从实验室迈向现实社会,是当前人形机器人产业面临的核心课题。

关键零部件突破与供应链规模化

扎稳马步、沉肩坠肘、松腰落胯、随腰出手……在中国具身智能大会现场,人形机器人Adam向观众表演了一段“功力深厚”的太极。

“Adam之所以能做出如此灵活的动作,很大程度上得益于其全身配备的PSA高性能执行器,这相当于机器人的‘关节’。而且,它身上所有的执行器均由我们团队自主设计、研发并生产。”梁骐钧一边用手指向Adam的关节部位,一边向记者介绍。

一台成人尺寸的人形机器人,需要数十个精密电子执行器。这些执行器通常安装在机器人关节处,负责将能量转化为机械运动,使人形机器人得以实现行走、搬运物品等动作。除执行器外,人形机器人的关键零部件还涵盖减速器、丝杠、传感器等硬件组件,以及相关软件系统。一台人形机器人的成本,基本上由这些核心零部件构成。

人形机器人要实现商业化落地,在解决技术瓶颈的同时,成本亦是关键因素。目前公开销售的人形机器人中,宇树科技G1人形机器人售价为 9.9 万元,H1人形机器人售价为65万元。众擎去年12月发布面向科研教育场景的开放型人形机器人PM01,单台售价8.8万元起。优必选发布的“天工行者”售价29.9万元,已开放预订。越疆机器人推出Dobot Atom,售价19.9万元起。

这个价格比2024年初下降了不少。彼时人形机器人的售价大约在60万~80万元。

灵宝CASBOT联合创始人兼COO张淼对记者表示,外行更关注机器人能做什么,但在行业内,大家比拼的是“如何以更低成本、更高可靠性实现规模化落地”。

无论是减速器、传感器还是精密结构件,本土供应链的高效协同正在形成产业上下游的共建效应,助力人形机器人关键零部件突破成本瓶颈。

今年年初,摩根士丹利发布《人形机器人100:绘制人形机器人价值链图谱》 报告。该报告从“大脑” (半导体/软件)、“身体”(工业组件)、“集成商”(整机制造)三个维度,梳理出全球人形机器人上市公司百强名单。报告显示,在已确定参与人形机器人产业的公司中,近七成来自中国和美国,其中中国企业占36家。此外,在全球人形机器人产业链中,中国所占份额高达63%;在“身体”环节,中国集成企业占比达45%。

“中国拥有庞大且完整的零部件供应链,这是其他国家或地区难以企及的。”姚卯青向记者表示,国内供应链优势体现在两个方面:一是成本优势;二是机电一体高新技术、机器人关节模组的研发与生产制造能力,处于世界一流水平。

打造出可直膝行走的人形机器人的Cyan青心意创同样受益于国内供应链。该公司创始人牛腾昦表示,公司目前正全力开展电机减速器、驱动板及关节模组的自主研发工作,核心零部件主要依托国内供应链。他进一步指出,当前国内谐波/RV减速器技术已日渐成熟,电机制造领域则能够复用工业母机、汽车轮毂电机等现有的成熟技术。从整体来看,实现国产化替代并不存在实质性阻碍,并且一旦相关技术取得突破,产品成本将显著降低。

减速器是人形机器人传动结构的关键零部件。以往,这一零部件主要由日系厂商生产。随着国内供应商纷纷入局,市场份额已发生显著变化。东方证券研报数据显示,2021年,哈默纳科、新宝两家日系厂商在国内的谐波减速器市场份额为42.9%,到2024年上半年,这一数字降至41.6%,下降了1.3个百分点;在应用更广的工业机器人用RV减速器市场,纳博特斯克、住友两家日系厂商的市场份额,从2022年的55%降至2023年的44%。

行星滚柱丝杠是人形机器人的核心“关节”部件,它将旋转运动转化为直线运动,决定着机器人关节移动的精度和灵活性。单台人形机器人一般需搭载10至14个行星滚珠丝杠,其价值量占关节模组的20%,占整机的5%~8%。由于制造工艺涉及高精度旋风铣床及特种合金钢材料,该市场份额长期被瑞士GSA、Rollvis与德国Rexroth等企业主导,设计制造一直依赖进口,成为制约国内人形机器人产业发展的关键瓶颈。但随着国产替代的推进,单件行星滚柱丝杠的报价目前已从1.5万美元降至千元左右。

摩根士丹利报告中的一项数据同样印证了国内产业链在核心技术研发上的突破。根据报告,过去5年,中国涉及“人形机器人”的专利申请数领跑全球,达5688项,而相比之下,美国仅1483项。

美银近日发布的研报亦指出,如果更多机器人原始设备制造商(OEM)能够充分利用中国供应链,全球人形机器人的普及速度或将大大加快。

“需要注意的是,当前人形机器人的构型以及关节部分,尚未实现标准化。” 柯真东表示,目前,众多生产伺服电机、减速器的企业,大多还未大规模投入到针对人形机器人关节的设计与制造当中。各家企业在关节选用上差异较大,尚未形成规模效应,这也是人形机器人成本居高不下的原因之一。

张淼亦表示,目前供应链成熟度仍远远不足,比如主控芯片缺失、核心零部件指标参数标准化存在诸多问题等。不过,在巨大市场需求的推动下,产业链将持续完善。

“放眼全球,我坚信中国的产业链必然具备优势。”张淼强调。

人形机器人稳步通过斜坡、碎石、沙袋等复杂地形 本刊首席摄影记者 肖翊I摄

量产曙光已现

工信部发布的《人形机器人创新发展指导意见》明确提出了量产的具体目标:到2025年,初步建立人形机器人创新体系,“大脑、小脑、肢体”等一批关键技术实现突破,产品能够批量生产;到2027年,人形机器人产业加速迈向规模化发展阶段,应用场景更加丰富多元,相关产品深度融入实体经济,成为重要的经济增长新引擎。

开源机械首席分析师孟鹏飞介绍,2025年是人形机器人量产元年,目前国内订单超过3000台的机器人公司已有多家。

在商业化方面,今年以来,已经有数十家机器人生产公司宣布量产。2025年1月,智元机器人迎来通用具身机器人(包括731台双足人形机器人和269台轮式通用机器人)量产1000台的重要时刻,目前累计产出已接近2000台。

“当企业具备产线,拥有专业的生产工艺管理体系,便有了实现量产的基础。”柯真东对记者表示,“以乐聚为例,2025年1月,我们已正式对外销售并交付了 100台产品。按照目前的规划与预估,今年的产量有望达到千台级别。”

产能方面,据谭旻介绍,优必选2025年规划人形机器人产能1000台,预计交付几百台。

“在各个场景都顺利落地的情况下,优必选乐观估计2026年人形机器人交付将达数千台;2027年有望实现万台级别的交付。”谭旻对记者透露。

在谭旻看来,数据训练是人形机器人实现量产前的关键环节。若未经过商业场景的应用测试以及小规模批量交付,便无法为量产做好充分准备。

“优必选的机器人刚实现了从单机实训迈向多机协同作业的群体智能突破,为今年的小规模量产交付奠定了技术基础。只有逐步增加实训环境中的人形机器人数量,让人形机器人在不同场景、不同岗位执行各类任务,才能收集更多真实且实用的数据。通过真实环境与仿真环境的数据积累,机器人才能进一步提升训练的效率。如此一来,在实现量产交付时,才能支撑更多机器人进入工厂工作。”谭旻说。

下班回家就能吃上机器人做好的晚餐,房间还收拾得一尘不染,这样的家庭机器人是不是你想要的?本刊首席摄影记者 肖翊I摄

从工厂到家庭的再进阶

不能忽略的是,人形机器人已经站在了技术与商业化的十字路口。

在中联重科生产车间,一台人形机器人正在产线上尝试着分拣磨具,每个动作有条不紊。据相关负责人介绍,这款机器人已经能在生产装配线上完成一些基础任务,未来还有望进入仓储物流、商业服务甚至居家养老等领域。

为了让机器人更智慧、更聪明,中联重科研发团队攻克了5项关键技术,比如如何让机器人感知环境并理解行为意图,如何通过视觉、力觉和触觉的结合实现精准抓取,以及如何规划双臂协同操作的动作路径。这些听起来复杂的技术,其实是为了让机器人变得更聪明、更灵活,能够适应各种复杂的场景。

在工厂里,人形机器人已取得不少实训成果。在极氪5G智慧工厂,数十台优必选Walker S1人形机器人已经完成了全球首例多台、多场景、多任务人形机器人协同实训。据谭旻介绍,工业人形机器人Walker S系列已进入东风柳汽、吉利汽车、一汽—大众青岛分公司、奥迪一汽、比亚迪、北汽新能源、富士康、顺丰等多家行业头部企业实训,成为全球进入最多工厂实训的人形机器人。

相较于四足机器人的广泛应用,人形机器人目前落地的主要场景大多集中在类似“进厂打螺丝”这类工业生产环节。业内人士普遍认为,一条较为可行的落地推广路径是,先让人形机器人在工业或商业场景中进行小范围应用试点,待技术成熟、规模效应显现后,再逐步向家庭、医院、养老等对安全性、灵活性要求更高的场景进行拓展。

马斯克曾大胆预言:“未来,人形机器人将具备照顾孩子、遛狗、修剪草坪、端咖啡等多种生活服务能力。全球80亿人口,每个人都极有可能拥有一台属于自己的人形机器人。”

马斯克口中的未来还需要多远?谭旻直言,要真正实现人形机器人在家庭服务的愿景,需要让机器智能迈向通用人工智能,这也许还要10至20年的时间。

“家用机器人的门槛主要在于不确定性。之所以说家用场景比工业场景难度大,是因为具身智能的本质难题就是不确定性。工业环境相对固定、可预测,而家庭环境每天都在变化,人们会接触各种不同的物体,充满了不确定性。这是智能领域天然存在的挑战。”上海交通大学特聘教授马利庄对记者表示。

相较于工厂环境的单一,家庭环境相对复杂且脆弱。不仅摆放着各种材质、形态、尺寸的物品,还有老人和孩子。当前人形机器人主体结构多以钢铁材质为主,重量高达100多斤,存在较高的倾倒风险,操作不当还会造成安全问题。

在上海卓益得机器人创始人李清都看来,人形机器人在人类场景中运行,安全是首要问题。他提出物理安全与信息安全并重:“物理安全需轻量化设计,避免大功率导致危险;信息安全则需保护用户隐私,类似手机安全机制。”

“家用机器人落地要循序渐进。”马利庄表示,家庭中的行为有着不同的难度层级,不能一概而论。可以把家用机器人的应用按难度划分成多个层级,至于何时能全面进入家庭,实现各种功能,这需要逐步推进。

来源:中国经济周刊一点号

相关推荐