人形机器人的智能觉醒时刻

360影视 欧美动漫 2025-06-25 09:57 2

摘要:4月19日,周六,全球首场人形机器人半程马拉松在北京亦庄举行,天工Ultra率先冲向终点。这个身高1.8米、体重55公斤、全身漆黑的机器人跑出了和人类跑者相似的成绩:2时40分42秒。对比之下,在半个世纪前的1973年,诞生于日本早稻田大学的全球第一款人形机器

Key Points


现在投资不止局限于做人形机器人本体的公司,还会押注模型、数据、硬件、场景等产业链上下游的企业;


机器人的上半身——核心就是大脑——迎来了技术拐点;


数据量的限制在倒逼研究者开创新的技术路线,行业内出现了分层模型的趋势;


如果说机器人的本体代表了现在,大脑则代表了未来;


目前机器人本体的应用场景主要是科研和表演。

4月19日,周六,全球首场人形机器人半程马拉松在北京亦庄举行,天工Ultra率先冲向终点。这个身高1.8米、体重55公斤、全身漆黑的机器人跑出了和人类跑者相似的成绩:2时40分42秒。对比之下,在半个世纪前的1973年,诞生于日本早稻田大学的全球第一款人形机器人WABOT-1,每45秒才能迈出一步。

近两年,人形机器人正在以各种意想不到的方式“刷存在感”:特斯拉2024年的自动驾驶发布会上,其Optimus机器人用饮料招待宾客、和人玩猜拳游戏。宇树科技的人形机器人登上央视蛇年春晚舞台,和舞者一起甩手绢、扭秧歌。这些闯入大众视野的人形机器人似乎在努力证明:科幻电影中的场景即将成真。

它也成了当下国内最热门的创业赛道之一。华为、蔚来、百度、京东、大疆等公司都有高管离职创业,新加盟的研究者则大多具备加州大学伯克利分校、斯坦福、清华、北大等顶尖高校实验室的学术背景。据不完全统计, 自2023年至今,中国涌现出58家人形机器人创业公司 ——这里面还不包括产业链上下游的企业。

相应的,资本市场的热钱也在大笔砸进来。今年3月,成立刚一个月的它石智航凭借1.2亿美元的天使轮融资,创下了行业内天使轮融资纪录。IT桔子的数据显示, 2023年至今,人形机器人领域的投资事件累计130起,投资规模平均每年约55亿元人民币。

春节假期过后,投资人争抢宇树科技老股的新闻登上热搜,同时大量以机器人为主题的商业计划书递到了投资人面前。某精品人民币早期风险投资机构的投资人程朗对《第一财经》杂志表示, 现在投资不止局限于做人形机器人本体的公司,还会押注模型、数据、硬件、场景等产业链上下游的企业。

然而就在3月底,VC圈的热点制造机,金沙江创投合伙人朱啸虎再次踩准时机炮轰整个行业,称自己正在批量退出人形机器人公司,理由是“市场共识高度集中,但商业化路径并不清晰”——他上一次发表类似言论就在一年前,当时炮轰的对象是大模型行业,他直言“中国大模型公司全没戏”。

从事实来看, 2024年全国人形机器人市场的规模是27.6亿元 ——只有年度投资规模的一半。各个研究机构都描绘了未来5到10年市场规模快速膨胀的美好图景,但并未给出足够精细、具象化的落地场景。

泡沫自然是存在的,不过当我们追溯这一轮投资和创业热潮的根源,就会发现在AI技术的加持下,人形机器人确实在发生质变。强化学习的广泛应用让机器人能够快速学会过去要几周才能掌握的动作;大模型向机器人的技术迁移又极大地提升了后者的自主能力,让人形机器人从“会动”,向“能听懂人话”且“具备思考和规划能力”跃升。

投资从下半身向上半身转移

2024年8月,北京的酷暑未能吓退观众对机器人的热情。在世界机器人大会现场,人形机器人上演“百机大战”,跳舞、弹扬琴、写毛笔字、叠衣服……几乎每个展台边都挤满了观众。如果说2024年的“机器人热”还仅限于技术爱好者圈内,登上春晚舞台的宇树科技的通用人形机器人H1彻底打破了圈层。观众们惊诧于机器人的灵活性,好奇什么时候可以买一台回家替自己干活。

这样的憧憬五十多年前就有了。从1980年代弹钢琴的WABOT-2,到2000年本田公司旗下会走路、会跳舞的ASIMO,再到2013年美国波士顿动力公司能翻跟头、手拉脚踹也不倒的Atlas,机器人的行动能力在不断突破。

这也是上一轮机器人发展的主线——做好机器人的下半身。灵初智能创始人兼CEO王启斌在机器人领域深耕多年,他对《第一财经》杂志表示,2016年前后出现的一批机器人公司,能够将一件物品从一处搬运至另一处,专注于对有限物体的操作。这些用于酒店送餐、清洁、仓储物流的机器人,只能在相对封闭的场景里完成任务,智能化水平相对较低。

宇树科技给机器人带来了更高的关注度,但这家公司 本质上还是和2016年那一拨机器人公司一样,都只解决了机器人的移动能力,并没有解决机器人上半身尤其是手部的操作能力。 其进步之处在于,随着人工智能(AI)的发展,宇树科技采用了强化学习和模仿学习相结合的算法,增强机器人的运动控制能力,直观体现在产品上,就是机器人动作更灵活,更适应复杂地形。宇树科技创始人王兴兴称,2024年年初,宇树科技的H1完成了全球首次纯电驱动人形机器人原地空翻。这是传统算法很难实现的。

宇树科技并非走纯粹AI技术路线的公司,它的火爆仅代表了本轮机器人热潮的一面。另一面对大众来说或许感受不深,却足以振奋机器人行业:随着AI技术与大模型等技术取得突破, 机器人的上半身——核心就是大脑——迎来了技术拐点。

这个变化也体现在语言上,近年来“具身智能”这个在这一拨浪潮中诞生的热词,已经隐隐有代替“机器人”的迹象。两个词都指代那些可以与世界交互的人造物理实体,但有着明显不同的价值倾向,前者更强调“大脑软件”的重要性,潜台词是为大脑寻找一个好用的身体以促进软件的进化,后者更侧重物理实体本身。

首个明确提出要为人形机器人升级大脑的人是马斯克,特斯拉快速成熟的自动驾驶技术使他意识到,这种理解、规划、操控的能力完全可以迁移到机器人身体上。2021年,马斯克在特斯拉的AI Day上首次宣布人形机器人Optimus计划,打算将电动车的自动驾驶系统和芯片集成到人形机器人上。当时很多业内人士质疑马斯克在“夸大宣传”。事实上,自动驾驶和人形机器人的底层逻辑是一致的:在无人干预的情况下感知环境、识别物体、自主控制并完成任务。

马斯克曾将电动车类比为“带轮子的机器人”。特斯拉的Optimus就采用了与FSD智能辅助驾驶(特斯拉的“完全自动驾驶系统”)相同的视觉感知方案和神经网络技术,以完成路径规划和物体识别。这也是为何这拨机器人热潮中有大量创业者来自自动驾驶行业。

例如,维他动力的创始成员包括地平线前副总裁、软件平台产品线前总裁余轶南,理想汽车智能驾驶产品前总监赵哲伦,和曾是地平线软件平台总架构师、智驾团队创始成员的宋巍。它石智航董事长李震宇曾任百度智能驾驶事业群总裁,CEO陈亦伦曾任华为自动驾驶CTO。智元机器人合伙人姚卯青曾在Waymo、蔚来汽车担任重要的技术岗位。

不过,虽然人形机器人与自动驾驶技术有相通之处,但两者要处理的场景难度却不同。汽车再复杂也是在道路上行驶,而交通网络已经是人类文明塑造出的最结构化、系统化的场景,理想情况下,操控汽车只需要油门、刹车和方向盘。但人形机器人面对的场景就是人类日常生活工作的场景,复杂度和前者完全不是一个量级,这意味着人形机器的大脑需要更加“通用”。

Google率先提出了解决方案,在2022年12月发布并开源了机器人模型RT-1(Robotics Transformer 1),首次将大模型装载进机器人,机器人在模型的指挥下完成了抓取物体、开关抽屉等700多项复杂操作,准确率达到97%。机器人终于不再只是在单一路线里做重复任务的“呆子”,第一次拥有了通用型“大脑”。

但高准确率的前提是,Google Research团队收集了13万条机器人运行的真实数据,以此为“教材”训练机器人。换言之, 机器人只能完成经过训练的任务 ,一旦任务超过数据集范围,对机器人来说就意味着“考试超纲”。Google 2023年发布的RT-2模型再次有了飞跃性进展:研究员下达“抓取已灭绝动物”的指令后,搭载RT-2的机器人伸出手臂,在一堆玩偶中抓住了恐龙。这表明新模型使机器人具备了推理能力,机器人可以通过思考完成任务。

昂贵的数据

人形机器人的技术突破,并不是将大模型搭载在机器人身上那么简单。大模型通过和用户对话解答问题,训练数据来自互联网。机器人是和现实世界交互解决问题,需要的数据更多,获取难度也更大。

智元机器人(以下简称“智元”)首席科学家罗剑岚在接受《第一财经》杂志采访时表示,大语言模型或多模态(文生图、文生视频等)模型的生成结果仍然只有60%至70%的准确率。这个准确率在二维世界并不会造成多大伤害,但 在真实世界,“这种准确率一点用也没有”。

因为机器人每一个失败动作都会产生物理性的后果。没有人可以忍受机器人递来杯子时把咖啡泼在自己脸上,或者清理桌面时把餐具也丢进垃圾桶。机器人需要更高的准确率——罗剑岚给出的数字是99%。而要在70%动作预测准确率的基础上再提升20%到30%,往往比从0到70%更难。

如何获取高质量的数据以完成进一步训练成了行业难题 ,互联网数据只是冰山一角,还有一个途径是像Google一样,收集真机数据。Google曾联合全球33个学术实验室,推出了涵盖超百万条真实轨迹的数据集Open X-Embodiment。

效仿这一路径的还有智元,它在2024年9月启用中国首个数据采集工厂,数据采集员通过遥控操作(简称“遥操作”),让机器人通过模仿学习,然后采集数据。这座4000平方米的工厂里涵盖了商超、家庭、工厂等场景,近百名数据采集员拿着遥控设备,“手把手”教机器人工作。当工作人员拿起设备做出“扫码商品”的动作时,机器人也有样学样,扫码了一罐口香糖。人形机器人完成“拿起商品、扫码、装袋、递给客户”的操作,耗时约1分钟,这就是1条数据。一个机器人每天可采集约150条数据,如果人形机器人想完全学会该动作,需要累计收集上万条数据。

“有多少数据就有多少智能,海量的免费文本数据催生了大模型。自动驾驶汽车在路上跑也有很多数据,但对于机器人来说,并没有现成的、免费的高质量数据。我们未来产出的数据规模每周将会是50万条。”智元联合创始人彭志辉说。2024年年底,智元发布了开源数据集,规模比Google的数据集大10倍。

此外, 数据量的限制也在倒逼研究者开创新的技术路线,行业内出现了分层模型的趋势,即将一个通用大脑拆解成两个小模型,一个负责理解规划,一个负责执行控制。

2024年12月,灵初智能率先推出了分层端到端模型Psi R0,将视觉-语言-动作模型(Vision-Language-Action,VLA)拆解为视觉-语言模型(Vision Language Model,VLM)和动作执行两个层级。上层负责推理,下层专注机械控制。例如,当机器人清理桌面时,上层相当于机器人的“大脑”,负责判断哪些是要扔掉的垃圾,哪些物品要整理好。当物品抓取失败时,下层充当了“小脑”的角色,会再次尝试抓住物品——动作迅速响应,不再需要上层做缓慢的思考。

分层架构扩展了可学习数据的类型 ,机器人模型不止从真机数据中学习,也能从大量互联网数据中学习。这种分层端到端的理念在之后Figure AI的Helix、Physical Intelligence的Hi Robot,以及智元的GO-1等机器人的架构中都有所体现。

另外, 合成数据也是一条路径。 英伟达在CES 2025大会上推出了用于合成运动生成的工具Isaac GR00T Blueprint,开发者只需少量的人类示范,就能轻松生成海量的合成数据集。2025年年初,银河通用推出的机器人大模型GraspVLA就是完全基于仿真合成大数据训练出来的。它自研的合成数据生产管线在短短一周内就能生成十亿级的机器人操作数据集,极大降低了数据采集成本。

尽管行业正在探索多种数据收集方式, 数据量仍然是限制行业发展的最大瓶颈。 以大模型为例,DeepSeek、Llama等模型的参数量大约为5000亿,训练如此规模的模型需要16.6TB的数据,如果一本书约等于500KB文本,训练数据相当于3320万本书,顶得上Google图书收录的书目数量。

文本数据获取起来相对容易,大模型尚且存在数据不足的瓶颈,机器人需要的现实交互数据更多,量的有效积累更难。多位投资者和机器人创业者对《第一财经》杂志表示,想要做出真正可行的机器人,在模型、架构、算法上都要取得突破。这拨机器人热潮还处于从0到1的阶段,具身智能的Transformer时刻还没有到来。

无论押注上半身还是下半身, 关键是先活下来

IT桔子数据显示,它石智航完成1.2亿美元天使轮融资后,投后估值达到了4.53亿美元。第一轮融资后的估值超过30亿元,也超出了投资方的想象。程朗长期关注具身智能赛道,据他回忆,有关人形机器人的投资在2024年年中已经很热,“此后的项目估值就没有低过”。在融资金额方面,“种子轮和天使轮大约为3000万至5000万元——这是及格线。今年对投资方的要求可能会更高,整个赛道有些疯狂,泡沫肯定存在,对投资机构来说难度增加了,但这对行业来说是好事,融资多了一些,行业在往上发展。”

这一年多来,机器人行业的项目数量、投资金额和估值在上升,投资方的关注方向也发生了变化。初创公司受限于资金,很难像特斯拉一样,软硬件一体化、全方位地研发机器人。国内的人形机器人公司目前大体可分为两类,一类侧重研发智能大脑(认知和任务规划能力),一类侧重研发本体(运动控制和硬件)。“2024年之前,投资方比较重视具身机器人的本体,2024年之后大家逐渐更关注具身大脑的创业企业。因为投资人更在意机器人智能水平和泛化能力的提升,这个趋势在国外出现得更早。”星连资本(Z基金)的投资人关蕾对《第一财经》杂志说。

硬件本体领域的明星公司正是宇树科技,自2020年起它已经连续5年实现营利。目前,宇树科技的四足机器狗占全球60%到70%的市场份额,销量第一。其通用人形机器人在2024年实现了全球发货,G1型号的售价低至9.9万元,打破了人形机器人尚停留在原型机阶段且价格高昂的印象。

谈及“硬件公司”的标签,王兴兴曾在2024年机器人大会期间对媒体称很喜欢这个标签,它代表了外界的认可。在AI浪潮下,他认为机器人的身体比想象中更重要,因为只有让身体在物理世界中交互,机器人才能真正理解重力、摩擦力、光学等物理概念,更高级的智能必须“具身”。这位创始人思路务实,肯定AI能力的重要性,也承认宇树对AI的投入较克制,因为“太烧钱了”。2016年前后,王兴兴联系投资并不顺利,多亏一位个人投资者投了200万元,条款宽泛,打钱时连协议都没有签。对资源短缺的创业公司而言,维持自我造血能力——在创业浪潮中活下来是优先考虑的事。

如果说机器人的本体代表了现在,大脑则代表了未来。 从财务角度出发,投资方理应优先选择本体,毕竟宇树科技已经赚到了钱。但从长远看,大脑决定了机器人的智能水平,商业价值的想象空间更大,对投资方的吸引力也更大。程朗表示,今年会侧重看AI模型、数据方向的投资标的。

当前的矛盾在于,提升机器人智能的技术路线并不清晰。 投资机构的投资策略也各不相同,投资时较为确定性的因素主要就是创始团队的背景。“赛道处于早期阶段,做什么样的机器人、做哪个环节的机器人可能一直在变,唯一不变的是团队基因。他们有没有技术实力?有没有对机器人的热爱?早期投资机构看人比看事多一点。”程朗说,高校学者负责技术路线的前沿探索,在业界经验丰富的人把控量产和场景落地相关工作,投资者相对倾向于这样技术和产业兼备的团队组合。

这一类公司的典型画像是智元。智元创始人兼CEO邓泰华曾任华为公司副总裁、计算产品线总裁,在华为工作了超过20年。“华为天才少年”彭志辉担任公司联创兼CTO;智元首席科学家罗剑岚曾在Goole DeepMind担任研究科学家,他还推动了智元与美国头部具身智能公司Physical Intelligence(Pi)的合作。截至目前,智元已完成7轮融资,腾讯两次增持股份,投后估值达到150亿元——几乎是宇树科技的两倍。

智元的投资阵容和团队阵容都堪称豪华,这使得它对AI领域的投入相当阔气:成立智元具身智能研究中心和智元机器人研究院两个研究机构,在上海建设国内首个机器人数据采集工厂。智元合伙人、具身业务部总裁、研究院执行院长姚卯青曾对包括《第一财经》杂志在内的媒体称,智元在AI方面是“P0级的投入”。他认为只投入机器人本体的开发没有未来,因为只开发本体,不投入AI,机器人就只能做有限任务,只是个昂贵的大号玩具。

但创业公司不能一直依赖融资生存,专注前沿研究和在市场上营利这两件事必须做好平衡。智元也在硬件量产方面发力,设立了远征、灵犀和Genie三大产品线,分别专注于to B、to C和数据采集,还为灵巧手等零部件设立了几个一级部门。2025年1月,智元量产的通用具身机器人达到1000台。

科研和租赁撑起早期市场, 人形机器人距离实用还有多远?

在当下市场,究竟是哪些人在买人形机器人? 从目前的结果看,机器人本体的应用场景主要是科研和表演。 宇树科技通过春晚“爆火了”,而比投资人更兴奋的,或许是机器人租赁市场。《第一财经》杂志向全国多家租赁方询价得知,宇树G1的日租金目前为7500元至9999元不等,周末和节假日价格还会上涨。每台机器人需要配一位操作员,因此租金包含了操作员的劳务费和设备运输费,租赁用途大多为在展会、商场等地表演节目。除了宇树科技,商家还推荐了云深处、加速进化、乐聚、松延动力等品牌的机器人租赁。

“商用导览和表演展示的场景需求不大,这种需求主要的价值在于对行业早期宣传和普及机器人的概念,但投资价值有限。”关蕾说,现在主流的市场需求是科研,科研机构会购买具身机器人本体,在上面部署一些前瞻性的算法做技术探索,包括认知和行为类的研究、强化学习和具身大模型的算法验证、物理世界模型研究等方向,“科研机构有很强的二次开发能力,通过底层的开放数据、接口和工具就可以搭建实验平台”。2024年12月,同济大学的招标公告显示,采购了10台宇树科技的H1-2通用人形机器人和相关配件,合同总金额为825.66万元。

但仅靠科研场景无法支撑起众多创业公司。宇树科技不执着于人形机器人,它将四足机器狗的性价比做到极致,以此养活自己,并支撑起未来长期的科研投入,这可以被视为一种接地气的做法。

此外 为人形机器人做零部件配套也是重要的赛道之一。 比如许晋诚创立的帕西尼感知科技,就是一家专门做机器人触觉传感器的公司,“握杯子时手掌张开的程度、拉扯柔软线路时要小心控制的力度”,这些机器人的手部动作规划都需要基于触觉反馈,他告诉《第一财经》杂志。

放眼未来, 投资人不再执着于人形机器人的“形”,而是专注于应用场景落地。 “轮式底盘,搭配双手灵巧操作或者以任何恰当的形态,用最好的性能和性价比,在它的细分赛道里实现具身智能的价值就可以。不一定非要双足形态。”关蕾表示。程朗则认为,2025年如果有新成立的公司还执着于做有双手和双腿的人形机器人,融资难度可能会变大,市场现在“更看重机器人用手操作任务、解决真实场景问题的能力”。

首届人形机器人马拉松上,机器人队伍的现场表现可以用乱糟糟来形容,大多数机器人需要中途更换电池,还要喷洒冷却液以降低电机等部件的温度。参赛的20支机器人队伍中只有6支成功完赛。不少人悲观地认为,这次马拉松把人形机器人的缺点完全暴露了出来,整个市场可能会转冷。然而接下来的一周,人形机器人概念股在A股市场表现活跃,襄阳轴承、宁波东力、杭齿前进、南方精工等多股涨停。

多位业内人士对《第一财经》杂志表示, 人形机器人是一个5到10年,甚至10年以上的漫长赛道。 不过“这条赛道长坡厚雪”,人形机器创业公司星海图面对朱啸虎的唱衰言论这样回应——这家公司在2023年11月拿到了金沙江创投的天使投资,但仅仅6个月后金沙江创投便火速退出。有趣的是,今年年初,DeepSeek的巨大成功让保守的朱啸虎也开始直呼“技术理想主义者的胜利”,当被问及如果有机会是否会投DeepSeek时,他反复说了两遍“肯定会投”。

应采访对象要求,文中程朗为化名。

灵初智能创始人兼CEO

王启斌

Q:人形机器人会像手机一样人手一台吗?

A: 这本质上还是以过去的思维范式来思考未来。因为智能手机被认为是一个smart device,它具有smart的属性,但是终究是被人拿来使用的device。我认为未来7年左右,人形机器人是有可能实现大规模部署的。

Q:那它会成为“伙伴”吗?

A: 目前,我觉得人形机器人和人之间的关系本质上还是处在大家所说的以人类为中心的阶段,从算法设计到奖励函数设定都由人类主导,其本质还是工具。但未来如果人形机器人在复杂环境中能够具备自我学习的能力,它或将成为新物种。届时它和人类的关系将向对人类更有帮助的伙伴关系演进。

Q:如果你有一台人形机器人,你最想用它来做什么?

A: 最近Rodney Brooks(iRobot创始人)在斯坦福大学的发言中提到一条规律,即机器人的外形设计决定了人对它的期望值。因此我们今天对人形机器人的期望,很大程度上就是对一个智人的期望。

银河通用合伙人

傅强

Q:人形机器人与非人形机器人的核心区别是什么?

A:目前被大众所熟知的非人形机器人,例如工厂的机械臂,往往为单一任务而生,效率极高,但适用范围受限。而人形机器人则代表了一条通用型的发展路径。人类社会中,楼梯、电梯、工具、家具的交互方式都以人的尺度和习惯展开,人形机器具备真正无缝融入这些既有结构的潜质。

Q:人形机器人会像手机一样人手一台吗?

A:马斯克预测未来世界上将有100亿台人形机器人,听起来也许有些夸张,但它反映出的趋势是明确的。在银河通用看来,哪怕达不到手机的普及度,未来人形机器人的规模至少能比肩今天的汽车产业。

Q:最打动你的人形机器人应用案例是什 么?

A:最打动我的是那些真正有人情味的时刻。比如在康养医疗场景里,它陪伴并照顾失能老人,替家人分担压力;又比如我忙碌一天、瘫在沙发上的时候,它递过来一瓶饮料、轻声提醒我早点休息。这些背后体现的正是人形机器人的最大价值—跨场景适应和灵活泛 化。

帕西尼感知科技联合创始人

聂相如

Q:机器人做成人形的价值在哪里?

A:人形机器人因其类人的外形和动作,天然适配人类环境,更具有交互友好性。不过帕西尼也并不追求绝对的仿人,TORA-ONE就是一款轮式人形机器人,我们专注于提升机器人的多维触觉感知能力,以人形为基础拓展应用场 景。

Q:打动你的人形机器人应用案例是什么?

A:最打动我的机器人应用案例是一个内置多维触觉阵列的护理机器人。它在帮卧床老人翻身时能够检测肌肉僵硬程度,自动调整托举角度,以及在感知到老人颤抖或抗拒时切换为安抚模式。这也是帕西尼一直以来的发展理念,践行AI向善,让技术更有温度。

Q:如果人形机器人替代了大量人类的工作,人类的价值在哪里?

A:即使人形机器人进入人类社会中,人类的价值依然体现在创造力、情感交流、复杂决策等方面,人类可以将更多精力投入到更具创造性和战略性的工作中。当然人类也需要在技术与伦理之间找到平衡,利用机器人提升效率,同时避免情感上的异化。

(本文首发于《第一财经》杂志4月刊

来源:晚晚的星河日记一点号

相关推荐