苹果要造家用机器人?真人教练手把手教家务,倒咖啡搬快递不远了

360影视 国产动漫 2025-05-22 11:15 2

摘要:路边同学相信,在不久的将来,基于 AI 的家用机器人可能会帮我们倒咖啡、搬快递。当然,很多公司也都在大力推进家用机器人的研发。最近苹果就论文中公开了他们对机器人的训练方法:用人当教练,戴着 Vision Pro 以第一视角录制视频,从 “看” 到 “做” 手把

文 | 路边同学

路边同学相信,在不久的将来,基于 AI 的家用机器人可能会帮我们倒咖啡、搬快递。当然,很多公司也都在大力推进家用机器人的研发。最近苹果就论文中公开了他们对机器人的训练方法:用人当教练,戴着 Vision Pro 以第一视角录制视频,从 “看” 到 “做” 手把手人形机器人学技能

训练机器人有多难?
费钱、费时间,还学不明白

要教机器人干活,传统方法就像 “让小孩自己摸索”,要么让机器人自己试错,要么靠工程师远程操控,累得手抽筋,还只能教几个动作。

苹果在论文里直接吐槽,这两种方式都存在两个巨大的短板:“贵且慢” 。贵,是因为机器人本身就不便宜,加上工程师的时间,录一组动作成本很高;慢,指的是机器人学习慢,一个简单动作可能要重复几十次,它才能学会记住;更重要的是,整个学习过程无法实现规模化,成本降不下来。比如教机器人端杯子,工程师得远程操控机器人反复练习,录一段数据可能要花几小时。要是想教 100 个动作,时间和设备成本直接 “顶爆成本表”。

苹果的新招
真人当教练,Vision Pro 当摄像机

那苹果咋解决?简单说就是让机器人 “抄人类作业”。通过真人老师佩戴 Vision Pro 录制实操动作,然后机器人看着学。

具体分两步:

1. 真人当示范员,找真人坐直,做抓杯子、倒液体、搬小物件这些日常动作。过程中用设备记录 “第一视角画面”+“手部 3D 动作”,比如手指怎么弯曲、手腕怎么转。

2. 机器人当学生,让机器人自己演示同样的动作,录下数据。最后把人类和机器人的数据 “混在一起”,喂给 AI 模型学。

这方法叫 PH2D(Physical Human-Humanoid Data),核心就是 “人类教 + 机器人练”,既省成本又能学更多样的动作。

可以说,PH2D 训练法相当于给机器人 “开了个速成班”。以后,不需要工程师天天远程操控,找几个普通人戴设备录动作,机器人就能自学成才。解决了机器人训练规模化的嗯提,为未来降低量产家用机器人的成本和研发周期打下基础

数据收集全靠改装设备
Vision Pro+Quest,低成本高效果

根据当下条件解决复杂问题,是一项非常重要的团队能力。为了录好人类的动作,苹果的团队玩了把设备改装。

1. 高端版是改 Vision Pro

把 Vision Pro 的左下摄像头单独激活,用来专门拍手部动作。然后再用苹果的 ARKit(增强现实工具),精准追踪头部和手部的 3D 位置。戴这设备的人,一举一动都会被全部都记下来,并拆解成机器能够理解的详细数据,如手抬多高、手指弯多少度等。

2. 平价版是改 Meta Quest

怕 Vision Pro 太贵,没问题。苹果的团队直接 3D 打印了个支架,给 Meta Quest 3 装上 ZED Mini 立体摄像头,一样能拍 3D 动作。成本更低,但效果不输高端版。

更好玩儿的是,因为人的动作要比机器人快很多,比如倒一杯水,人 2 秒,机器人可能要用 8 秒。所以,苹果直接把录好的真人视频慢放 4 倍,机器人跟着学刚好跟得上。

HAT 模型
机器人的 “人类动作翻译官”

光有数据不够,得让机器人 “看懂” 理解人类的动作。因为机器人和人类的身体结构不一样,比如手臂长度、关节自由度等,于是需要一个翻译官,把人类的动作转化为适合机器的动作。

于是,苹果就又搞了个 HAT(Human-humanoid Action Transformer)模型,作用相当于人类与机器人的翻译官。传统模型会把人类和机器人的数据分开学,HAT 却能把两种数据揉在一起。不管是人类伸手抓杯子,还是机器人伸手抓杯子,模型都能总结出一套通用的抓杯子技巧。

比如:关于抓杯子的动作,HAT 总结核心逻辑是:抓被子要拿中间,然后系统会根据机器人的手臂长度、关节灵活度等身体参数,生成适合它的动作指令。

测试结果超惊喜:用 PH2D + HAT 训练的机器人,在垂直抓物这类任务上表现更好,甚至机器人还学会 “抢答了”,能够处理没学过的新动作,比如能够抓我没有见过的异形杯。而过去只靠机器人自己试错训练的话,遇到这种新情况立刻就会抓瞎。

苹果的 “家务机器人” 要来了?

现在苹果只展示过机器人灯这种原型(请阅读:苹果推家用机器人:会撒娇懂心意、可手势操控超治愈!),但论文里藏着面向普通用户的消费级人形机器人的野心。也许未来,就能够推出会扫地、打下手递东西、甚至做简单家务的家用机器人。

来源:路边同学一点号

相关推荐