摘要:在银幕里,我们羡慕TARS能听懂人话、看懂环境、马上给出最合适的动作;而在现实世界的实验室里,“让机器人既会看、又会听、还能动”一直是跨模态人工智能的终极梦想。
还记得《星际穿越》中那台能在无重力、尘暴甚至巨浪中切换形态、随时理解库珀指令的TARS多功能机器人吗?
在银幕里,我们羡慕TARS能听懂人话、看懂环境、马上给出最合适的动作;而在现实世界的实验室里,“让机器人既会看、又会听、还能动”一直是跨模态人工智能的终极梦想。
过去几年,Vision-Language-Action(VLA)模型似乎找到了钥匙,却又被不同机器人的形态和动作标注成本牢牢拽住:换一条机械臂、添一个关节,就得推倒重来。
这篇来自香港大学与OpenDriveLab团队的新作UniVLA给出了科幻般的答案:与其费力教每台机器人说出自己的动作,不如在千万条人类和机器人视频中,先悟出一种任务中心的潜在动作语言。
2025年5月15日,香港大学、OpenDriveLab、AgiBot共同在arXiv发布论文Learning to Act Anywhere with Task-centric Latent Actions,一场关于机器人学习的交响乐就此奏响。
论文提出了UniVLA,一位能够指挥任何机器人乐手演奏统一乐谱的“总指挥”。如果你希望像乐迷一样透彻感受这场演出,不妨随我将技术术语化作音符,让交响故事在你脑海中徐徐展开。
序曲:为什么需要“一张乐谱”?
想象一支由小提琴、萨克斯、手风琴甚至街头架子鼓混搭而成的乐队:每件乐器有不同的音域、指法和记谱法,要让他们同时演奏同一首曲子,传统方法会为每个乐器单写分谱,事先标注每一拍该如何演奏。
机器人世界也面临同样困境:不同机械臂、移动平台乃至人类示范的视频之间,动作符号彼此不兼容,且大规模数据往往缺乏精准标签,于是旧有方法只能在单一机体或小范围领域内反复排练。
UniVLA的野心,是提炼一种跨机体、跨视角、无需动作注释的任务中心潜在动作(task-centric latent actions),就像用一种统一简谱把所有乐器的旋律都写进去,让任何机器人都能看谱即奏。
谱写通用动作乐谱:潜在动作模型如何“听音识谱”?
研究团队先把互联网与实验室收集的海量视频当作过往录音,逐帧对比前后两秒的画面变化,用VQ-VAE把这些变化量化为离散音符。然而,原始录音里既有主旋律,也混入了观众咳嗽、灯光闪烁等噪声。为避免机器把镜头抖动也当作指令执行,论文设计了两段式配器:
第一段配器:让文字指令承担高层语义,把任务无关却视觉突兀的变化(例如路人经过)收进一个任务无关音轨;
第二段配器:在冻结上述音轨后,再单独学习真正影响任务的动作音符,也就是task-centric latent actions,最终形成可覆盖多环境动作的紧凑乐谱。
接着,研究者基于Prismatic-7B视觉语言模型,把图像特征、语言指令与这些音符并列送入Transformer,让模型像指挥一样,听懂视觉与文字后按拍子输出下一段潜在动作。整个预训练仅耗约960个A100 GPU小时,远低于OpenVLA需要的21500个A100 GPU小时。
彩排与首演:UniVLA 的多场舞台测试
在模拟排练厅:LIBERO基准
面对四个难度套件(Spatial、Object、Goal、Long),UniVLA 直接把乐谱拍在指挥台上:Bridge版本在没有额外人类视频的情况下,平均成功率 92.5%,而在纳入多模态OpenX与Ego4D后,完整版本飙至95.2%,把早先最佳的OpenVLA甩开近19个百分点。
在街角小型剧场:Room2Room导航
导航场景好比让乐队边走边奏,环境连续变化、步点细碎。即使每次只给 UniVLA一帧路况图,它的演奏依然把Oracle成功率拉到47.1%,与一次性读入整段历史视频的NaVid不相上下,但比OpenVLA高出29.6%。
在真实音乐节:现实机械臂实验
团队用Piper七自由度机械臂安排了扫台面、叠汉诺塔等四首复杂曲目。UniVLA 在灯光突变、道具干扰、换新物体等场景下平均成功率 68.9%,而单任务Diffusion Policy或OpenVLA分别只有24.4%与20.0%左右。
更巧妙的是,潜在动作把12步序列一次性输出,RTX 4090上推理频率可达10 Hz,告别卡顿伴奏。
幕后花絮:潜在动作的“乐理”与可扩展性
潜在动作究竟像怎样的音符?研究者把来自Bridge-V2、RT-1、人类Ego4D视频等不同乐器标出的同一潜在动作并排,发现不论是机械臂抓取还是人手拿杯子,都获得语义一致的抬-放旋律,显示其跨机体的对齐能力。相比Genie那种把一切视觉变化都当动作的全频录音,UniVLA明确区分任务与无关背景,在 Ego4D数据上把LIBERO总成功率从82.3%提升到88.7%。
随着训练曲库加入OpenX、Ego4D等新乐器,无论在R2R导航还是现实机械臂舞台,UniVLA的表现都节节攀升,好比越大的交响团,和声越饱满。而在仅用10%示范谱例的小样彩排中,它已能把LIBERO-Goal成功率推到86.3%,展现强劲的数据效率。
终章与余音:一位“总指挥”带来的启示
说到底,UniVLA给机器人学习世界带来了一张新的通用简谱。它告诉我们,当指令语言负责描绘情感主题,潜在动作承担节奏骨架,机器就能在多乐器环境中即兴协奏;当录像比对与离散量化过滤掉噪音伴奏,模型便能在网络海量视频里识别真正有价值的动作符号。
未来,这份简谱仍有提升空间:粒度是否可自适应变拍、语言注释若从乐段变成整曲又会怎样影响分工、如何把世界模型接入作曲环节生成完整乐章,都是值得期待的篇章。
如果想了解作者完整的思路和公式,可以阅读原论文;机器人爱好者也可以直接打开代码仓库,给你的机器乐手发一张新乐谱,也许下一次动听的协奏,就来自你的工作室。
论文地址:https://www.arxiv.org/abs/2505.06111
代码仓库:https://github.com/OpenDriveLab/UniVLA
来源:码客人生一点号