阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈

360影视 国产动漫 2025-04-24 18:48 2

摘要:2018 年 6 月,在澳大利亚机器人视觉研究中心(ACRV)做博士后研究员的吴琦和博士生 Peter Anderson 首次将 VL(视觉-语言)和彼时机器人领域主流的导航方向联系起来,在 CVPR 2018 发表了第一篇 VLN(视觉-语言-导航)工作;紧

视觉导航不复杂,VLN却不容易。

作者丨赖文昕

编辑丨陈彩娴

2018 年 6 月,在澳大利亚机器人视觉研究中心(ACRV)做博士后研究员的吴琦和博士生 Peter Anderson 首次将 VL(视觉-语言)和彼时机器人领域主流的导航方向联系起来,在 CVPR 2018 发表了第一篇 VLN(视觉-语言-导航)工作;紧接着,Abhishek Das 作为一作发表的 “EmbodiedQA(具身问答)” 又让 “Embodied” 一词走入科研视野。

一个月后,一年一度的 NLP 领域顶会 ACL 在冬季的墨尔本召开。在火热的会场里,吴琦、Peter Anderson 和 Abhishek Das 举办了一场题为“将语言和视觉与动作联系起来” 的 tutorial,真正地开启了 VLA(视觉-语言-动作)这个全新领域。

会上一众 NLP 学者都很好奇,纷纷向他们了解何为“VLA”,而三人除了谈到 CNN、RNN 等基础方法外,也分享了对机器人数据和环境仿真器的看法,包括强化学习在这些工作中的运用。

对 VLN 的探索也让吴琦意识到,除了学习和理解多模态信息,机器还要能与真实环境进行一定程度的交互,才能解决实际问题,便在原有的 VL 基础上加进“动作(Action)”,提出“V3A”的概念,即 “Vision(视觉),Ask(提问),Answer(回答) and Act(行动)”。

吴琦本科毕业于中国计量大学信息与计算科学专业,在英国巴斯大学完成硕士和博士后,又到澳大利亚阿德莱德大学做了3年的博士后研究,并在2018年开始留校任教。此外,他还陆续获得了澳大利亚科学院罗素奖与南澳大利亚杰出青年科学家称号,目前谷歌学术的引用量已超1.4万。

作为最早一批研究 VL 的学者,吴琦在 MS COCO 数据集发布提出了图像描述方向后立即在2015年跟进,又立即在视觉问答(VQA)此新方向上发表工作“Ask Me Anything”,并于2018年开启了 VLA 领域。

七年过去,VLA 已摇身一变成为当下具身智能领域内最火热的话题,海内外诞生了英伟达的 GROOT N1、Figure AI 的 Helix、Physical Intelligence 的 π0、清华的 RDT 等机器人 VLA 模型。

而开启了新领域的吴琦,则选择在 VLN 方向上继续扎根,并从去年开始着力于一系列真机研究。目前他正在澳大利亚阿德莱德大学任副教授,带领自己的实验室“V3A Lab”,还在澳大利亚机器学习研究中心(AIML)里担任视觉与语言研究方向的实验室主任。

聊到具身智能与 VLA,吴琦表示 VLA 不应局限于上半身的操作任务,“很多人认为导航问题已经被解决,manipulation 更好和产业结合并落地,但其实 VLN 仍有很多尚待突破的空间。”

以下是 AI 科技评论与吴琦的对话。

1 VLA 的“七年之痒”

AI科技评论:2018年您提出了“V3A”的概念,在原有的 VL 上加进 action,当时是受到什么启发促使您开始了 VLA 的研究?

吴琦:最早在 CVPR 2018 上我和 Peter、Abhishek (Embodied VQA作者) 碰在一起,觉得大家的论文都很有意思,决定在马上举行的 ACL 上一起办一个 tutorial。当时我认为 VL 已经被讲过很多次,再办 tutorial 的意义不大,应该加些新东西进来,而我们做的导航和 Abhishek 做的问答都属于 action,那不如就做一个关于视觉(Vision),语言(Language)和动作(Action)结合的讲座,算是非常早期的VLA的概念。

我们的首篇 VLN 工作打开了这个新领域,但主要是提出了 R2R 数据集和任务,不温不火。到了下一年,CVPR 的最佳学生论文,即王鑫用模仿学习和强化学习一起去解决 VLN 的工作,彻底让此领域火了起来。

因为很喜欢 VLA 的概念,我就提出了“V3A”,即“Vision(视觉),Ask(提问),Answer(回答) and Act(行动)”。先是希望机器人或虚拟的 agent 基于视觉输入能回答,这说明它能听懂;接着是当时 VQG(视觉问题生成)的研究认为提问比回答更难,这说明它有更强的推理能力;而在有自然语言对话能力后,我们希望模型能执行如导航等动作,也提出了“Remote Embodied Visual Referring Expression(远程具身视觉指称表达)”,就是让机器人能完成“帮我找个勺子”这类导航任务。

AI科技评论:在您看来,2018 年前后的那波 VLA 与现在具身智能领域的 VLA,有什么不同之处?VLA 的发展经历过哪几个比较重要的阶段呢?

吴琦:我们刚提出 VLA 的概念时,manipulation 这一块还不热门,那时的 action 可能更 high level,离机器人还更远一些,比如理解对应场景去回答问题或导航走到指定位置去找某一东西。而且数据量的差距也比较大,以前 VLA 的数据量相对于现在来说都是小量级的。

Embodied QA 出来后 VLA 有一段停滞期,因其所用的数据存在版权问题导致大家没法继续使用;而 VLN 在 VLA 里发挥了非常大的作用,我们的工作很早期地把 VL 和 action 结合起来,再加上王鑫在 CVPR 2019 的工作,VLN 和 VLA 受到了很大关注;时间再往后就是上交大卢策吾老师把 manipulation 和具身智能结合起来,提出了很多新的数据集和任务。

接着是非常关键的节点,GPT 系列的出现。此前尽管有 VL 大模型,但在解决很多 VQA 问题上的表现都一般,当时普遍认为在解决好 VL 问题前,还去结合 action 是不太可能实现的。而 GPT 的出现(特别是引入多模态后)解决了很多 VL 解决不了和解决不好的任务,甚至是其零样本的表现都远超当时最大的 VL 预训练模型,因此大家就普遍认为 VL 的一些基础任务已被解决,所以开始引入更高层次的维度,即利用将视觉语言结合起来去预测、输出 action,而不是单纯地做 VQA 这种难以落地的东西。

AI科技评论:具身智能热潮之前爆火的是自动驾驶行业,在您看来,自驾与机器人分别对 VLA 提出了怎样的独特要求?如果单纯从导航的角度来看,对人形机器人(双足)的研究意义大吗?

吴琦:自驾某种意义是也是 VLA,V 是户外场景,L 是用户需求,A 就是汽车所执行的操作。当然这里 A 的操作可能会分为汽车本身的动作,比如转弯,加速, 减速等等,也可以车机系统的操作,比如执行播放音乐,导航至某地这类动作。

机器人的 VLA 除了无人机之外,大部分可能还是在室内场景中,V 主要是针对室内场景和物体,而 A 则是要求动作精度更高的 manipulation 或者移动精度更高的 navigation。

我们去年基本把 VLN,就是的单纯视觉语言导航这一块,在实体机器人上实现了部署和运行,包括四足的机器狗\扫地机器人和轮式的机器人。我觉得在双足上的部署问题也不大,因为我们目前大脑和小脑的开发还是分开的,双足这边的控制没有问题的话,对于我们 VLN 来说是一样的,就是根据当前 VL 信息,输出一个机器人要执行的线速度和角速度,而据我所知,无论底盘式还是足式,都可以接受这两个信息完成下层的动作指令。

具身智能导航团队成员与机器人合照

AI科技评论:在经历了 VLA 从坐冷板凳到如今大热的过程后,您是如何看待现在大家对 VLA 的热情呢?

吴琦:VLA 的大热其实是产业和学术发展的双重结果。从产业视角来看,任何落地场景均需处理多模态输入,并依赖一个 high level 的推理模型辅助完成复杂的规划与行为决策。人类大脑的工作机制即是典型例证——通过整合视觉、听觉、触觉等多模态感知信息,经中枢神经处理后生成具体动作指令,这一整合决策过程在日常场景中不可或缺。从学术研究趋势而言,自然语言处理(NLP)与计算机视觉(CV)领域的核心任务已取得显著进展,研究者正积极探索新的前沿方向。

值得一提的是,VLA 领域的研究者需精准定位应用场景,弄清楚 L(语言)的核心价值,即为机器人提供了一种更简便的人机交互方式。这种交互模式具有高度的灵活性与自然性,能够支持用户以随意的方式下达指令,由此衍生出一系列全新的技术挑战——不同于传统预设任务的固定模式,VLA 面临的任务往往具有显著的临时性特征,需要实时响应非预定义的动态需求。

2 VLN 之于 VLA

AI科技评论:那您认为导航的难点和重要性在哪里?怎么理解 VLN 跟 VLA 之间的关系?

吴琦:视觉导航作为任务本身可能是简单的,但视觉语言导航(VLN)还是比较难的。

举个例子,食物掉下餐桌后让现有的扫地机器人清扫,要不选全屋清扫,要不把机器人搬到附近让它转圈扫,或者再聪明一些的能在 APP 上把餐桌的区域画出来让它转圈扫。

但 VLN 能实现的是——给一个指令让它去餐桌附近清理食物,它能利用这信息知道,先导航到厨房餐桌的位置,使用视觉信息找到食物残渣位置,只去清扫这一块区域,而且相比过去的导航任务和方法,VLN 更擅长处理很临时性的事件我们最近在扫地机器人上也基本上实现了这些功能,对这个技术感兴趣的扫地机器人或家用机器人公司,也可以和我们联系讨论。

当然,VLA 中的 action 有很多,VLN 只是其中一个子集,需要具体场景具体分析。有些时候可能并不需要 VLN,比如机器人如果处在工厂、超市这样的固定场景下,做分拣或清理货架这些聚焦上半身的任务,它们以非常固定的轨迹去运动就可以了。

但是将来如果到了家用的实际场景,还是需要机器人不断移动的,这时的导航问题就比较难解决。我和北大的王鹤老师也讨论过,室内场景还是有很多挑战,除了建模不准外,还有人移动或交互的影响。

AI科技评论:人的移动或交互这类动态场景对 VLN 最大的挑战或难点在哪里?目前都有哪些可行的探索方向?

吴琦:其实动态场景带来最大的影响就是之前基于slam建图式的导航不再适用了,提前利用地图信息规划好的导航路线因为动态场景可能不再能完成任务。

这个时候就需要类似于 VLN 的技术来辅助,就是利用当前的视觉信息以及最初的语言指令,来做出短程的导航路径规划,甚至是只预测下一步往哪里走,而到了下一步,再结合信息做出新的预测。

我们最近也提出了一个新的数据叫 Obstructed VLN,考虑的就是这个问题,就是在行走过程中发现出现了路径的遮挡,需要做出临时性的调整,大家可以关注。

AI科技评论:之前林倞老师团队发表的综述也将 VLN 列为具身智能的一大关键任务,那VLN发展至今已经七年了,除了开山之作外,您认为哪些工作是关键呢?

吴琦:很荣幸我们主导了 VLN 领域多个关键节点工作。在提出三个数据集后,相继采用CNN、RNN及注意力机制等方法开展研究。

Transformer架构诞生后,率先基于该架构提出“VLN-BERT”,能基于 Transformer 处理 VLN 任务;2022 年 CVPR 发表的“Discrete-Continuous-VLN”则首次探索 VLN 在离散与连续环境间的学习鸿沟弥合;去年推出的 NavGPT 是首个将 LLM 引入 VLN 的工作;而今年 ICRA 的 Open-Nav 则首次实现 VLN 在真实机器人上的落地应用。

其他组也作出了很多关键的工作,比如早期的,Hao Tan 在 NAACL 上提出的 EnvDrop,还是有 Chen Shizhe 也提出过好几个非常关键的模型,比如现在常用作 baseline 的 DUET。我们的 ScalVLN(目前的SOTA)也是基于 DUET 的工作过。要提一下,Shizhe 也曾经在我们 V3Alab 访问过一段时间,非常优秀。

AI科技评论:当前具身智能领域里大家对操作任务的热情高涨,但您更关注具身导航。

吴琦:可能还是落地导向吧,现在很多落地场景式工业场景,或者商业理货场景,大部分时候机器人可以以固定路径,并且在相对固定的场景里移动。而家用场景目前落地还比较难,所以很多人还没有体会到室内视觉导航这块的难度。

很多人认为导航已经是被解决完的问题,室内导航只需建好图就能让机器人指哪到哪,不像 manipulation 那么难。但事实上,假如把它放在具身智能领域,其实还要一定的时间。毕竟,机器人只有在走到对应的位置上,才能完成之后的动作。

如果认为具身行动就是和上半身有关的抓取或 manipulation,其实是没有真正思考清楚什么是具身智能。关于具身智能众多的定义里,我最喜欢的是 CVPR 2024 的一个关于具身智能的讨论,即 AI agent 需具备看、听、说、行动和推理五项基本能力,再能将模拟的机器人解决方案迁移到真实的机器人和现实世界中。

也就是说,只有把视觉信息、语言能力和具体执行的任务(无论是上半身还是下半身的动作)最后实现在真实机器人上,才能称之为一篇真正的具身智能研究。

AI科技评论:那这和自动驾驶中的导航有哪些不同呢?

吴琦:自驾的导航是室外导航,有很多可利用的信息,比如 GPS 提供精准定位,结合高精度地图、视觉感知(如车道识别、路标检测)及雷达系统(实现障碍物检测与规避)。

而我们做的 VLN 其实是室内导航,面临多重限制。由于缺乏 GPS 信号且环境信息(如地标、纹理)稀疏,无法直接复制室外方案。早期技术主要依靠视觉 SLAM(同步定位与地图构建)实现环境建图,通过摄像头实时采集数据构建局部地图以确定自身位置。但该方案对环境依赖性强,常需人工预处理(如标记特征点、优化场景纹理)以提升建图精度,难以实现完全自动化。

最大的难点在于收集数据,尤其是大量的室内 3D 环境数据。我们希望获取尽量真实的 3D 环境,但这些环境数据本身就很少,也没有一个特别好的仿真器,而扫地机器人这类真实数据又存在隐私问题。我们因此也曾做过室内设计相关的工作,是基于视觉和语言的装修风格生成,和装修设计公司酷家乐合作,他们所提供的 3D 场景数据就特别有帮助。

AI科技评论:尽管室内不受天气影响,但也可能会在低光、烟雾等极端感知条件下,视觉输入失效。是否需为 VLN 引入多模态备份方案(如超声波雷达、红外传感)?如何实现多模态信号与语言指令的实时对齐?

吴琦:确实,随着 simulator 变得越来越好,我们可以模拟出这些复杂的情景,也可以考虑引入其他的传感器来辅助导航。我觉得这点上倒是可以参考无人驾驶的一些解决方案,实现多模态信息的对齐和处理。

3 卡脖子的数据也最易突破

AI科技评论:在 VLN 和 VLA 领域里,当前 Top 3 的研究问题都有哪些?

吴琦:我认为目前面临的核心挑战首要是数据问题。当前缺乏足够优质、大规模的数据集支撑 VLN 或 VLA 模型训练,这与 GPT 依赖海量语料形成鲜明对比。具体而言,数据问题可拆解为三部分——

一是模拟器(Simulator)的必要性,与机器人技术结合的场景中,模拟器是训练和测试的基础载体,其性能直接影响数据生成质量。这里有很多东西可以去考虑,像材质摩擦力、摩擦系数、环境重力、甚至是热交互等物理特性,我们常见的物理定律在目前的模拟器里面体现得并不够,要做真正的世界模型( word model ),数字孪生不能只是孪生表面,还要涵盖其本身的物理特性。

二是高质量 3D 环境构建的稀缺性,仅有模拟器不足够,还需在其中构建多样化真实场景(如家庭、工厂、购物中心等),这类 3D 环境不仅稀缺,且制作成本高昂。

三是专用应用数据的独特性,区别于传统 AI 数据(如 NLP 的纯文本、CV 的图像标签),VLA/VLN 需要特定任务数据(如抓取、操作、导航等数据),其数据格式需整合模拟器、环境及应用场景三类要素,缺一不可。因此,构建大规模复合数据集是 VLA/VLN 的关键发展方向。

第二个挑战是 Sim-to-Real 的迁移鸿沟。模型在模拟器中完成高效训练后,需在真实机器人和环境中部署,但二者存在多重差距——包括环境差异(如光照、物体物理属性)和机器人硬件差异(如执行器精度),如何弥合这些 Gap 是技术落地的核心难点。

第三个挑战与工程部署相关。VLA/VLN 任务涉及复杂推理和模型计算(如导航模块与GPT大模型的结合),依赖高性能GPU支持,而在机器人终端实现高效模型压缩,平衡算力需求与设备轻量化,是亟待突破的技术瓶颈。

AI科技评论:在这些瓶颈中,哪一个是最有可能率先被突破的?

吴琦:虽然数据是最大的难题,但其实它也是最容易突破的,尤其是围绕着如何构造更好的数据集、仿真器和环境出发,并利用好它们去训练一个更好的 VLA 模型。

比如我最近在思考环境生成的工作,之前和酷家乐的合作就是通过输入语言描述生成三维的房间环境,包括房间、家具的布局、墙壁的颜色、地板的材质等,但因当时模型还不够强,效果比较一般,但现在或许可以重新拿出来实现一下。输入可以是各种模态的,如对环境的语言描述、已有环境的图片、视频、结构信息,希望模型能按照用户需求快速地生成一个精准的符合要求的环境,再把此环境导入到桃源或 Isaac Sim 等模拟器里供大家进行训练。

AI科技评论:那针对最关键的数据问题,现在都有哪几种技术路径呢?

吴琦:数据构建主要存在三种技术路径。第一是真人操控采集,通过人工控制机器人完成行走、抓取、家具组装等任务,同步记录动作轨迹与环境交互数据,直接用于模型训练。这种方式依赖真实场景操作,数据贴合实际应用但采集成本较高。

第二是 Sim2Real 模拟生成,借助高逼真度物理模拟器(如Nvidia Isaac Sim、上海AI Lab桃源系统)构建虚拟环境,通过算法自动生成机器人执行各类任务的数据。该路径优势在于低成本批量生产数据——无需真实硬件介入,即可在模拟环境中完成海量训练,训练后的模型直接部署至真实机器人。

第三是视频数据驱动,聚焦互联网海量公开视频(如导航、烹饪等场景),通过分析视频中的高层决策逻辑(如任务规划、动作序列)训练模型。此路径规避了传统数据采集的繁琐,仅关注“做什么”的高层规划,无需处理机器人“如何执行”的底层控制细节。

AI科技评论:您很早就开始做 VLA 相关的 simulation,在您看来,这些年来仿真最大的进展是什么?当前最亟待突破的卡点又是什么?

吴琦:确实当时我们在设计和发布 VLN 这个任务的时候,就做了一个基于 MP3D 数据的 MP3D simulator,这个 simulator 也仅仅是为 MP3D 提供的 environment 数据以及 VLN 这个任务来服务的,非常的简单。

我觉得随着具身智能的发展,大家越来越关注 simulator,包括前期 Meta 发布的 Habitat 1.0、2.0,再到最近的 Nvidia的 Issac-Sim。我觉得 simulator 还是要大厂来做,因为他是一个比较工程的问题。

而 simulator 这块,我觉得有三块内容比较重要,一个是场景仿真,就是说这个场景看上去要非常真实。这个就涉及到渲染,追光,建模,纹理这些的内容。第二个是物理仿真,就是能够模拟我们的物理现实,比如重力、摩擦力、碰撞等等物理现象。第三个我觉得是这个 simulator 一定要高效,不能因为运行的速度拖延模型的训练,尤其是加入 RL 之后,需要在训练时和 simulator 交互,那么 simulator 的运行效率就很重要了。

AI科技评论:那又有哪些方法能解决Sim2Real Gap和工程部署这两大问题呢?

吴琦:如果说我们普遍选择相信 scaling law 的话,我认为解决 sim2real 的问题其实就是解决数据的问题。

想象一下我们如果有一个非常庞大的 environment 的数据集,包含了各种各样的场景,而这些场景又非常真实并且能够导入到 simulator 里供我们训练一个足够大的模型,那我认为是有可能解决这种 gap 的。我们目前就在和酷家乐(群核)这边合作,在大量的生成这些 environment 数据,因为他们之前积累了大量的3D资产。

说到部署,我觉得作为机器人本体公司(比如宇树),可以发挥更好的作用,提供对应的、相对易用的部署工具。这是一个生态问题。英伟达之所以成为英伟达,关键还是生态做的好,推动了整个行业的发展。硬件公司应该要有这样的前瞻性,提供好的工具,建立好生态,硬件才卖的出去。

来源:AI科技评论一点号

相关推荐