摘要:VLA(视觉-语言-动作模型)作为具身智能领域的关键新范式,能有效整合视觉信息、语言指令与行动决策,显著提升机器人对复杂环境的理解和适应能力,对推动机器人从单一任务执行向多样化场景自主决策的跨越至关重要 ,已成为当下学术界和工业界炙手可热的研究焦点。
整理丨赖文昕
编辑丨陈彩娴
VLA(视觉-语言-动作模型)作为具身智能领域的关键新范式,能有效整合视觉信息、语言指令与行动决策,显著提升机器人对复杂环境的理解和适应能力,对推动机器人从单一任务执行向多样化场景自主决策的跨越至关重要 ,已成为当下学术界和工业界炙手可热的研究焦点。
2025 年 5 月 9 日,雷峰网、AI 科技评论 GAIR Live 品牌举办了一场主题为“具身智能之 VLA 的实践与突破”的线上圆桌沙龙。
圆桌主持人为北京大学计算机学院助理教授、智源学者仉尚航,并邀请了清华大学交叉信息院助理教授、千寻智能联合创始人高阳,清华大学交叉信息院助理教授、星海图联合创始人赵行,与北京大学人工智能研究院助理教授、北大-灵初智能联合实验室主任杨耀东一起进行了一场深度的讨论。
会上,主持人仉尚航带领讨论 VLA,先是探讨其定义、起源及相关模型区别;接着分析技术路线与新成果,探讨不同路线的优缺点;随后围绕机器人常见任务,剖析核心技术瓶颈与主流输出范式;还研究强化学习结合、泛化能力提升、异构数据利用与协同训练;最后关注落地场景,并探讨执行长程任务的难点与可能。
其中,三位嘉宾围绕 VLA 在具身智能中面临的技术瓶颈分别提出了自己的独到见解:
高阳认为,推理与数据是当前 VLA 面临的两大核心挑战,推理方面虽已有诸多研究探索 VLA 与推理的结合路径,但尚未明确最优方案;数据层面,不仅量级远不及训练 VLM 的数据,多样性更是严重不足,目前数据多采集于简单环境,且陷入“数据不足限制模型能力、模型能力有限制约数据采集”的恶性循环,破解数据困境成为 VLA 研究的关键所在。
赵行表示,VLA 在实际应用部署中,系统运行频率单一化存在经济成本与优化难题,基于哺乳动物动作高频控制、高层次思维低频闭环的原理,设计类似人类的高低频自适应闭环系统仍是未解决的课题,实现端到端训练以整合多层次、不同频率的大系统是最终目标。
杨耀东则提出,当前 VLA 训练存在割裂问题,大脑(VLM)和小脑(底层策略模型)多分开训练,缺乏端到端训练及类似人类大小脑的双向交互,虽有部分研究尝试探索端到端架构,但联调困难;同时,VLA 缺乏“测试时计算闭环”,仅能由大模型生成中间信号驱动小模型输出动作,无法像语言模型通过强化学习在测试时持续计算优化推理能力 。要突破这些困境,需借鉴语言模型经验,采用端到端架构结合强化学习,赋予 VLA 动作空间的闭环推理能力,但面临工程化落地和数据等难题,若不解决,VLA 难以真正释放具身智能潜力。
以下是此次圆桌讨论的精彩分享,AI 科技评论进行了不改原意的编辑整理:
VLA 的前世
仉尚航:大家好,我是本场圆桌的主持人仉尚航,非常荣幸能邀请到来自清华大学和北京大学、在 VLA 领域非常资深的几位专家老师。我们今天的主题是关于 VLA 的实践与突破,首先请各位老师做个自我介绍。
高阳:大家好,我是清华大学交叉信息研究院的助理教授,同时也是千寻智能的联合创始人,非常高兴今天能和大家交流一下 VLA 的相关知识。
杨耀东:非常感谢尚航和雷峰网的邀请,今天来跟大家各位同仁探讨一下对 VLA 的思考。我来自北京大学人工智能研究院,现在研究院这边也和灵初智能一起在探索 VLA 在灵巧操作上的应用。
赵行:大家好,我是清华交叉信息研究院的赵行,我研究机器人和自动驾驶,在这两方面都做 VLA 的探索,在机器人方面也在星海图从机器人本体、采数据到训练 VLA 模型都有全链路的经验,今天也趁这个机会和大家互相交流分享。
仉尚航:我们今天讨论的主题是具身智能最火热的话题之一:VLA。作为热身,咱们可以先简单聊聊什么是 VLA 以及大家在探索 VLA 过程中的一些经验心得,比如应该如何定义 VLA?大家是怎么开始转到 VLA 这个赛道上面的?VLA 现在这么受关注,大家有什么感受?怎么看待 VLA 的技术路线?
高阳:我认为 VLA 源于大模型的技术变革。我读博时做自动驾驶,接着是机器人,最初技术栈以计算机视觉、模仿学习和强化学习为主,虽能在单个或少数任务表现良好,但难以实现一个模型做所有任务。随着 VLM 和 LLM 带来的变革,出现了将不同任务操作能力整合于一体的视觉-语言-动作大模型新范式,我们组前年起全面投入 VLA 研究。尽管 VLA 是新兴领域,但其下的模仿学习、强化学习等技术,与传统同类技术存在相通之处。
仉尚航:我们看到了高老师发表的 Spirit VLA 等工作,也很受启发。之前具身智能大会在北京举办时,也在论坛上听到了高老师关于 VLA 的介绍,确实在这方面的研究很有基础,也期待你未来在 VLA 方向上的更多工作。接下来请耀东老师也介绍一下对 VLA 的定义以及开始研究 VLA 的原因吧。
杨耀东:高老师的阐述很全面了。从大模型视角,ChatGPT 后技术从语言模态逐步拓展到视觉与行为动作空间模态,推动大模型从“缸中之脑”向能与物理世界交互的具身智能体转变;从行为动作决策控制视角,传统控制需从简单的 MPC(模型预测控制)、闭环控制,向具备常识推理与物理接地(physics grounding)能力的通用控制拓展,这恰好契合大模型特性。
两条发展路径并行推进,使得机器人与大模型领域学者都纷纷聚焦 VLA。作为具身智能的技术亮点,相比前代技术突破,VLA 凭借大幅提升的智能水平,有望显著增强机器人在动作决策与行为空间部署上的能力,在未来发展中占据重要地位。
仉尚航:没错,正如耀东老师所言,VLA 也是咱们大模型技术和具身智能的一个很好的结合,你过去也做了很多关于大模型对齐的相关工作,正好也可以把它应用到具身智能领域上。也请赵行老师谈一谈你对于 VLA 的定义、开始的契机以及自己的观察和感受吧。
赵行:谢谢尚航老师。我对 VLA 的出现有挺大的震撼和感慨的。23 年 3 月 GPT-4 发布前,ChatGPT 等工作都是纯语言模型,尽管整个 AI 行业挺受震撼,但对我们做视觉、机器人和自动驾驶的研究者来说,和我们的关系不是太大,而 VLM 即带视觉的 GPT 的出现就不同了。
我印象非常深刻,GPT-4 发布那晚我们在看它的技术报告,里面展示了很多有意思的视觉理解能力,包括一些理解数学题里图案的例子。有一个案例是,图像里路上有台车,后面有人在烫衣服,GPT-4 能理解场景里的情况,那么很自然的,我们就能想到说,对于在路上看到有人烫衣服这种几乎不可能见到的长尾问题,可以让模型帮我们做一系列后续的决策和规划。 我们当晚就着手写一个 research proposal,要把视觉语言模型用到带规划决策的下游应用上,开始做一个基于双系统 VLM 加上端到端的模型设计。之所以我们先从自动驾驶领域关注到这些,是因为自动驾驶有长尾问题,而长尾问题意味着没有数据可训练。没有数据可训练,端到端也就无从谈起。要解决这种长尾问题,只有通过有理解和推理能力的 VLM 和 VLA 模型。 往后看,我觉得未来的机器人或具身智能大领域都会如此。当我们用具身智能机器人解决越来越多的问题,一定会遇到从没见过的场景,不是靠收集数据就能简单解决的,模型范式一定会进化到 VLM、VLA 这类范式上,所以自此就比较坚定往这方向探索。
仉尚航:这个观察非常敏锐,在 VLM 刚出现时就能想到把它应用到自动驾驶领域,确实有很好的 Sense。大家刚刚提到 VLA 模型里面很重要的 VLM 和 LLM 的能力,VLM 也是源自于 LLM,那么大家觉得 LLM 或者语言模态在 VLA 中的作用是什么?
以及我们在做 VLM 时比较容易观察到的一个局限是,它关于一些细粒度、局部、几何信息的感知,可能不如传统纯视觉模型那么精准,比如说分割、深度估计、bounding box(边界框)坐标的感知,但在具身智能领域,我们又非常需要机器人准确地抓取物体,那如何去弥补 VLM 缺失局部空间信息的挑战呢?
高阳:那我先抛砖引玉一下。首先对于第一个问题,我们人类让机器人做一件事情要传达给机器人,传达的方式其实大多数是语言,L 在这里就起到一个指定任务的作用;V 和 L 之间的对齐也很重要,因为我们在指定任务后,机器人需要能理解当前的场景。语言是“拿一个水杯”,那这个水杯对应的图片到底在哪个位置?以及很多时候人类的语言描述有些上下文信息是关于图像的,那么把这两个模态结合起来,就可以让这个模型更好地去理解人类的意图,这些能力其实都依赖于 VLM 的预训练。
仉尚航:对的,语言模态本身也能带来很多对机器人有用的额外信息,包括交互指令的接收等,然后可能也可以通过语言和视觉的对齐来增强视觉模态上的泛化性。那关于第二个问题,如何补充缺失的局部信息?不知道赵老师有没有什么想法?因为赵老师做自动驾驶,也有很多非常需要精准感知的任务。
赵行:我简单分享下我的经历。GPT-4V 发布当晚,我就和同学们开始计划该怎么做。作为做应用的 researcher,从解决问题反推方法,VLA 和 VLM 的价值核心在于填补了具身智能领域此前模型普遍缺乏的常识能力,common sense,比如道路交通规则、人机社交规则等,这些被视觉语言模型包含在内的常识能帮助解决数据覆盖不到的长尾场景问题。
从实现路径看,既然 VLM 具备这种潜力,即便其 3D 感知能力有限,也可先与现有成熟的、达到 80-90 分表现的 3D 视觉感知模型结合,通过架构设计取长补短。未来只有 VLM 而没有其他模型,这也是个比较高概率的结果。长期来看,当前 VLM 预训练数据缺乏物理世界具身智能数据,未来若能将更多3D几何、时间等物理常识数据融入训练,这很可能会发展为一个主流技术的探索方向。
仉尚航:谢谢赵老师的分享。首先我们可以把在 3D 感知上面效果好的模型和 VLM、VLA 结合,其次还可以在数据上面多引入物理规律,对落地和应用也很有启发。不知道耀东老师这边还有要补充的吗?
杨耀东:前面两位老师已清晰描述了现状。如今大模型已在语言模型上取得突破,以往是将计算机视觉领域的好模型往语言模型上迁移,现在则是把自然语言处理上好的架构应用到计算机视觉架构中。一方面,Transformer的成功推动了这一转变;另一方面,人工智能在语言模态上实现了大模型、大数据、大算力的三位一体,产生了Scaling Law。
从哲学角度看,维特根斯坦认为语言认知是世界的边界,语言能表达所有事物,且语言处于离散空间,在建模上会更容易。然而,如何从语言模态突破到视觉和动作模态仍是挑战。目前工程上通过拼接,比如将高质量视觉模型、底层动作模型与语言模型结合,能解决部分问题。
但从通用智能体和 AGI 的角度出发,未来需要技术变革,将各模态融合,还是期望有大一统的表征,把所有变量纳入其中,但这个维度太高了。若相信所有模态能投影到低流行空间(柏拉图假设),那将有助于 VLA 和具身智能的大一统,以及实现更强的智能突破。目前 VLA 刚起步,语言和 VLM 有一定突破,拼接思路已现,未来技术革新可能会解决如 3D 信息感知不准确等问题,虽然不知所需时间,但应该不会太久。
VLA 的今生
仉尚航:我们刚才讨论了 VLA 的前世,现在来聊聊它的今生,即 VLA 目前有几种技术路线,以及看看老师们有没有关于最新进展的一些分享,比如像海外 Physical Intelligence 团队发布 π 0.5 模型、Figure AI 的 Helix,高阳老师最近发布的 Spirit v1,还有星海图和 PI 紧密的合作,包括我们团队最近也和灵初智能在合作。大家作为资深专家,谈一谈各位对 VLA 技术路线及最新进展的看法吧。
高阳:VLA 多年技术进展集中于架构与数据两方面。架构上,从谷歌无预训练的 RT-1 到 RT-2、Sergey Levine 做的 OpenVLA 到 π 0.5,发展依托于 VLM进步。随着开源 VLM 架构优化与训练方法革新,相关成果拓展至 VLA,同时 Flow Matching、Diffusion 等技术提升了机器人动作生成能力。
数据层面,从谷歌用 Everyday Robots 采的私有数据集,到 Open X-Embodiment 等开源数据,包括仉尚航老师也做了些很好的数据集工作,国内外机构积极探索,通过新采集、历史数据处理等方式丰富数据源。此外,π 0.5 并非暴力采大量数据而是转向互联网数据,我们千寻智能也尝试用视频预训练。数据质量决定模型上限,这是 VLA 发展最根本、持久的驱动力。
杨耀东:我从模型架构角度再说说,按对 action 的表征方式,VLA 可分为两大类型:将 action 作为连续动作处理时,需采用 diffusion 类生成式模型(如 π 系列工作),因为自回归模型主要处理离散 token;若把 action 抽象成语言模型中的 token,则以 Helix 为代表。这两类模型都依赖 VLM,旨在将语言空间的常识映射到物理空间的 action,我们最近也在写一个 VLA 总结,探索 action 表征为离散或连续空间的更优方式。
进一步而言,行为动作空间无论是离散还是连续表征,都可类比为人的大小脑(虽此类比有待商榷),其中 VLM 如同大脑负责推理决策规划,action 的 token 化或 diffusion policy 则类似小脑执行精细化操作,这两种技术范式不断发展演变,衍生出众多变体,但始终围绕这两大主流框架。
在训练方法上,当前 VLA 主要采用监督学习,与两年前大模型领域类似,依靠百万级数据集输入指令以实现跟随人力指令效果。然而,如何提升 VLA 在测试时的推理能力,充分发挥语言模型的推理优势,仍是亟待解决的关键问题。
赵行:我较关注的切入点是双系统。刚才提到我们做应用的人更关注到底解决什么问题,说到现在的具身智能都缺常识,而 VLM 解决常识,那就把 VLM 和现有的端到端模型合作以实现一个双系统。 VLM 是一个推理速度较慢的模型,部署后大概能实现 2-3 赫兹的推理速度,而端到端模型能实现 10-20 赫兹的推理速度,它俩进行某种合作实现双系统。我们最早在自动驾驶实现并且落地了,这是我们一个挺自豪的成果,接着我们主要关注机器人领域的 VLA 设计,简单分解为以下几类。 首先是最有代表性的 π 0,我称之为紧凑的一段式 VLA,即图像、语言指令作为输入,直接输出动作,和端到端模型差不多。Hi Robot 是双系统设计,由 VLM 拆解高层次指令为原子动作后交给 VLA 执行,模式和自驾的双系统差不多,VLM 是一个低频率运作的系统,VLA 是一个高速运作系统。
相似的双系统工作有 Figure AI 的 Helix 和英伟达的 GROOT N1,但和 PI 稍不同的是他们没有训练 VLM,那个 VLM 是从互联网上拿大家训练好的开源模型去提取 VLM 的中间特征,把中间特征作为一个额外输入给一个端到端的 DP(动态规划)模型,然后让 DP 模型最后输出动作,是一种 VLM 不训练、提取其特征传给 DP 的设计。π0.5 和 Dex VLA 则以视觉为输入,中间做个 COT(思维链)解释它为了完成动作所要做的推理和规划,最后再把动作输出来,算是一段式的、有中间输出的 VLA。 最近有一个比较有意思的方向是,谷歌提的 embodied reasoning(具身推理),即不那么着急地训练一个 VLA 模型,因其本身从感知到规划的能力不是特别强,不如先把具身的推理模型训练好,当给模型指令时,模型看到图片能指出应操作图片里的哪一个物体,如把它从 a 位置放到 b 位置,它的 3D 空间位置是 1.5 米还是 2 米,训好后再把里面的知识蒸馏给 VLA,连上后面的 action decoder,侧重在 VLM 模型本身的能力。
仉尚航:确实是干货满满。你在自动驾驶领域也是很早就开始做双系统,关于刚才提到的这几种技术路线,会觉得哪一种更有可能实现或胜任开放世界的更落地或者是 Out Of Lab(脱离实验室)的任务呢?
赵行:其实这个答案我也不知道,目前 VLA 框架设计仍处于百花齐放的状态,有紧凑式、中间输出、两段式、并联或串联等各种组合。但大趋势是,无论原本做 VLM(从大语言模型出发)还是做机器人(专注 planning model、action model)的团队,都在做全栈开发。
为提升 VLM 能力,现在会引入动作数据进行联合训练,目标是训练出具身推理模型,甚至是到动作级别的完整模型 VLA。无论是大语言模型公司,还是做具身智能的研究者 / 企业,都在朝这个方向发展。大语言模型阵营会向 VLA 延伸,融合视觉与动作能力;机器人阵营则从解决精细操作的原子任务入手 —— 过去一个 Benchmark 包含 10 个动作就能证明模型能力,现在需要覆盖 100、200 甚至 500 个 task。在堆积大量任务的过程中,大家发现简单拼凑任务不可行,需要一个高效的 VLM 编码器和解码器来做跨模块融合。两股力量正朝着终局的 VLA 共同努力。
仉尚航:现在 VLA 确实是一个百花齐放的状态,就像人工智能在最早期的符号主义、连接主义也是百花齐放,但随着研究进程慢慢地收敛。目前像 Gemini Robotics、Nvidia GROOT N1、Hi Robot、Helix 等都在做双系统也发布了相应的 Demo,也许这种双系统是在近期可能会更容易让大家觉得更具有落地或泛化潜力的设计,但未来还不好说。
VLA 包含各种各样的 Action,对于机器人中现在研究最多的 Manipulation、过去的 Navigation(VLN)和 人形机器人相关的 Locomotion 三大任务,各位能否请各位结合自身研究,分享一个您认为该领域最需突破的核心技术瓶颈呢?
高阳:我认为推理是当前一大难点,执行复杂任务时往往需要推理,赵老师、杨老师等学者在 VLA 与推理结合方面也开展了诸多研究,但我觉得哪种路径最优仍无定论。
另一个核心挑战是数据。当前数据量级远不及训练 VLM 的数据,且多样性不足更为关键。我们采集的数据多来自简单环境,理论上若有无穷多样的数据,VLA 难题或可迎刃而解,但现实中存在“数据不足限制模型能力,模型能力有限又导致数据采集困难”的鸡生蛋问题。如何破解数据困境,是 VLA 研究的重中之重。
仉尚航:Reasoning(推理)能力和数据这两点的确是很大的挑战,要不请耀东老师也分享一下,你所遇到的核心技术瓶颈是什么呢?
杨耀东:我觉得当前 VLA 训练仍处于割裂状态,大脑和小脑分开训练,很少端到端训的。这不像人类大脑与小脑的双向交互(小脑执行中的反馈会实时作用于大脑),现有双系统架构是训练产物而非生理结构。如何打通端到端训练是关键,若底层策略(如diffusion模型)与上层架构脱节,联调难度大,虽有清华 RDT、PI 等尝试探索端到端架构(PI虽是 frozen 的但具备端到端能力),所以打通大小脑是一个比较重要的问题。
另一个问题是,语言模型通过强化学习在测试时(test time)持续计算优化推理能力(输出行为反哺输入形成语义闭环),但 VLA 目前仅能让大模型生成中间信号(embedding/token/condition)驱动小模型输出动作,缺乏真正的“测试时计算闭环”——动作执行后无法回流至VLM形成迭代优化。
要突破这一点,需借鉴语言模型经验,用端到端架构结合强化学习,赋予 VLA 在动作空间的闭环推理能力。这一技术方向已被关注,但工程化落地(结合高老师提到的数据难题)仍是 VLA 亟待解决的核心课题,否则它可能只是模块拼接产物,难以释放具身智能的真正潜力。 第二个问题是,打通训练后如何通过我们在语言模型上已经看到的、利用强化学习的方法显著提升其推理能力。现在的 VLA,它所有推理能力都来自于 VLM,但这远远不够,因为我们知道在语言模型推理能力强的大部分原因是因为它能做 test time compute,在测试时间不停地思考,准确度越来越高,所以在语义空间能形成闭环,即输出的行为能在变成输入到 VLM 去。 但对于 VLA 来讲,现在大模型生成一个中间产物,如某种 embedding、token 或 condition,然后到了小模型小脑输出了一个行为就没了,这没办法 test time compute。真正的 test time compute 是一个视觉或指令输入,输出一个 action,这个 action 还得回到 VLA 里去,这样才能形成闭环,加之以测试时间的算力提升,彻底提升整个行为动作空间的泛化性、准确性和鲁棒性等。 这背后需要攻克的技术难点是怎么利用端到端架构赋以强化学习训练的知识和 knowhow,复刻出我们在语言模型上已经取得的成功。这一技术方向已被关注,但工程化落地及高老师提到的数据难题,仍是 VLA 亟待解决的核心课题,否则它可能只是模块拼接产物,难以彻底释放智能到具身智能中去。
仉尚航:其实我下一个问题就是关于怎么结合强化学习来提升闭环反馈能力,耀东老师正好先帮我回答了。我们继续请赵老师谈一下你觉得 VLA 的核心瓶颈是什么?
赵行:我刚刚提到的各类 VLA 范式,并联、串联、一段式、中间输出等大多是简单的线性无环图,而我们理想中的 VLA 应让视觉、语言、动作三模态形成闭环,这个耀东老师解释得已经非常清楚了。
另一个可能的挑战是,实际应用部署时,我们不希望整个系统以单一频率运行,这不仅涉及经济成本,也是系统优化层面的难题。从哺乳动物的角度来看,动作控制需要高频运行,实现快速感知反馈,而高层次思维闭环的频率则应更低。从这个第一性原理去思考,应该设计出类似人类的高低频自适应闭环系统,但至今仍是未被攻克的课题。
仉尚航:你说的高频率、低频率,Helix 这个工作是不是这种结合?
赵行:对,我们现在设计出了一种不闭环的架构,比如 Helix 的设计,它的 VLM 是 frozen 的,没有训练就是把 feature 拿出来加上一个 action 的 diffusion policy model,是串联式的,但我觉得可能不是最好的,它需要把动作反馈回来,但一旦反馈回来后,不同频率的两个系统如何实现闭环?我觉得这是个比较大的挑战,那当然希望终局有一个端到端的训练方式,把这种多层次、不同频率的一整个大系统都能训练起来。
RL 之于 VLA
仉尚航:系统级的闭环设计确实是很重要的。刚才耀东也提到和强化学习的结合,那 VLA 已有大量的预训练,也体现了一定的泛化能力、推理能力。但刚刚提到的 Reasoning 还需要进一步提升,比如和强化学习的结合,也许是一种不错的思路。先请耀东来补充一下 VLA 和强化学习如何更好地结合?
杨耀东:解决这类问题没有“一招鲜”的方案。从语言模型推理模型的发展来看,无论是 OpenAI 的 o 系列还是 DeepSeek 的 r 系列,背后都是一套完整的工程 pipeline,不是跑一个 RLHF 或 GRPO 就解决的,涉及冷启动、迭代蒸馏、数据制造与合成等多个环节。我们在与灵初的实验室合作中的尝试虽有初步成果,但确实没达到终局。
从数据角度看,相比离散空间问题,连续动作空间的研究难度更大。以 AlphaGo 为例,仅靠 3000 多万条人类动作样本(约16万局游戏)就能解决下棋这类离散控制问题;而 Helix 使用 500 小时数据,折算后达 1 亿 - 5 亿条。离散问题用千万级数据尚可解决,但连续动作空间,尤其涉及灵巧手操作时,数据的质量和多样性会严重影响 VLA的训练与强化效果,而当前大部分的 VLA 其实还在做夹爪。
回顾语言模型发展,早期指令跟踪需百万级数据,如今几万条就能实现不错效果。数据需求会经历从“多”到“少而精”的阶段,往下发展肯定是 less is more,但这个 less 没有 more 的阶段,是没法认知里头的结构的。目前的数据采集多采用监督学习思路,如通过遥操作获取抓取轨迹,虽能用于冷启动,有一个不错的小脑 policy,但和大小脑联动的强化学习自训练范式还不是一回事。
好在我们现在有 Issac Gym、Issac Sim 等提供免费合成数据,可以在虚拟环境中大量训练,结合 sim to real 技术有望缓解数据问题。但如何利用强化学习实现数据自合成、自训练,尤其是在灵巧手应用场景中,目前研究仍较少,挑战巨大。
仉尚航:感谢耀东的分享,其中提到的观点极具启发性——VLA 与强化学习结合时,数据准备不应遵循自监督训练框架,而需采用面向自训练的模式,类似 AlphaGo 之后 AlphaZero 通过自训练提升棋力的路径。作为强化学习领域的专家,能否请高老师分享一下两者如何更好地结合?
高阳:我认为强化学习是 VLA 发展的必由之路。如同大语言模型从预训练起步,经 GPT-1 到 3.5 逐步开展 SFT 微调、RLHF 微调,VLA 发展大概率也会历经这三个阶段。RLHF 对 VLA 作用与单一语言模型相似,可减少幻觉和动作错误。
但目前仍存在许多未解问题。比如在 VLA 的 RLHF 中,如何激发类似 COT 的行为?对机器人来说,怎样的连续动作序列才符合 COT 标准?这些概念尚无明确定义,我们实验室正在探索。
将强化学习应用于实体机器人与在仿真器中有着本质区别。在现实物理世界开展强化学习,面临安全性、数据量等挑战,亟需深入研究解决。一旦突破这些难题,机器人或能在现实世界实现自主训练。
仉尚航:就像高老师说的,RL 与 VLA 结合有多种方式,比如在真机上用在线强化学习做下游任务微调,或结合离线 RL 与模仿学习进行 VLA 预训练。目前这仍处于早期探索阶段,思路多样。赵老师怎么看强化学习与 VLA 的结合?是否有更好的结合方法?
赵行:我来讨论一个大家可能没提及的任务。我们做了很多机器人全身运动的研究,从四足机器狗到双足人形的运动控制,这个领域强化学习已得到验证,比如让机器人跑酷、跳舞、打拳等都能出色完成,这表明强化学习用于训练 low level 的控制是可行的。
再看上层,一般会用到 VLA 模型,它有更多推理步骤。从未来发展看,强化学习和 VLA 模型必然有融合趋势,强化学习训练的模型梯度有机会从控制模型反向传播到上层 VLA 模型。不过,融合的具体细节还需大家进一步探索。
真实数据、仿真数据还是互联网数据?
仉尚航:没错,这确实是个很有意思的研究方向。不仅 RL 能助力 VLA,VLA 也能反哺 RL,优化运动控制。刚才大家都提到了数据,我正好也准备了相关问题。就像 π 0.5 和许华哲老师报告中展示的数据金字塔,底层是互联网数据,中层是仿真数据,上层是真机数据,这体现了多源数据训练的有效性。
我想请教各位老师,VLA 训练该用真机数据,还是混合数据?若选择混合,该如何配比?不同训练阶段(预训练、微调、后训练)又该如何选择数据?高老师先谈谈吧。
高阳:我认为数据的多样性最为关键。我们曾在论文《data scaling law in imitation learning》中提出,数据的绝对数量并非核心,多样性才是重中之重。基于此,我对仿真数据是比较悲观的。虽然仿真数据容易大量生成,也能通过域随机化增加随机性,但目前没有仿真器能复刻物理世界的丰富多样性,无论是物体种类还是交互形式。
因此,仿真数据或许可用于粗糙的预训练,过往一些抓取类仿真器和数据集在现实应用中也取得过一定效果。不过,除了简单抓取和局部运动控制,涉及复杂通用操作任务时,仿真器的能力仍远达不到现实世界的复杂度。所以我认为,丰富的互联网图文数据、人类视频数据以及现实场景采集的遥操数据,才应是 VLA 训练的主要数据来源。
仉尚航:我在具身智能大会听到你的报告也专门介绍了如何更好地利用互联网数据,要不再给大家介绍一下?
高阳:千寻智能投入大量精力探索如何利用互联网数据优化 VLA 模型,其中代表性工作之一是提出 Any-point Trajectory Modeling(ATM)。我们从互联网人类活动视频中提取关键点运动信息,让模型预测这些关键点轨迹,以此学习人类行为模式。通过对预训练后的模型进行微调,其泛化能力显著提升,尤其在场景适配和物体类型识别方面表现出色。互联网数据丰富多样,我们觉得这一方向极具潜力,还有大量数据尚未被充分挖掘和利用。
仉尚航:非常赞同,数据和模型是相辅相成的。若想更好地利用低成本的互联网数据,对模型设计的要求会更高;而使用高成本的真机数据时,模型设计或许可以更简单直接。关于数据方面,高老师提到仿真数据因不够真实,对训练的帮助有限。想问问另外两位老师,对于 VLA 的数据,尤其是仿真数据,你们是同意这一观点,还是有不同的看法呢?
杨耀东:我可以补充一下。首先我也认可互联网数据的重要性,但它存在信噪比低的问题,就像金融数据,看似丰富却难以筛选有效信息。互联网数据虽有人的行为轨迹和操作视频,但对不同任务场景的适用性差异很大。比如专注夹爪(Gripper)操作研究,互联网数据几乎派不上用场,因为视频中的人类动作难以直接迁移到机械末端执行器,即便迁移到上肢部位,对实际操作帮助也有限。在灵初智能的实践中发现,若要实现灵巧手的精细化端到端操作,互联网数据作用不大,反而是外骨骼设备采集的精准数据,对 sim to real 和后训练 VLA 而言,更能有效提升性能。
这一认知与传统学术研究观点不同。通常认为数据多样性越高越好,论文常展示模型在跨实体、跨任务场景下的表现,但这里存在一个误区:过多无关数据会稀释关键信息,导致模型策略性能下降。虽然通用人工智能(AGI)需要多元数据融合来提升性能,但毕竟现在通用智能还比较远,具身智能就更渺小了,而在具体任务的场景里,这些更高维度、更广域的数据反而是有害的,这是我们在实践中得出的经验。
仉尚航:好,耀东这边关于互联网数据提出了一些不同的想法,不知道高阳老师有没有想补充或者讨论的?
高阳:我非常同意,其实互联网上数据我们统计下来可能只有 1% 的数据是有用的,大量数据都是无效的,这就需要大量的数据清洗工作。只有捕捉到人手操作物体,以及物体间交互关系的视频数据才具备价值。这和大语言模型不同,大语言模型虽也需清洗数据,但即便不清洗,也能训练出尚可的模型;而互联网视频数据必须经过严格、大量的清洗,才能用于训练 。
仉尚航:是的,互联网数据容易获取,是个大宝库,但得想办法挖掘其中有价值的部分。关于 VLA 训练中互联网数据和仿真数据这块,真机数据的价值是毋庸置疑的。赵老师对这方面有什么想法呢?是和刚才老师们观点相同,还是有不同之处?
赵行:我最初和高阳老师观点相似,对仿真数据持悲观态度。因为构建完全真实的仿真环境太难,不仅要视觉真实,还得实现几何、物理和行为真实,sim to real gap 会巨大。但后来发现,计算机视觉领域的可微分渲染技术(如 3D 高斯 NERF)能缩小这一差距,主要解决物体纹理和几何真实性问题。
在我看来,仿真数据的作用是放大真实数据。以我们在星海图的工作为例,通过“real to sim to real”闭环链路,先拍摄机器人作业场景视频,再进行几何重建、新视角渲染,拆解重组场景完成数据增广。这不是凭空创造数据,而是基于现有数据拓展。如今视频生成模型越来越强大,甚至能仅凭一条拍摄数据重建场景,这是个不错的方向。
不过,这条技术路线非常依赖真实数据,视频生成模型还无法理解物理几何规律,不能替代物理仿真器。目前可行的技术路线,是通过半重建、半生成的方式将现实映射到虚拟世界,实现数字孪生和数据放大,再与真实数据联合训练。但仿真终究只是辅助,真实世界采集的数据才是关键。
仉尚航:是的,我印象深刻。去年8月世界机器人大会,我和高继扬老师一同参加论坛,当时他兴奋地跟我提及星海图即将发布 Real2Sim2Real(从现实到仿真再到现实)相关成果。正如你所说,若仿真数据足够真实,其价值会显著提升,像 3D 高斯这类技术助力重建,让仿真更逼近现实。
但我一直在思考物理特性模拟的问题。3D 高斯等技术或许能在外观层面高度还原,可物体的物理规律,诸如重力、摩擦力、纹理触感,以及材质重量、表面纹理细节等,要实现高度逼真模拟,似乎还有很长的路要走。所以我想请教一下,仿真数据若要更具价值,是必须全方位接近真实,包括这些物理特性,还是仅外观接近就足够了呢?
赵行:对,就像刚才提到的 Real2Sim2Real 技术以及联合训练,更多是解决泛化性这个宽泛概念里的具体问题。比如在 Sim2Real Gap 中,包含视觉纹理、几何、物理动力学以及行为等方面的差距,目前这些技术只是尽可能地缩小其中视觉泛化性方面的差距,对于物理和行为交互等方面的泛化性问题,我们还需要一种技术来攻克后面这些Sim2Real Gap。
如何提高泛化性?
仉尚航:好,我们接着 Sim2Real(从仿真到现实)以及泛化性的问题继续探讨。之前我们讨论过 VLA 的推理能力,而泛化能力也很重要,各位老师在报告中也常提及。那么,该如何进一步提升现有 VLA 的泛化能力呢?这其中包括跨本体、跨场景、跨任务、跨物体等方面的泛化能力。想请老师们给出一些建议,高老师能否先说说呢?
高阳:我认为就 VLA 的泛化能力而言,最简单直接的方式是利用大量互联网的视觉语言数据进行联合训练。比如加入各类不同的相关数据进行训练,还可以引入视频,并使用辅助的损失函数。
提升泛化能力方面,无论是大语言模型还是视觉语言模型,都没有算法上的奇迹。主要是通过各种方式生成大量数据,这些数据一部分来自真实世界,一部分是通过仿真方法得到的。当模型接触到丰富多样的数据后,就能自然地学会避免神经网络中的一些捷径,从而泛化到新的场景。对于 VLA 来说,在这方面也并无太大不同。
杨耀东:我觉得有个角度值得思考,即把 VLA 当作大模型来拓展其泛化能力。从数据、模型架构和训练角度来看,刚才提到数据要多样,模型架构可能改变,训练要增加强化学习、端到端等。在此基础上,或许需要跳出现有框架思考下一代技术。
比如在大语言模型方面,训练大模型很困难,而人类的强大在于能不断在线自适应学习新技能。这对大语言模型意味着测试时的计算、训练或对齐,即在不动或只动一点权重的前提下,快速适应新结构、任务和物体。这在小脑方面尤其重要,因为人类小脑的可塑性很强,小孩的灵巧操作能力,比如13、14个月大的孩子看几次示范就能学会拧发条。
目前在纯语言大模型上已看到一些好迹象,如 John Schulman 提到,模型训练到一定程度后,发现俄语中的一个错误,他用 20 条对应的英语数据调整后就修复了错误。所以我们要追寻一种下一代的范式,即无需大动干戈就能快速学会新能力的方式,也就是研究神经网络的可塑性,这可能需要算法上的革命,像现在一些 TTT 范式就值得关注。
另外,我们还需突破现有“大脑加小脑”的大模型认知局限,这种认知较为片面武断,或许是出于商业化或面向大众、投资人的考虑,便于大家理解“大脑小脑”概念。但人类生理机制复杂,以呼吸和心跳为例,按“大脑小脑”分析本应归属小脑,但实际由脑干控制。
目前的 VLA,无论是 Helix 还是 π,都缺失“脑干”这样的结构。所以,对架构进行创新至关重要,这可能是实现强大泛化能力、推动 VLA 向下一阶段规模化发展的关键。当然,当下也需做好数据优化、强化训练、实现具身认知等工作,但要实现真正的泛化,还需付出更多努力。
赵行:我认为未来机器人会像地球生物一样形态多样。大概率不需要单一的大脑或 VLA 模型,耀东老师提到的后训练或 test time training 范式更适合具身智能。机器人各有独特本体和作业空间,不像自动驾驶车追求通用,比如亚马逊最近展示的仓库机器人,用带触觉的双面履带夹爪,减少对视觉的依赖,特定任务效率更高。
但我们更需要一套完善工具,包含预训练 checkpoint、后训练或 test time training 工具,能针对具体场景采集少量数据完成适配,最后去把这个问题给解决到 99.9% 的成功率。我们既要重视预训练数据采集,也要关注后训练范式发展,甚至可以在其中融入机器人本体联合优化,实现策略训练与本体参数调整同步进行。最终目标是让各类机器人如同生物多样性般,在不同场景高效作业。
仉尚航:赵老师提到,提升泛化性不应局限于单一模型,而需要算法、数据与本体设计协同的整体系统或工具。观察到星海图与 Physical Intelligence 的合作,他们的论文也涉及用你们的本体及硬件调整,这让我思考:VLA是否需要特定构型配合?是否并非所有机器人构型都适合 VLA 模型,若想增强其泛化能力,或许需要针对性的构型设计。比如耀东老师提到的灵巧手自由度高,增加了 VLA 实现的复杂度,那是否采用三指夹爪反而更利于完成泛化任务?
总结一下,我想和老师们探讨:VLA与本体构型设计存在怎样的关联?为了让 VLA 更准确、更具泛化性,是否需要设计特定构型或构型系列?我们对国内多种机器人做过实验,发现了这一现象,也希望听听各位在产业界有丰富经验、参与本体设计的老师的看法。
高阳:这个问题很有意思。理论上,VLA 模型和机器人本体没有必然绑定,不同手臂、手部数量的机器人都能执行任务。但首先要承认,硬件存在固有局限,VLA 无法突破这些物理限制,比如两只手就操作不了专为人类五指设计的剪刀。
其次,若 VLA 能力足够强,就能充分发挥每个本体的硬件上限。最后,关于本体数量,我认为未来可能只需少量通用本体。为每个本体单独匹配 VLA,从商业和构建成本上看都过高。即使人类作为强大的 VLA,切换操作不同本体也需大量练习,其他机器人切换本体同样会产生高额成本。所以,我倾向于少量通用构型的机器人更可能占据主导,它们能降低硬件、软件及算法开发的综合成本,还能胜任各类任务。
千寻在设计本体时,目标是让机器人能完成世界上90% - 95%的任务,这样才能覆盖成本、广泛应用。我们的机器人采用全身力控设计,各关节灵活,力控功能对于机器人与现实世界交互至关重要,就像学术界常用的 Frank 力控机械臂。为平衡初代产品能力,我们选择轮式底盘而非双足形态,因为轮式底盘通过性好、占地小,不易受空间限制,这是我们的底层逻辑。
仉尚航:力控确实非常重要。关于本体构型设计和 VLA 模型的关系,耀东老师有什么想讨论的呢?我们其实很关注灵初,最近也多谢耀东老师的支持,陈源培在和我们合作研发关于灵初的手和臂做收银任务,也预期能在智源大会上一起展示。
杨耀东:我不算典型的具身智能研究者,就是懂些灵巧操作。从 2022 年做双手灵巧操作的实践来看,这是个极具挑战性的问题。一方面,它涉及高自由度控制;另一方面,传统模仿学习难以解决,互联网数据也无法直接应用,因此我们从一开始就选择了强化学习路线。实践证明,强化学习在双手配合、操作任务等方面效果显著,2022 年我们还实现了双手高速抛接。
这段经历让我认识到,很难有通用模型能解决双手灵巧操作问题,甚至要设计出通用 VLA 来彻底解决双手操作也非常困难。人的大脑都无法将右手经验直接应用到左手,在模型参数层面实现技能和轨迹迁移更是难上加难,后训练成本极高,不如针对特定硬件架构,用垂域数据和训练方法定制模型。
所以在灵初的研究中,我们没有采用端到端大一统模型,而是自下而上,基于硬件设计外骨骼采集设备,针对超时打包、扫码补货等特定场景采集真人数据训练。结合 VLM 的常识和物理 grounding 能力,在这些场景中获得了比传统机器人更强的泛化能力,具备一定商业化潜力,但距离实现人类 95% 的日常操作仍有很大差距。
从宏观角度看,如今大家都在讨论大模型 Agent。Sam Altman 的说法是,Agent 只要能完成人类 3% 的任务,AGI 就算实现,因为乘上人类的 GDP 是个巨大的数字。但目前具身智能离这个目标还很远,能完成人类 0.3% 的任务就已十分了不起。这需要产学研深度融合,探索各类应用场景,像高老师、赵老师等众多科研人员,包括智源开展的 RoboMIND 项目,都非常有意义,若能成功,将为国家乃至人类带来巨大贡献。
仉尚航:是的,从数据到模型到硬件本体到系统,其实都需要联动以及我们多方结合去努力,甚至最终形成一个生态。赵老师有什么可以分享的吗?
赵行:在这个问题上,我们起初就有深入思考。星海图最早提出“智能定义本体”,这并不完整,这里的“智能”涵盖智能模型算法、数据采集难度以及可解决问题的数量。正如高老师所说,能解决 90% - 95% 的任务,这些因素共同决定合适的本体形态。所以第一阶段,我们选择轮式底盘加双臂夹爪的机器人形态,它便于智能模型控制、数据采集,也能处理不少任务,后续再逐步添加灵巧手等复杂部件。
需要说明的是,我们认为未来机器人生态会丰富多样。但在 ToC 端,面向家庭消费者,大概率会出现通用人形机器人,因为人形是人类世界的“最大公约数”,能解决更多问题;而在 ToB 端,商业和工业场景中,预计会有几种主流形态的机器人,针对具体应用场景,通过后训练、test time training,或本体与任务协同设计,进行手臂加长、轮子加大等细化改造。这就是我们整体的思路。
长程任务与商业落地
仉尚航:最后 20 分钟有一个我自己非常关注的问题,就是关于长程任务。我们通常用 VLM 拆解长程任务为原子任务,再由 VLA 执行。但 VLA 只能做原子任务吗?它能否直接完成长程任务?目前相关研究很少,VLA 大多仍在执行短程任务。我想请教大家,VLA 是否有潜力独立完成长程任务?若有,我们是否该朝此方向探索?如果要实现,该怎么做,才能避免先由 VLM 拆解、再让 VLA 执行短程任务的模式?
高阳:我认为这并非最关键、最急需解决的问题。若 VLA 能完成大量短程任务,那搭配上层任务调度器,就能解决现实中多数问题。届时,主要挑战在于调度器与 VLA 的协同。直接用 GPT 等做调度器可能效果欠佳,因其不了解 VLA 的能力边界,但可通过少量 prompt 使其掌握下层的能力边界。虽然这种任务拆解方式并非最优,却足以应对90% - 95%的任务。所以,这个问题有研究价值,但建议先搭建好基础框架,再深入探索会更有意义。
仉尚航:明白,高老师认为这不是我们特别紧急要解决的第一个优先级,那耀东觉得 VLA 是否需要尽量去解决长程任务?还是也像高老师这样觉得说其实配合一个大脑模型做拆解就可以了。
杨耀东:我认为这是个很迫切的任务。在组建灵初实验室时,我邀请了北大专门做推理模型 VLA 的梁一韬老师。从 Nvidia 的话语体系看,第一代具身智能是 Minecraft agent,虽操作鼠标键盘的自由度不高,但开放环境下任务复杂。一年多前,通过语言智能体,在 Minecraft 上的 VLA 运用 self reflection(自我反思)、correction(修正)、replanning(重新规划)等技术,让其玩三四个小时不犯错,完成有稀疏奖励且需使用多种工具的任务已没问题。
与机器人操作相比,很多机器人操作视频时长大概 10 到 15 秒。而像超市补货这类复杂任务,篮子里可能有二三十个物体、几千个 SKU(库存保有单位),操作过程远超 10 到 15 秒,这对现有 VLA 是很大挑战,若不能自我纠错和重新规划,任务成功率会显著降低。
在和灵初开发大脑和小脑时,VLA 的推理能力优先级很高。最近做了个灵巧手打麻将的 demo,一镜到底,机械臂不仅要计算出牌,还要考虑各种原子动作,如牌的抓取方式等。仅靠 VLM 或强推理模型,没有端到端且具备embody COT(具身思维链)能力的 VLA 是解决不了问题的。打麻将是这样,补货、扫码打包、物料分拣等场景也都需要这种能力。
仉尚航:就是又回到咱们刚才说的闭环了,要是 VLA 能同时具备记忆、未来预测反馈闭环,进而完成超长任务,确实很有价值。赵老师,你觉得近期的 VLA 研究是否要聚焦于这类长程任务?如果需要,该如何推进?高老师和耀东老师提出了不同思路,你怎么看?
赵行:在我们的研究中,相对更关注动作能力本身。毕竟长程推理较难定义,而语言和视觉的定义相对清晰。我们见过不少视觉语言的 reasoning benchmark,但还没有视觉语言动作的 benchmark,这就急需学术界共同去定义并形式化这个问题,然后全力研究。
在机器人任务里存在一个大坑。比如做研究时,想让机器人做咖啡,那为何非要用VLA模型呢?为什么不自己写个状态机,训练一些动作再串联起来解决问题呢?作为评审时,也会问写论文的人,为什么要用VLA来解决问题,毕竟现有的状态机写100条规则就能处理所有情况。
所以,VLA 领域急缺一个好的推理评价体系,让我们清楚 VLA 的长程任务是什么,并且在长程任务中,清楚是哪几步因为推理失败而失效,而不只是因为动作执行、自适应控制或恢复等能力不足而失败。目前对于真正的机器人 VLA 推理模型还没有一个确定的结论,这点很重要。
仉尚航:对,赵老师也分享了我们目前为止没有讨论到的层面,就是如何定义和评测推理能力。
赵行:对,现在大家觉得长程只是时间长,但我们还得从任务的复杂度以及所需的逻辑推理能力的复杂度这些角度来看问题,我觉得会更好。
仉尚航:定义、评价、评测的确重要。目前为止我们已经跟大家讨论了关于 VLA 模型的架构设计、数据、训练策略,包括 RL 等,但还没讨论到的问题就是它的输出,这也是直播观众们比较感兴趣的问题。
目前主流的 VLA 输出范式有四种,分别是自回归的 Next Action Prediction(OpenVLA,FAST),Diffusion 或者 Flow Match Modeling(Pi0,RDT-1B),和最简单的基于回归监督的(RoboMamba,RoboFlamingo),同时利用自回归和 Diffusion 进行鲁棒 Action 输出(HybridVLA),大家如何看待这几种输出范式的发展呢?
高阳:从推理实时性角度看,我认为 Diffusion 和 Flow Matching 不可或缺,否则难以保证实时性。至于预训练是否采用 Next Token Prediction,这取决于技术发展,特别是能否提升 Flow Matching 和 Diffusion 的训练速度,这些都有待进一步研究探索。
杨耀东:我们认为 tokenization 至关重要,因为我们希望探索具身思维链(embodied COT)和测试时计算(test time compute)的实现方式。若要以此为基础,无法将动作输出转化为模型输入,就无法进行 test time compute。
因此,我们深入研究了多种 action tokenization 形式,这或许是短期内将大模型成熟技术范式最快迁移到 VLA 训练中的方法,能快速把大模型的经验应用到 VLA 上。不过,其中存在诸多工程问题,特别是 tokenization 的形式和表征影响很大,而且最大的弊端是速度问题。
这很考验工程设计,我们可以通过分块(chunking)方法规避,也能探索 hybrid 混合方法。目前来看,自回归形式依然关键,因为想赋予模型推理能力,从设计角度,diffusion 这类方法还未显现出打造强推理模型的明显趋势。
仉尚航:那你会认为 Hybrid(混合)的结构可能是近期比较 Promising(有潜力的)的一种方式吗?
杨耀东:可能是的,我们从灵初这边发布的 VLA 角度来讲,还是做自回归形式,主要目的是能让它做 test time compute,这个是我们比较关注的点。
仉尚航:大家关注的这个侧重点也不同,赵老师对 VLA 的输出范式这块有什么想法呢?
赵行:当下 diffusion model 热度很高,我对其原理和方法也有不少研究。虽然扩散模型在文生图、文生视频领域展现出强大能力,但尚未证明自身在预训练,尤其是多模态预训练方面的价值。现有的文生图或文生视频模型,大多使用固定的文本编码器提取特征,将其作为条件进行从噪声到图像、视频的生成,本质上更多是训练一个较大的解码器,始终未能证明可用于多模态或跨模态混合预训练。
反观下一个token预测(next token prediction)方法,在 VLM 的研究中,许多工作将图像切分 patch,经线性投影后放入大的 Transformer,用该方法训练能取得良好效果。由此可见,至少目前来看,next token prediction 在预训练方面的可靠性更高。因此,我更倾向于认为自回归方式在当下是更有潜力的研究路线。
仉尚航:好,最后一个问题相信也是大家非常感兴趣的具身智能的落地场景。很多投资人、老师们都在讨论具身智能第一步能落地的场景是什么?各位老师在产学研结合上做得非常出色,对于产业也有很好的观察,所以想请问一下大家比较希望具身智能先在哪个场景下面落地?是工业、家庭、医疗还是其他?
高阳:我认为在落地应用方面,工业场景最容易实现。尽管 VLA 前景广阔,但目前其能力尚处初级阶段,现阶段适合在需求最迫切的场景落地。
从传统机器人四大家族的情况来看,工业生产是对机器人需求最旺盛的行业。例如汽车产业链,大部分总装线已实现高度机器人自动化,工业客户清楚机器人能带来的价值。相比之下,商业 B 端客户过去很少使用机器人,不太了解机器人应用的意义和预期效果,较难接受。而且工业场景相对简单,所以无论是从场景复杂度,还是客户使用经验来看,工业场景都是 VLA 最先落地的选择。
仉尚航:对,我和高阳老师、赵行老师比较相同的点是之前都做过自动驾驶,和车厂本来就有合作,所以对汽车产业也非常关注。那耀东老师觉得哪个落地场景比较 Promising 呢?
杨耀东:这个问题其实比较难,因为我们聚焦灵巧手研发,不涉及人形机器人下半身问题,在灵巧操作领域,类似莫拉维克悖论,看似简单的任务(如用螺丝枪打螺丝),用灵巧手实现却很难,从泛化性、准确性等维度看,现有技术都难以完全模拟人类操作,所以工业总装线上虽有大量人工操作,但机器人替代并非易事,很多东西需要去试。
今年从整个产业上来讲,国内目前约 50 - 100 家具身智能公司,去年投资额约 100 亿,现阶段需要各公司多尝试不同场景,探寻能提升生产力、产量大、盈利且有 sweet point 的场景,一方面真的能提升生产力,一方面产量又很大,一方面还能挣钱,真能符合这三个圈的并集的技能集,我认为不会很多,不太像是短时间内我们突然能够海量生产、广而告之,然后疯狂往外扑的局面。
从工业及 ToB、ToC 角度分析,工业场景虽适合机器人应用,但工业机器人年产量仅 60 万台,产量有限,和预想的差距太大;ToC 领域,人形机器人虽有前景,但实际应用功能不明确,现阶段难以落地;还有 ToBC 模式,即机器人卖给B端用于C端服务(如迎宾、倒咖啡),以及文娱类(扭秧歌、阅兵机器人)等新场景或许有发展空间,如同无人机用于烟花表演。当前最大挑战在于机器人产量少,选择应用场景时需考量规模和影响力,过小的场景即便能做也缺乏商业价值,这是我的一些思考。
仉尚航:是的,现在还需要耐心,不同公司探索不同场景,大家把整个生态做起来也还是蛮好的,可以不用拘泥于一格。那赵老师对落地场景有什么看法呢?
赵行:每个做具身智能的公司都会深入思考过这个问题,我们的结论是,这一代通用 AI 机器人不应与传统机器人或设备竞争,而要开辟新赛道。传统机器人节拍高、精度高,新一代通用 AI 机器人应避开高精度、高节拍任务,主攻精度要求不高但需泛化能力的任务,这类任务在工厂里很常见,比如处理形状不规则、位置不定甚至柔性物体的低节拍任务,现有技术都可以解决。
然后我们认为更大机会在商业领域。商业场景中的任务同样对精度和节拍要求不高,而且在这些场景里,机器人不仅能发挥实用作业价值,还能提供情绪价值,大概八成实用价值,两到三成情绪价值 ,这样的场景是很好的切入点。
仉尚航:感谢分享,各位老师在落地实践与场景探索方面见解深刻。今天交流了所有预设问题,感谢三位老师百忙中倾囊相授,让我收获颇丰。相信观众通过这场圆桌论坛,在科研、产业及落地应用方面均能有所启发。平时报告通常仅 30 分钟,两小时深度交流尤为珍贵。期待未来看到老师们更多精彩成果,也盼望与各位加强交流、深化合作。今天的交流到此结束,谢谢大家!
来源:雷峰网