物理AI如何变革机器人产业?英伟达与宇树、银河通用创始人闭门会

360影视 欧美动漫 2025-08-11 12:41 3

摘要:物理AI将使机器人和自动驾驶汽车等自主机器具备运动技能,从而帮助它们理解并与现实世界互动。黄仁勋强调,物理AI将为机器人领域带来革命性突破,并直言:“我们已经进入AI推理时代,下一波浪潮将是物理AI”。

黄仁勋在今年多次演讲中提到,英伟达(NVIDIA)正积极布局“物理AI”。

物理AI将使机器人和自动驾驶汽车等自主机器具备运动技能,从而帮助它们理解并与现实世界互动。黄仁勋强调,物理AI将为机器人领域带来革命性突破,并直言:“我们已经进入AI推理时代,下一波浪潮将是物理AI”。

在2025世界机器人大会上,英伟达Omniverse和仿真模拟技术副总裁Rev Lebaredian表示,物理AI将撬动万亿美元级的实体经济。与IT产业的5万亿美元规模相比,制造、物流、医疗等物理产业的总量是其百倍之多。若机器人能够将计算能力与这些产业连接,将极大提升生产力,带来指数级的变化。

会后,英伟达的Rev Lebaredian与其机器人生态伙伴银河通用和宇树科技的创始人王鹤、王兴兴,以及多家媒体,进行了一场闭门交流会,再次深入探讨物理AI在未来的发展路径。

在会上,Rev Lebaredian对中国市场在物理AI领域的发展表示高度认可。他向腾讯科技表示:“中国在物理AI和机器人领域具备独特的规模和人才优势,形成了独一无二的生态系统。中国不仅在制造电子硬件和机器人关键部件方面具备深厚的专业能力,还拥有全球领先的制造规模。这些优势为物理AI和机器人产业的快速发展奠定了坚实的基础”。

英伟达Omniverse和仿真模拟技术副总裁 Rev Lebaredian

过去三四十年里,我们建立了计算机产业和 IT 产业,它们放大了各行各业的能力。但计算的影响大多还停留在“信息空间”——也就是可以数字化的内容,比如语言和各种可编码的信息。

互联网的出现,让计算技术真正走进每个人的生活,把所有人连接起来,并带来了几十年的增长。从全球市场规模来看,相比IT行业的总规模约为 5 万亿美元,这虽然庞大,但与全球所有行业超过100万亿美元的总量相比,只是很小的一部分。其它行业之所以更有价值,是因为它们处理的是真实世界的“原子”——交通、制造、供应链、物流、医疗、制药等涉及物理世界的领域。

而今天,随着人工智能的出现,我们终于有了让机器具备“物理智能”的能力,可以把物理世界和信息世界真正连接起来。换句话说,计算的力量不再只局限于那 5 万亿美元的信息市场,而是可以进入那 100 万亿美元的物理世界市场。而这个桥梁,就是机器人。有了机器人,我们就能把计算和人工智能带进真实世界,创造出能理解并改变物理环境的智能体。

中国是实现这一跨越的最佳地点,因为这里具备独一无二的条件:

顶尖 AI 人才:全球近一半的人工智能研究人员和开发者在中国,其中包括来自顶尖大学的最优秀人才。电子与计算技术能力:中国不仅有技术研发能力,还有全球无可匹敌的电子制造产业,这在物理 AI 和机器人领域至关重要。庞大的制造业基础:这里有大规模部署和测试机器人的真实场景,可以快速收集数据、迭代算法,让机器人不断进化。

因此,在世界机器人大会上看到如此多的能量、能力和热情,并不令人意外。

NVIDIA 也为这幅拼图贡献了独特的一块。我们早已梦想参与解决这一问题,并为此努力了很长时间。在机器人领域,我们打造了三台计算机:

机器人本体计算机:嵌入在机器人内部,例如自动驾驶汽车或人形机器人中的计算机。专门为人形机器人打造的Jetson Thor就属于这一类,今年在 WRC 展会上,就可以在 Galbot 和其他展出的机器人上看到它们的身影。AI 工厂计算机:在使用机器人本体计算机之前,必须先开发它的“大脑”。需要依赖 DGX 和 HGX 系统,处理海量原始数据,生成物理 AI 算法、物理 AI 模型和神经网络,再部署到机器人上。仿真计算机:物理世界的数据无法直接从互联网获取,只能通过两种方式获得:真实世界传感器采集;基于物理定律和世界规则进行计算机仿真生成。仿真不仅能生成数据,还能在部署前测试机器人,确保它们在真实环境中安全运行,且测试速度可快于现实时间。

在机器人领域,NVIDIA 拥有完整的Isaac 平台,它结合了硬件与三台计算机所需的软件栈,包括:运行时和计算环境、仿真工具、训练框架。NVIDIA Jetson Thor是一款专为物理世界中的智能推理代理(特别是机器人)打造的超级计算机,黄仁勋称它为“实时推理机器”。

Jetson Thor 性能亮点:

计算能力是上一代 Jetson Orin 的 7.5 倍,接近 10 倍;每瓦性能提升 3.5 倍;CPU 性能提升 3.1 倍;I/O 吞吐量提升 10 倍,满足高带宽感知需求。Isaac 平台还包括 NVIDIA 的模拟器与仿真框架:Isaac Sim:环境和传感器仿真、机器人测试、生成合成数据。Isaac Lab:强化学习的仿真平台。NVIDIA Cosmos:世界基础模型及框架,支持构建理解物理世界的 AI,并与 Omniverse 等模拟器结合,来生成更精确、更大规模的数据。

世界基础模型虽然还处在起步阶段,尚不能完全理解世界,但已经非常有用,并为机器人研发带来了全新能力。

宇树科技CEO 王兴兴

在过去几年,我们非常重视人形机器人这一方向。某种意义上,我将人形机器人视为通用机器人的重要载体。众所周知,通用AI是目前全球最主流的发展方向,而真正的通用AI在执行任务时必然离不开机器人,尤其是通用型机器人

对比来看,目前人形机器人反而是最理想的专业机器人形态。虽然看上去较为复杂,但实际结构并不如想象中那么复杂,本质上是由若干关节电机串联而成。因此结构相对简单,不像履带式小车或其他形式的机器人反而更复杂。

我一直相信,当通用AI大规模成熟后,每个人都可以轻松制造一台人形机器人,就像今天人们可以购买电脑零部件组装一台电脑一样。未来若AI足够强大,对硬件的要求会越来越低。

我们在去年5月发布了一款机器人,当时售价约9.9万元人民币,至今依然具备很强的市场竞争力。它的关节数量和灵活性表现优秀,且在发布后,其架构已成为全球较为主流的设计构型。

去年下半年及今年,不少新兴机器人公司的新产品在架构上与这款相似,仅在外观上存在差异。我们设计的造型流畅且结构简单,而其他造型可能更复杂且不够美观,因此该产品在市场上竞争力较强。

近期我们又发布了新的版本。虽然涂装稍显花哨,但我们希望客户可以自由改装和喷涂外观,例如更改颜色或增加个性化装饰。许多客户在户外直播时会为机器人穿衣、戴帽或假发,创造出多种造型。外观和造型的可定制性对于客户体验至关重要。这款新版本售价约3.9万元人民币,全球竞争力强,且性能表现出色。目前现货可供,预计量产在年底前完成。

此外,我们近期发布了A2机器狗,其最大特点是在紧凑轻量化设计下实现了较大负载能力。自重约37千克,持续负载可达30千克,空载续航可行驶20公里。其外观吸取了以往的设计经验,更具科幻感,且具备防尘防水性能。我们一直希望机器人能在工业场景中替代人类完成繁重、危险或重复性工作。我们的机器狗在一些公益项目中已实现24小时不间断运行,具备自动充电和巡逻检测功能。

去年底我们升级了轮式机器人,这款产品较大,自重约70~80千克,因此部分场景不便使用。为此,我们推出了更小型且防尘防水的版本,适用于室内外多种场景。虽然体型较大,但灵活性依然优秀。通常小型机器人灵活性更强,而大型机器人灵活性较差,但我们在较大尺寸下依然保证了良好的运动性能。

今年1月,我们的机器人登上央视春晚,最大亮点是全自动编队跳舞。它在头部配备三个激光雷达,可自动建图并变换队形。为适应舞台演出,我们将后台控制权交给舞台控台,使音乐与动作实现毫秒级同步。此次演出共有16台机器人,统一连接至我们后台服务器,再接入舞台系统。该项目的最大挑战在于多机协作及复杂的编程维护。目前,这些机器人在澳门美高梅每日进行表演。

在动作学习方面,我们通过采集人体动作数据并结合深度强化学习进行训练。不同于语言模型训练,动作训练只需少量真实数据,其余由强化学习完成。我们主要使用NVIDIA的Isaac Sim平台进行训练,已掌握舞蹈、跳跃、空翻等多种动作。当前限制机器人执行更复杂动作的最大因素并非算法,而是硬件物理极限。例如,要将奔跑速度从每秒3~4米提升到10米,对硬件的改进需求极高。

我们同样重视机器人上肢和手部的研发,目前已自主开发一款约20自由度的灵巧手,目标是让机器人真正能够执行日常任务,而不仅是完成展示性动作。希望在未来一到两年内实现自然交互,例如在没有预先适配的情况下,直接指令机器人去为某人倒水。

今年5月底,我们与央视合作举办了一场机器人格斗赛,时长约1.5小时,包含4个团队参赛。格斗赛的算法复杂度高于舞蹈或功夫表演,因为动作组合是随机且存在强干扰,要求动作衔接流畅并可自由组合。我们的目标是在未来实现“任意动作的任意实时生成”。

此外,我们还发布了R1机器人,重量约25千克,轻便且安全。虽然体积较小,但动力性能强劲,主要面向工业应用。其算法与人形机器人类似,但由于四足机器人的稳定性更好,可完成更剧烈的动作而不易损坏,且具备较强的越障能力。

回顾过去,AI与机器人技术的发展始终是全球协作的成果,包括NVIDIA在内的多方力量一直推动机器人与AI领域的全球合作。在通用智能大模型和真正能执行任务的机器人普及之前,我们仍需共同努力,推动人类进入下一个科技时代。我相信,AI与机器人技术将像电力与蒸汽机的发明一样,使人类文明迈向新的高度。

银河通用CEO 王鹤

今天在场的所有机器人公司,包括NVIDIA和银河通用在内,我们的共同目标都是打造通用机器人。这样的通用机器人将成为下一个价值数万亿美元、数万亿人民币市场的关键性、革命性产品。

这种革命性产品背后包含多个核心要素:

第一个要素是机器人的本体;第二个要素是驱动它运转的具身智能模型;模型背后则是数据支撑——什么样的数据能训练出这样的能力。

接下来,我将依次分享银河通用在这些方面的探索与成果,并介绍最终落地的产品。

银河通用与其他公司的不同之处在于,我们的机器人并非完全人形,而是轮式双臂双手的形态。我们采用轮式底盘,主打高续航、工业级安全性,以及可实现大规模、高可靠交付的能力。银河通用G1机器人于2024年5月首次亮相,经过一年多迭代,目前在自动充电、运行流畅度与稳定性方面均已达到大规模自主商用的标准。

我们在中国将NVIDIA Jetson Thor芯片部署于人形机器人之中,也是全球最早收到该芯片的公司之一,并在本次WRC大会上实现了现场部署。在演示中,配备该芯片的机器人展现出丝滑的运动性能以及实时的货箱视觉处理与运动规划能力,速度显著提升,赢得现场观众一致评价为“最快的人形机器人”。这背后离不开强大芯片的支撑。

我们的机器人之所以能够在复杂环境中高效导航,源于银河通用长期研发的大规模具身大模型VLA。其中,导航大模型只需一句话指令即可在场景中自主运动。 “六一”儿童节前夕,我们全球首发了无需建图、可在任何复杂场景中跟随人的TrackVLA,能够自然语言交互、穿梭障碍物,全程自主运行,即使在人流干扰下也能稳定跟随。

上半身操作方面,我们首发了抓取基础大模型Grasp VLA,实现了抓取动作的实时闭环生成。在各种光照条件和挑战性背景下,均能实现指定物体的零样本抓取,且无需事先训练该物体。这为未来“自然语言+即时执行”奠定了基础。

基于Grasp VLA,我们打造了零售场景应用,无论瓶装、袋装、散装、挂装或软体物品,均可由同一模型完成抓取与递送。这是全球首个可应对50多种不同物体摆放、且从刚体到软体全覆盖的端到端零售大模型。

银河通能在全球率先推出多款基础大模型,并能在真实商店场景稳定应用,得益于全套仿真引擎。我们与NVIDIA一致认为,合成数据是推动具身智能快速落地的关键。目前,真实世界数据仅占我们训练数据的1%,其余99%均为合成数据。

我们将自研机器人模型、大量物体与材质资产输入合成管线,生成全球首个百亿级抓取操作大数据集,以及全球首个百亿级柔性物体操作大数据集。这些数据使我们的模型在真实环境中具备极高的鲁棒性与泛化能力。

目前银河通用为轮式形态,下一代将采用纯双足设计。无论在仿真环境还是现实环境,该平台可训练并部署多种任务能力,例如推车、拾取地面物体等。

银河通用的多项技能已实现完全商用。我们推出了全球首个24小时无人药房解决方案,在北京、上海、深圳等地签约超过100家药店。用户通过APP下单后,由机器人在店内完成取药并交付外卖员。2024年,我们还官宣了24小时无人零售店项目,将在10个城市的百处核心商圈和旅游景点部署银河通用“太空舱”零售终端,销售饮品等商品。

物理AI的未来:通过专用计算平台打破通用计算的限制问题:英伟达此次在2025世界机器人大会展示了一系列物理AI成果。物理AI,特别是在机器人领域,对能耗、热管理和体积限制有很高的要求。请问NVIDIA是如何应对这些挑战的?未来的计算平台又将如何满足这些需求?

Rev:回顾历史,NVIDIA每一代产品都会大幅提升每瓦性能和每美元性能。过去我们有摩尔定律,意味着计算能力会以指数速度增长——在最佳阶段,每五年性能提升10倍,十年提升100倍。但单靠摩尔定律已经不足以解决我们面临的许多问题。

我们预见到,摩尔定律在CPU和通用计算机上的效用会逐渐终结。为此,我们致力于打造针对特定算法的专用计算机。这种专用计算机不仅仅是芯片层面,更需要算法、软件以及应用层面的整体优化,才能发挥最大性能。这并非靠单一因素,比如芯片变小或变快,而是通过全栈优化实现的。这是一项非常艰难的工程,也正是NVIDIA的核心竞争力所在。

我们最初应用这套方法于计算机图形渲染(尤其是游戏领域),随后推广到其他领域。CUDA推出后,我们开始应用于物理仿真,后来深度学习和AI在GPU上兴起,我们不断专门化处理器。每一代产品,在相同功耗和成本下都实现了显著的性能飞跃,未来仍会持续,因为我们的创新之路还远未走完。

问题:关于中国市场,相比其他国家,你怎么看中国AI的需求和实践中的挑战?

Rev:中国既是一个重要的市场,也是AI技术和产品的生产基地。中国拥有大量聪明、受过良好教育且充满热情的AI研究人员和开发者,全球近一半顶尖AI人才都集中在这里,且中国拥有顶尖的AI高校。

在物理AI和机器人领域,中国拥有独特的规模优势,结合人才优势,形成了独一无二的生态系统。中国在制造电子硬件和机器人所需关键部件方面具备深厚的专业能力,这样的生态体系和制造规模是其他国家难以匹敌的。这使得像银河通用、宇树科技这样的企业,能够大规模制造机器人,快速学习和迭代。中国独特的综合条件为物理AI和机器人产业的快速发展提供了坚实基础。

问题:在像医疗和养老这样高精度应用场景中,NVIDIA Omniverse如何确保用仿真数据训练的机器人具备可靠性和安全性?

Rev:如果你想构建一个能够在现实世界中行动且安全可靠的机器人系统,实际上唯一的选择就是使用仿真。

以自动驾驶为例,我们绝对不希望车撞到人或者孩子,但当街上出现小孩时,车辆的大脑该如何反应,如何获取训练这类系统的数据呢?唯一的办法就是通过仿真。因为我们绝不可能将孩子置于汽车前作为训练样本,这样做是不道德的、危险的,而且耗时且昂贵。

即使训练完系统,在将它部署到现实世界之前,也需要在这些相同场景中进行测试,确保在真正发生类似情况时,它能够正确反应。因此,真正的选择只有通过仿真实现,因为现实世界测试过慢、成本高且危险,我们不希望机器人在现实世界先失败。

换句话说,如果我们无法让仿真足够准确以测试机器人,那么我们将无法制造出可靠的机器人。幸运的是,目前已有非常准确的仿真器。不过,这些仿真器计算量大且成本高昂,我们面临的真正挑战是如何提升仿真速度,使其在大规模系统构建中具有成本效益,这也是我们一直努力的方向。

问题:未来几年内,驱动人工智能机器人的仿真领域会有哪些关键技术趋势将改变整个行业?能否分享一些中国生态合作伙伴如何利用NVIDIA仿真技术加速产品创新的案例?

Rev:我认为目前最大的趋势,实际上是所有在常规人工智能领域出现的技术和发展,正被应用到物理人工智能中。其中最重要的突破是推理能力的提升。比如DeepSeek将推理能力带入了开源领域,现在我们也看到了其他各种模型。

我们在智能水平上实现了飞跃,将同样的技术应用到物理人工智能,是机器人领域的一个重大突破。我们的机器人将能更自然地与人互动,并完成复杂的多步骤任务。这是非常关键的能力。而将这种能力与仿真结合,我认为这是一个可能还未被广泛理解,但将成为重大突破的点。

目前我们面临的主要问题是人工智能极度依赖数据,而获取合适的数据非常困难。我们现有的推理模型,尤其是对物理世界的推理,现在可以帮助我们改善数据生成和数据创建的流程。

如今我们生成的数据,即使是合成数据,也需要大量人工参与,人工去构建虚拟世界和仿真环境,判断该生成哪些数据才能让智能系统更聪明。但是,如果我们把正在开发的人工智能技术用在数据生成流程中,就可以实现自动化,打造“自动驾驶”的合成数据生成。

如果我们拥有一个自动驾驶的合成数据生成工厂,就能直接将其接入训练流程,实现训练过程自动化,减少人为干预,让机器人大脑更聪明。至于中国的企业如何应用仿真技术及其带来的影响,我认为他们已经在积极探索和应用这些技术。

王鹤:我认为,随着仿真引擎和并行渲染器的进步,合成数据的生成变得更加高效,无论是通过强化学习,还是通过数据生成后再进行模仿学习,整体的难度大大降低。无论是人形机器人行走、跳舞等技能的训练,还是抓取、叠衣服和导航等任务的背后,都离不开高效的仿真器和并行渲染器。我们非常感谢英伟达在这一过程中作为生态合作伙伴的支持,从芯片到仿真平台,为整个行业提供了强有力的支撑。

问题: 请问NVIDIA Jetson Thor与之前的Jetson平台有何区别?它如何特别有利于机器人应用?

Rev:每一代Jetson产品,我们都努力最大化其计算能力,因为智能问题本身就是一个非常复杂的计算难题。在机器人领域,这一挑战更大:计算必须非常快速,且在极为苛刻的环境中进行。

机器人往往在现场实时运行,需要在紧凑的循环内完成计算,电力有限,因此需要尽可能降低功耗以延长电池寿命,同时还要考虑散热等问题。这些因素都极大地增加了难度。

Jetson Thor与之前版本最大的不同是,现在具备了足够的计算能力,能够运行更大、更强的神经网络和模型,支持更复杂的推理任务,这是之前的产品无法做到的。此外,Jetson Thor拥有更高的带宽,能更快地处理来自各种传感器的大量信息,使机器人能够快速反应,在动态变化的环境中高速移动和操作。

问题:NVIDIA 在机器人训练中强调仿真优先的策略,并推出了一系列支持技术。然而,仿真到现实(Sim2Real)之间的差距仍然存在挑战。NVIDIA 如何与合作伙伴共同应对这一问题?能否分享一些具体的客户案例或合作项目,展示这一方法的有效性?展望未来,提升仿真物理真实性和增强现实世界迁移效率的关键方向有哪些?

Rev:这是一个非常好的问题。如果我们依赖仿真来构建和测试AI,就必须确保仿真尽可能接近现实,否则我们无法信任它。我们构建的AI如果是在一个“卡通世界”里训练的,是无法真正理解现实世界的;因此,测试时也必须确保仿真场景与现实相符。那么,如何弥合仿真与现实之间的差距呢?其实可以通过多种方式,我们也在全力推进这些方法。

首先,是提升仿真器本身的精度。我们几十年来一直在构建物理仿真算法,且验证了这些算法能够较好地反映现实世界的物理规律。比如我们利用仿真设计飞机机翼和汽车,确保空气动力学性能,并验证仿真结果与真实世界匹配。问题是这些高精度仿真计算成本极高,通常需要在大型计算机上运行数小时。挑战就在于如何将仿真速度提升到足够快,能够嵌入AI训练流程中,实现大规模、高效的数据生成和测试。

为此,我们正在利用AI本身作为提升仿真速度和精度的工具。AI能够近似任何数学函数,我们可以将物理仿真函数转换为AI函数,构建AI模拟器完成仿真。只要提供足够的示例数据,AI就能学习仿真功能。这正是我们正在开发的“Cosmos”项目。这些“世界基础模型”是能理解世界物理规律的AI模型,我们可以将真实世界数据和可信仿真数据输入这些模型进行训练。一旦有了这样理解世界的AI基础模型,就可以将其与传统仿真结合,构建更精准、更高效的仿真器。

其次,即使拥有高质量的仿真器,构建代表现实世界的数据也非常困难。以这个房间为例,虽然仿真器可以模拟物理现象,但我们还要创造带有正确物理参数(如摩擦系数、材料特性)的桌布和桌子,这类信息采集非常复杂。

目前,全球只有少数专业人士,比如通常是游戏或电影行业的艺术家具备这类能力。但随着我们构建具备物理理解能力的AI,这些AI可以辅助生成这些虚拟环境,成为“机器人艺术家”,帮助我们高效创建真实感十足的虚拟世界。

第三种方法是直接捕捉现实世界。我们也利用物理AI技术将现实环境(例如我们身处的房间)数字化、导入仿真环境,确保虚拟场景与现实高度一致。

NVIDIA正在这三个方向全面发力,打造相关技术,但这项工作远超过任何一家公司的能力。我们正与整个生态系统的合作伙伴协同推进,争取在这三条路径上共同攻关。事实上,我们已经积累了不少成果,目前已有的仿真器已经能够生成足够高质量的数据,助力我们提升AI性能。

问题:OpenAI最近发布了GPT-5,给人的印象是技术突破不大,而且它更像是一个系统,而非单一模型。我们是否可以理解为大模型的扩展定律(Scaling Law)遇到了一些挑战?

王鹤:目前大模型类型繁多,有纯文本大模型,有图文大模型,图文大模型又分为视觉理解型和视频生成型,包括我们具身智能的VLA也是一种大模型。所以说,是否可以说大模型的扩展遇到了瓶颈,无法简单地用一个统一的结论来概括。

我理解,在当前纯文本阶段,我们主要的数据源是互联网公开数据,但很多私域知识并不在网上,这导致模型的推理能力实际上需要的数据与公开数据有差异。除非能通过某种可控的方式获得额外数据增强,否则单靠公开数据提升模型能力是有限的。

这部分能力的增长,并不会自然地通过单纯扩大模型规模实现。但不能低估推理模型的进展,比如在IMO国际数学竞赛上,文模型获得金牌,面对从未见过的题目表现出色,这说明文本大模型的能力在不断提升。

关于多模态大模型(比如VLM和VLA),如果说文本模型现在能力已经很强了,那么多模态模型目前还处于比语言模型稍弱的阶段。其核心原因是数据不足:文本数据非常丰富,而文本-图像配对数据相对较少,再加上动作数据更少,因此视觉理解能力和基于视觉的动作操作能力还有较大差距。

这也是为什么合成数据和仿真技术非常重要。正如Rev所说,仿真能够将真实世界场景和动作复现到虚拟环境,生成大量带动作、图像和语义配对的数据,这将极大促进图文、多模态大模型及具身智能大模型的发展。
如果完全依赖真实数据,进展会受到很大限制。总体来看,充分利用仿真技术,我相信将是多模态大模型和具身大模型应对数据瓶颈的最有效途径。

问题:当前一些专家认为,目前机器人领域的大模型架构尚未统一。针对具身智能大脑的基础模型,宇树科技主要聚焦哪些方向的探索?能否透露一些具体内容?

王兴兴:我一直觉得目前的模型架构确实非常不统一,这导致大家的整体进展没有那么快。如果模型架构能更加统一、方向明确,结合当前行业热度,大家其实能更快取得突破。但现实是,目前进展还是比较缓慢。

我们公司探索了很多方向。比如今年上午也展示了我们去年尝试的一个用视频生成模型作为“世界模型”,来驱动并对齐机械臂的项目,这个尝试取得了一定效果。但由于视频生成模型训练规模极大,考虑到我们公司的算力和投入,难以进行大规模训练。

而且我们尝试发现,这类模型的泛用性还不能完全满足预期,因此后来基本没有继续使用。但最近谷歌发布了一个新的视频生成模型,其物理对齐效果非常好,并且他们公开尝试把视频生成模型作为世界模型,直接用于机械臂和通用智能。这让我觉得这个方向非常值得重新探索。

由于公司规模和算力人才限制,我们只是初步探索,没有深入推进。但谷歌的成果证明这个方向很有潜力。视频生成模型在时间内容、数据源以及效果方面,已经达到不错的预期。举例来说,如果控制视频生成模型生成一个机器人打扫全屋的视频,而且效果不错,理论上只要把视频与机器人动作对齐,也能实现类似效果。

不过,目前对齐工作仍然非常复杂且具有挑战性。这个方向无论是对机器人应用,还是纯视频生成技术本身,都是非常主流且值得投入的。即便不用于机器人,视频生成技术也会持续被大公司加大投入、不断优化。

除此之外,还有其他方案。随着基础模型能力快速提升,很多潜力尚未被充分挖掘。我们发现,如果在基础模型后训练时加入机器人指令控制和空间理解训练,效果能明显提升。比如王贺老师团队展示的一些基于基础模型的机器人控制效果就非常不错。

我们公司的策略很简单:不断尝试各种新模型和新想法。今天可能有一种想法,明天可能会调整,这很正常。对于新兴技术,我认为大家都应该大胆尝试。AI领域充满了可能性,往往一个灵光一闪的创意就能带来突破。希望鼓励更多人去探索,或许下一个创新就出自你手。

问题:目前限制人形机器人规模化部署的关键技术瓶颈是什么?

王鹤:当前限制人形机器人规模化部署的核心瓶颈非常明确——机器人完成任务的能力仍然不足,能够执行的任务类型有限。然而,如果能在这些有限的技能范围内实现高度通用化,就能迅速扩展其应用场景。

银河通用目前的主要突破集中在“抓取”和“移动”能力上。只要机器人能够抓取任何物体、实现下肢的移动和上肢的伸展,并且能够准确放置物体,这三个基本能力就能支持许多实际应用场景。背后需要一个精准的目标识别与定位系统,目前我们正在通过合成数据推动这一技术的发展。

尽管解决了这些关键问题,仍有很多任务机器人暂时无法完成,但只要目标识别与定位技术得到突破,未来人形机器人市场至少能达到千亿级规模,并且在五年内实现显著成效。解决这一技术瓶颈后,凭借庞大的市场投资,机器人将解锁更多技能,迈向万亿市场的步伐。

问题:机器人为什么要做双足?除了情感价值,双足在商业上还有哪些考虑?

王兴兴:采用双足设计其实相对更为简便,最关键的是双腿能提供更强的通用性。运动能力本质上是相对较弱的AI能力。举个例子,虽然小动物、蚂蚁甚至虫子走路非常灵活,但它们的AI能力却并不强。因此,我一直认为,真正具备通用性和执行力的具身AI模型,移动能力和腿部的控制只是附加的部分。

如果机器人能够完成任务,那么腿的控制自然不会差;如果连腿的控制都做不好,说明它还未达到通用AI模型的阶段。所以,双足设计是一个自然而然的发展方向。尽管双足机器人仍然面临一些挑战,但我们公司专注于腿部设计,因此这一方向对我们来说既是顺理成章的,也是非常有趣的。

目前市场上大部分公司都在做轮式底盘,这可能导致同质化竞争,但我们认为没有必要跟风。轮式底盘在工业开阔场景和货架间穿梭时非常稳定且能耗低,但在复杂环境中的适应性较差,若底盘进一步缩小,稳定性会下降。

因此,在不同的应用场景中,机器人下半身的方案需要根据需求灵活调整。我们坚信,双足设计是未来的发展方向,因为它能覆盖上半身所有可达空间,并提供更灵活的腰部运动。然而,在不同的阶段,最适合落地应用的形态会有所不同,我们并不局限于单一方案。目前,我们同时在进行轮式底盘和人形机器人下半身控制的研究,力求在多个维度实现最优解决方案。

问题:目前,国内外专家和企业对“人形”的必要性争议不断,有人认为人形是AGI的最终载体,有人认为未来十年人形机器人的占比只有10%,银河通用如何看待人形的必要性?

王鹤:从长远来看,人形机器人无疑是要融入人类的生活中。以终局视角来看,人形机器人除了能干活、能够伸手达到1米或2米的高度,甚至能触及地面,它还能在我们的环境中灵活穿梭,除了人形,它没有其他合适的形态。

未来几年,人形机器人将从移动复合机器人不断发展,向更高的智能化和灵活性迈进。如果是一个定点机器人,它所能完成的任务仅限于眼前的工作,这样的局限性是巨大的,因此,具备移动能力是必然趋势。单纯的移动小车,只能用于承载货物,不能完成任何复杂的操作。我们目前设计的机器人,便是在一个移动平台上加入了可升降和可折叠的功能,配备两根机械臂,能够进行更灵活的操作。

对于未来十年人形机器人的占比问题,虽然与其他工业机器人相比,当前人形机器人的市场规模较小,但随着技术的进步,我预期其产值将呈现指数级增长。以当前情况来看,每年头部企业销售约1000台人形机器人,而三年后,这一数字将达到1万台,再三年后可望达到10万台。即使每台售价数十万元,人形机器人市场的总产值也将突破1000亿人民币,超越整个工业机械臂市场。

在未来十年内,我们将看到一个超越当前所有工业机器人市场规模的机器人行业。而进一步来看,十年后人形机器人市场可能会超越汽车和手机产业,成为万亿级市场。因此,虽然短期内这一市场并不会快速达到与汽车产业相当的规模,但其未来的潜力和影响力不可小觑。

问题: 既然机器人能取代很多比如养老等工作,之后的生育率会不会降低?

Rev:我认为,生育选择与机器人数量之间并不存在直接关联。然而,有一点是明确的:当社会人口增长时,GDP和生产力通常也会随之增长。社会的生产能力与人口规模直接挂钩,而目前大多数国家正面临人口缩减的趋势,这可能导致经济增长停滞,甚至出现萎缩。

如果不采取有效的应对措施,经济将不可避免地走向衰退。因此,发展机器人技术以补充“人工人口”,帮助完成各类工作并提升生产力,已成为一项紧迫的任务。这不仅有助于维持当前的生产力水平,还能推动社会的进一步发展。

问题:宇树R1定价3.99万元,大幅降低消费级人形机器人的门槛,这是否意味着硬件成本已不再是影响机器人商业化的障碍?现阶段,推动人形机器人规模化商用还存在哪些难点?

王兴兴:我一直在分享的一个观点是,虽然人形机器人价格已经大幅降低,比如宇树R1定价3.99万元,但对于人形机器人的基层商业化而言,硬件成本并非最关键的障碍。事实上,即使机器人的价格高达10万或100万,只要能实现功能,仍然可以在很多场景中应用。

目前的最大难题,实际上还是具身智能模型的泛用性和实用性。尽管硬件的成本和性能在过去几年已经取得了很大进展,但模型的适用范围和实用性仍需进一步提升,这是当前最棘手的问题。硬件已不再是限制性因素,尽管我们仍然需要在可靠性和成本控制等方面做得更好,但真正的挑战在于如何优化和完善具身智能模型,使其具备更广泛的应用能力。

问题:宇树科技曾提到人形机器人已经从当前主要应用于娱乐表演的特定场景,逐渐加速进入解放工厂和家庭生产力的应用。未来机器人在哪些场景会迎来大规模普及?

王兴兴:未来,机器人肯定会朝着更加实用的方向发展,但这一进程仍然需要时间。无论是在工业、服务业,还是家用领域,整个行业的成熟周期都相对较长。回顾过去,比如新能源车,十几年前大家也认为它们会迅速发展,但实际情况是,整体成熟度花了更多时间。

每个产业的成熟都需要较长的周期。而目前的新一代人形机器人或通用机器人技术,其实才发展了两到三年。与十几二十年前的技术相比,现在的硬件和软件已经发生了巨大变化。然而,许多人在谈论机器人时,依然习惯将过去的标准套用在今天的技术上,认为机器人行业已经发展很久,但当时的技术与现在的水平无法相提并论。尽管当前技术仍处于发展初期,整体进展还需要更多时间,但从目前的发展速度来看,我个人认为这个行业仍在快速增长,未来几年,人员和出货量有望每年翻倍,这对整个行业来说是非常有可能的。

如果未来能够推出更强大、更通用的AI大模型,机器人将能在工厂、家庭等更多通用场景中表现得更好。因为越通用的机器人,普及的难度就越小。相反,如果机器人缺乏通用性,推广将面临更大挑战。因此,我认为整体的发展周期会比较长,尤其是在家用领域。

家用机器人的最大挑战并非技术本身,而是涉及伦理、安全等高标准的要求,这使得家用机器人的普及面临更高的门槛。

问题:今年,许多人形机器人已开始在汽车工厂进行训练。机器人真正能在工厂车间投入工作还需要多长时间?还有哪些关键挑战需要解决?

王鹤:今年,许多人形机器人已开始在汽车工厂进行训练。大多数公司在工厂中部署人形机器人时,主要集中在两个领域:一是搬运,二是分拣。

在搬运方面,银河通用最近展示的机器人,其搬运速度已经接近人类水平,经过计算,每小时搬运的数量与人工相当。这一阶段已经接近实际工厂部署,我预计到今年年底,银河通用将有几十台机器人进入工厂车间实际应用。

然而,搬运只是第一步。除了搬运,机器人还需要实现码垛的闭环能力,只有搬运和码垛两个环节完成闭环,机器人才能真正胜任整个工作流程。如果只完成其中一部分,效果将大打折扣。

分拣则是更为复杂的挑战。不论是从传送带上取货,还是从货架上拿取物品,当前最大难点在于速度。尽管机器人在模型和硬件方面已有进展,但目前还难以达到熟练工人那样的速度和精度。

我们在零售机器人的应用中,涉及的物品取放与工业分拣有很多相似之处,只是零售对节拍的要求较低,拿错货的后果相对较轻。而在工业环境中,特别是汽车制造厂,一条产线停工一分钟可能带来巨大的经济损失,因此,分拣的速度和精度要求极高。

综上所述,虽然分拣技术已有明显进步,但目前还未达到人类工人的水平,仍需要进一步的技术迭代和突破。

来源:晚晚的星河日记一点号

相关推荐