机器人可能没你想得那么厉害:从Intel大小脑融合思路谈起

360影视 动漫周边 2025-04-27 11:17 2

摘要:“机器人”和“AI”这两种技术可能有个共性,就是都在过去这几十年里,曾经历过不同轮次的发展。而这一波“机器人”之所以大火,当然不单是因为宇树机器人登上春晚舞台,而是AI作为一种让行业看到开发范式转变的技术,可能有机会让机器人也随之起飞;再加上感知技术、仿真平台

半导体工程师 2025年04月27日 11:04 北京

“机器人”和“AI”这两种技术可能有个共性,就是都在过去这几十年里,曾经历过不同轮次的发展。而这一波“机器人”之所以大火,当然不单是因为宇树机器人登上春晚舞台,而是AI作为一种让行业看到开发范式转变的技术,可能有机会让机器人也随之起飞;再加上感知技术、仿真平台的日益成熟,都为新时代的机器人发展提供了技术基础。

传统机器人实则已经在工业自动化、零售等领域应用,但和现在我们常说的“具身智能”“Physical AI”还是不同。那么到底有什么不同?

最近的Intel具身智能解决方案推介会上,严羽(英特尔中国边缘计算事业部机器人产品高级研发工程师)就提到,相比于传统机器人借助传统算法做运动控制,具身智能“更多要面向非结构化环境”,还“需要与人有更多的交互”——这是需求层面的。

而在结合AI技术以后,熊蓉(浙江人形机器人创新中心首席科学家、浙江大学求是特聘教授)在推介会上说,具身智能可以“减少对于专家知识和经验的依赖”;同时,“如果做到语言、视觉、行为的充分融合”,“还能降低对感知准确性的依赖”。

所以李岩(英特尔中国边缘计算事业部行业解决方案高级总监)说具身智能是一块全新的“市场蛋糕”。从商业逻辑来看,在行业市场已经应用了不少机器人的情况下,为什么我们还需要具身智能?

抛开“人类幸福生活”“劳动力短缺”之类的说辞,当机器人具备更大程度的通用性,在更多场景“取代原有专用机器人”,则有了更广阔的市场范围和场景。很多工作“传统机器人也能做,但一个人干的活儿需要3-5个传统机器人才能完成。现代生产、柔性制造变化还需要专家不断钻研和编程。这造成了工业等应用的成本陡增。”

这些都是具身智能具备市场前景的基础。在此基础上,我们要探讨的就是具体该怎么做的问题了。即便现在绝大部分市场参与者探讨的,都是机器人的某个子系统。要从高层抽象来理解问题,我们更应该看的是那些做机器人大脑的企业是怎么做的——因为当大脑确定,才谈得上生态及周边,和下属的各部分子系统。

在具身智能“大脑”方向上,此前我们了解最多的就是NVIDIA的“三台计算机”解决方案了,当然也包括部署到机器人本体的大脑Jetson。但实际上,在传统行业机器人的运动控制领域,已经占据相当市场份额的恰恰是Intel的CPU;而且不要忘记现在Intel也有自己的GPU, NPU产品——至少从直觉来看,可能Intel在机器人领域还更有从全局把握的能力和条件。

所以不难理解,Intel在这次具身智能解决方案推介会上主打的大方向思路,就是大小脑融合。借此机会,我们来聊聊所谓的“大小脑融合”究竟是个什么样的策略,并借此也了解一下在传统机器人市场有一定基础的Intel,进入到具身智能时代又有什么样的打算和布局。这场推介会也让我们看到了具身智能发展的另一面。

机器人的发展阶段,和尚存问题

如文首所述,“具身智能”“大模型”这类新事物出现之前,就已经有机器人乃至人形机器人了。但传统的机器人研究,是从感知到驱动执行,切分成一系列问题,对每个问题做建模,然后寻求合适的数学方法求解。这种基于传统算法、应用于工业自动化的机器人“我们称之为第一阶段”。马小龙(英特尔中国区销售与市场事业部高级技术销售)在主题演讲中说。

而“第二阶段”就以LLM大语言模型的出现为标志,“用大语言模型(LLM)和视觉大模型(VLM)来增强具身智能的泛化能力。”“大语言模型可以直接实现机器人的交互、任务的编排;视觉大模型则提升机器人对环境的理解能力。”马小龙说,“我们看到,去年已经量产、相对成熟的人形机器人都采用这样的架构。”

进入到第三阶段,“学术界、产业界开始投入端到端模型。”相较于“第二阶段的泛化只在语言和视觉层面,把操作、运动也加入进来,就出现了视觉动作大模型和视觉语言动作大模型(VLAM)”。

之所以叫“端到端模型”,是因为这一阶段行业正尝试从过去分阶段或分层的方式解决问题,到现在倾向于“用一个模型来解决所有问题”。NVIDIA、谷歌等企业都在做“一体式架构”和VLAM的尝试——虽然在遭遇挑战后,又看到部分企业采用分层架构+联合训练的方式来解决问题。

三个阶段的演进基本可以视作,开发范式越来越走向数据驱动。端到端大模型似乎是相当符合直觉的未来方向。但推介会上的所有专家都认为,这种方案存在诸多落地挑战,例如速度、精度都无法满足实际应用的要求——过去一年有关VLAM端到端模型是否为机器人、汽车最终归宿的探讨还是相当多的。

可能很多读者看到春晚机器人手脚并用地跳舞,有企业演示人形机器人叠衣服、分拣电池,加上NVIDIA的“三台计算机”理论、基于模仿学习映射+强化学习逻辑如此之通顺,各种大模型技术发展如此迅猛,就会认为机器人现在理应成熟,很快要走入寻常百姓家了。

但实际上,瞿好聪(英特尔中国边缘计算事业部高级产品经理)在介绍Intel对机器人市场的调研时就提及现在的具身智能要上产线,“比如做测试插个dongle”或者“给平板贴膜撕膜”,都存在很大挑战。Intel自己实践模仿学习,也发现实际应用中的准确率很低。“我们和机器人厂商、终端客户去聊,都发现技术和落地之间存在很大的鸿沟。”

熊蓉在谈人形机器人目前遭遇的挑战时,就特别提到“虽然现在的机器人能跑能跳,真正能作业的却还很少”。比如特斯拉的机器人作业“很大程度依赖远程遥控”,“波士顿动力展示的搬运能力,底层仍然是MPC+WBC实现感知与行为的结合,可靠性和鲁棒性也存在问题”。“很多人形机器人站着操作,甚至都站不稳。”

她提到研究中,人形机器人真正用于作业时遭遇的几大挑战,我们认为是有借鉴价值的——虽然人形机器人并不代表所有类型的具身智能。

(1)人形机器人运动学习偏复现/遥控,在有负载的情况下,作业臂的上肢大幅运动、负载作业、智能移动作业表现都待提升,尤其是作业精度要求;(2)对于VLAM这类端到端模型研究方向,更多局限在小范围场景行为复现,“动作类别少,缺少力触信息融合、工具使用等”,在熊蓉看来,现在的研究更多关注了机器人的“智能”水平,却鲜有针对工业作业“技能”水平提升的。

(3)缺数据。现在常见的方式基于仿真平台,例如通过遥操作,如VR眼镜、手柄等方式让机器人去学习。关注电子工程专辑过往机器人报道文章的读者应该知道,像Omnivision这样的虚拟平台已经具备相当高的仿真水平。

但其中仍然存在相较于真实世界的不同,比如熊蓉特别提到的“力触”(如机械臂在深筐抓取时拿起某个物体用多大的力——通常遥操作通常没有力反馈)。即便强如Isaac SIM,也需要解决我们常说的Sim2Real的问题。

和很多人想象的不同,谷歌Gemini机器人经过了长达12个月的遥操作数据收集,涉及设备、人员、标注的成本都很高,且异构迁移都也还存在挑战。

(4)前文已经提到的泛化与通用,真正在作业过程中还需要高精度、高可靠和高效率。“智能技术引入,现在面临的问题是可泛化、自适应性能力在提升,但精度、效率在下降。”(5)视-力-触传感器,和端侧计算控制器和操作执行器需要提升。

从总体上来看,或许要像许多人预想的那样:人形机器人进入寻常人家做家政这类场景,可能离我们还有段距离。确定性、安全性、成本都是问题。

大小脑融合,及其本质

上面这些挑战是让我们真正看到,即便在AI高速发展、AI与机器人结合的理论和逻辑相对充分的情况下,落到实处仍旧存在的问题的。虽说机器人领域内不同市场参与者看到的挑战是有差别、或不同角度的,但必然离不开感知、计算、控制、执行。所有的问题和挑战,也需要行业各环节参与者共同努力,才有机会解决。

这大概也是不少具身智能机器人仍停留在科研和学习应用的原因,所以我们也才说具身智能目前处在发展早期。Intel作为CPU、GPU、NPU等处理器芯片供应商,更关注的自然在于计算与控制。回看马小龙总结机器人发展的不同阶段这张PPT,不同板块采用不同的颜色,也是为了很大程度区分传统意义上,这些负载都跑在哪些处理器上。

深蓝色表示通常由CPU负责,紫色则表示需要用GPU加速。从Intel的三阶段划分解读,机器人正从以蓝色板块CPU计算为主,发展到当前CPU+GPU并重的阶段,甚至也可能需要浅蓝色“云脑”的辅助。而Intel所谓的“大脑”“小脑”也就很好理解了,如果硬要从处理器类型角度切分,可以相对狭义地把小脑理解为CPU或运动控制器,大脑理解为包含GPU与其他加速器等高并行计算能力的处理器。

小脑的工作在于运行底层操作系统、实时运动控制,基本要求是反应快、实时性强;而大脑的工作包括感知世界,接收各种传感器的数据,并基于算法做处理和后续的运动规划决策——可能是传统计算机视觉算法,也可能是AI大模型。

从严羽的主题演讲来看,说CPU是小脑、iGPU/NPU是大脑,实则是不准确的;比如他列举的视觉伺服应用上,酷睿Ultra的CPU部分,仅有1个E-core负责实时运动控制,其他CPU核心也和iGPU一起,都通过OpenVINO加速;当代CPU扩展指令也能做运动规划、AI推理加速等工作;

马小龙说传统的大小脑方案,小脑部分就是Intel的酷睿和灵动(Atom)处理器——市面上常见酷睿12、13代移动处理器;而现有解决方案中的大脑,常见NVIDIA Jetson Orin——前不久我们还上手体验过Jetson Orin Nano。大脑和小脑则藉由网络通信。这在Intel看来,“不是理想方案”,而是“无奈之举”。

实际上熊蓉谈到的一些挑战中,如精度、效率,以及端侧计算控制器待提升等问题,可能部分就是由大小脑分开的现状导致的。因为“大小脑双系统方案”带来的问题包括更高的硬件成本、功耗和尺寸、延迟、研发成本;在更具体的问题上,比如熊蓉还提到大小脑分开“难做传感器融合”,尤其当传感数据量很大时。

当大小脑通信要跨芯片、跨系统,的确会带来诸多负面影响——推介会现场讨论最多的是延迟和带宽问题:尤其实时性不理想时,都可能导致低精度、摔倒之类的问题发生。

这其实是个很符合直觉的思路:举例来说,“不管机器人是基于视觉的强化学习方案,还是基于模仿学习或大模型方案;视觉和运动控制都需要紧密衔接,视觉和运动控制需要低延迟的数据交互”——严羽谈道,“所以未来需要融合的方案。”

不过这里我们想特别提及的,是严羽在采访环节提到的,开发者面向大小脑分离的双系统时,需要“维护两套不同的代码,控制代码可能跑在Arm CPU上,也可以跑在x86 CPU上”——我们知道Jetson Orin作为SoC,里面带性能较弱的Arm CPU;加上“AI算法又要跑在GPU或其他模块”,这才是开发成本提升的关键。

所以Intel倡导的“大小脑融合”,就是全套由Intel提供的一体化计算方案,或者说加强了AI算力的酷睿Ultra处理器——其上既有CPU,也有GPU, NPU等计算单元,以“单系统”达成大小脑的“融合”。开发者若需要更高的AI算力,也能借助Intel Arc独显做算力扩展——从开发生态角度来看,相比独立的Jetson Orin是也更为统一的。

这些对开发者而言,的确是需要关注的核心问题。不过从商业逻辑角度看,透过现象看本质:我们认为,Intel推的“大小脑融合”理念,可能体现了Intel当下发展策略的两个关键(1)Intel宣传了很久的XPU策略:酷睿Ultra在PC和边缘市场,就在主打CPU+GPU+NPU组合,且强调AI算力;

(2)Intel要发展自家的AI生态,包括oneAPI, OpenVINO, IPEX-LLM都是其中的核心组成部分。而Jetson Orin是CUDA生态内的“大脑”,这显然不会是Intel期望看到的——这是Intel的视角。从开发者的角度来看,如果选择了Intel的小脑,那么同样选择Intel的大脑,就可以在统一的软件平台上去开发,从而降低开发和部署成本。

大小脑融合方案详解

如果你对Intel的AI PC、边缘、汽车生态发展思路有了解,自然就能立刻领会,Intel面向机器人所推的大小脑融合方案具体是什么样了。包括Intel在推介会上提的,面向机器人“构建开放平台”、与其他软硬件、ISV合作伙伴合作的思路,都和Intel现如今的其他业务发展方向如出一辙——有兴趣的读者可以去看看去年我们谈过的Intel的企业AI战略。

Intel针对机器人平台所推芯片主要是酷睿Ultra,具体为Arrow Lake-H——对PC处理器熟悉的读者应当对Arrow Lake-H不会陌生,当它面向边缘和机器人时整体思路也类似:除了新架构的CPU之外,iGPU基于Xe-LPG+架构,INT8算力77 TOPS;NPU 3则在2W功耗下就有13 TOPS算力;XPU的AI总算力96 TOPS。

对这颗芯片配置详情感兴趣的读者,可以去阅读今年CES期间我们撰写Arrow Lake的介绍文章;至于涉及实时控制的相关数据(如CPU提供

如果寻求算力的进一步扩展,则在同生态下还可以搭配Intel Arc B系列独显——去年末电子工程专辑也上手了Intel面向PC平台推的Arc B580显卡,剖析了二代Battlemage和Xe2架构。面向机器人时,Intel主推的是Arc B570,AI理论峰值算力约在203 TOPS水平线上。

搭载Arrow Lake-H的具身智能参考方案如上图所示,除了Arrow Lake-H芯片外,这块板子有个MxM插槽,用于扩展Arc独显;配套独立摄像头转接板,支持MIPI/GMSL摄像头;IO载板扩展各类接口;

软件与AI部分:提供包括BSP、算法模型、加速库和各类参考代码;针对实时运动控制,也有实时调优的BKC(Best-known-Configuration)、RT Linux内核、EtherCAT IgH主站协议栈示例;面向CPU提供传统视觉和运动规划的优化;面向iGPU和NPU,则加速基于深度学习、大模型的感知和操作等。

软件和开发生态仍然是格外值得一提的,Intel的OpenVINO、IPEX-LLM这些做AI推理部署和性能优化的工具、oneAPI统一框架,应当都不需要再多提了。当特别面向具身智能时,软件全栈结构和对应的支持情况如下图所示:

ROS再往上层仍然基于颜色标注了不同板块对不同处理器的需求——虽然看起来在具身智能的这套结构中,Arrow Lake-H的NPU利用率还是低了点儿。Intel划定,机器人跑LVM, VLA这类大模型时,可能就需要搭配Arc独显算力了。至于对AI算力达到上千TOPS的需求时,则Intel认为可配合外部云脑或边缘侧大脑...

其实这张图也能看出大小脑融合、XPU或者统一架构的价值:起码理论上,这套方案是更加优雅的。不知道几年前Intel在对外宣传XPU策略时,有没有想过它在具身智能上的巨大价值。毕竟当机器人与大模型挂钩,乃至未来可能真正全面利用端到端大模型,芯片企业间拼的还是生态。

至于大方向上,这代芯片及解决方案具体怎么选、怎么替代以往的传统方案,下面这张PPT是相对清晰的:

似乎在Intel的规划中,面向具身智能的这一代酷睿Ultra处理器也部分取代了更早的、单纯做运动控制的灵动/酷睿处理器——进化出具身智能、具备操作泛化能力及交互能力的工业机器人,可以用酷睿Ultra的XPU算力或“大小脑融合”来解决问题;至于现在在用大小脑分开方案、需要更强AI算力的(酷睿 + Jetson),则可考虑在酷睿Ultra处理器的基础上,加入Arc独显。

受限于篇幅,推介会上谈到的更多实践、开发相关的内容,本文不做展开。这部分最后给出两个更具体的例子——基于模仿学习的双臂操作和视觉SLAM,作为思路开拓之用,供参考:

“无论是把传统运控小脑升级为AI运控小脑,传统机器人的智能化改造,还是人形机器人的大小脑融合需求,都可以用酷睿Ultra来实现。”马小龙在总结中说。李岩则特别斩钉截铁地表示,“从多系统到单系统的整合,是未来人形机器人发展的必然趋势。”

更多挑战和具身智能的未来

当然大小脑融合思路尝试解决的,也只是具身智能发展过程中的一小撮问题。参与推介会讨论的所有专家普遍赞同,具身智能仍处在发展早期,熊蓉甚至特别提到:人形机器人、具身智能、行为大模型、空间智能——这些所有与机器人相关的热门技术都处在起步阶段,“我们正经历快速发展期,现在面临的是落地的挑战。”

比较有趣的是,推介会现场信步科技基于Arrow Lake-H和Intel的具身智能方案发布了HB03具身智能开发平台,叶志辉(信步科技副总经理)提到HB03选择了非标准连接器,“因为目前尚无适用的标准”,“由于具身智能是较新的形态,不像工业控制那样有着成熟的应用场景,其形态也尚未统一。”

熊蓉也在谈到相关具身智能的标准话题时说,即便针对人形机器人发起团体标准的机构很多,国标也有提案,但主要集中在技术要求方面,“我认为这些都尚未触及真正的核心问题”,包括安全标准。所以具身智能“距离落地,还需要经历技术快速发展期”;“落地涉及诸多因素,因为具身智能系统本身非常复杂”,不仅需要标准,“还需要生态系统”,“也需要资本耐心投入”。

在我们看来,具身智能发展的不确定性,体现在即便是当下参与其中的业内人士,也并不确定AI技术最终将以何种形式融入到机器人这个庞大系统中。前文提到的“三个阶段”也并不是后一个阶段就替代了前一个阶段的关系——在这样的新兴行业里,通常技术和市场总是反复碰壁,并在曲折中前行。

不过从文首提及具身智能可以发展起来的商业赚钱逻辑来看,具身智能、机器人的未来前景大概又仍是值得肯定的。瞿好聪列举研究机构的数据,虽然2024年人形机器人在中国的销量约为2400台,对2030年30万台的销量预期也下调到了16.2万台(数据来源:高工机器人产业研究所);

但需要看到2024年新增了29.4万台手臂机器人,2023年中国工业机器人保有量180万台(数据来源:MIR);此外2024年AGV/AMR的销量约在13.9万台(数据来源:CMR)——其中的不少工业机器人厂商都在探索令传统机器人实现具身智能化的可能性,则在技术未来走向成熟的前提下,智能化升级的空间是巨大的。自工业走向服务器,再走向消费市场,并全面起量,可能是具身智能发展的未来路径。

而且从技术层面我们也要看到业界的努力,比如熊蓉所在的浙江人形机器人创新中心就在前述的诸多技术挑战中做出了不少努力,比如;场景可泛化的Real2Sim2Real训练通道、多行为联合学习的混杂场景/长序列行为规划等等…具身智能领域和AI技术一样,或许每周都有突破性技术产出。

最后谈谈在我们看来,Intel于机器人市场的机会。其一是Intel在传统机器人的运动控制领域有长期积累——这对Intel发展机器人生态有着相当大的价值;其二则在于Intel在其他领域建立起的AI生态及全栈技术,也可以为边缘和机器人技术所用;

另外,李岩还谈到,Intel在具身智能领域“拥有健康、庞大的ODM产业群和硬件产业群”;也在周边生态上“与MCU、传感器等众多厂商”一起合作,“确保周边部件的完整性”;加上“软件和服务”层面,Intel的开放与合作思路;以及Intel“在中国本土拥有强大团队”,在全球绝大部分工业机器人率先在中国落地的情况下,这些也都是巨大的资源优势。

只不过对具身智能市场虎视眈眈的参与者不少:如NVIDIA就是Intel的最大竞争者——尤以其在AI技术上的积累为优势。诚然如所有专家说的那样,在标准都没有形成、技术路径也没有完全摸索到位的情况下,未来的变数还有很多;提前布局并做好技术储备仍然是Intel这类大企业的常规思路——大小脑融合就是个很好的例子。

来源于电子工程专辑,作者黄烨锋

半导体工程师半导体行业动态,半导体经验分享,半导体成果交流,半导体信息发布。半导体培训/会议/活动,半导体社群,半导体从业者职业规划,芯片工程师成长历程。283篇原创内容公众号

来源:芯片测试赵工

相关推荐