摘要:年初的CES 2025可以说给今年的智能硬件产品拉开了盛大的帷幕,不少创新的智能产品纷纷登场,在AI技术的加持下展现出丰富的应用方向。虽然AI发展还有漫长的道路要走,但从云到端已经成为一个明确的发展趋势,AI世界在今年开启了属于智能硬件的下半场。
作者:李宁远
年初的CES 2025可以说给今年的智能硬件产品拉开了盛大的帷幕,不少创新的智能产品纷纷登场,在AI技术的加持下展现出丰富的应用方向。虽然AI发展还有漫长的道路要走,但从云到端已经成为一个明确的发展趋势,AI世界在今年开启了属于智能硬件的下半场。
这些登场的智能硬件产品里,机器人产品是极具代表性的一类,尤其是人形机器人可以说是展会上最能代表前沿科技成果的焦点。英伟达演讲期间14款机器人登场组成的“人形机器人军团”加上黄仁勋那句“通用机器人的ChatGPT时刻即将到来”的感叹,令人印象深刻。
从人形机器人前后的发布足迹来看,如果说之前机器人的性能革新,AI技术还隐于底层软硬件背后,更强调场景任务精密地控制执行。那么最近围绕人形机器人的性能革新,都已经不约而同地围绕一个关键宣传词——AI。
当前AI发展已经用尽了所有人类知识进行训练,现在开始使用合成数据,并将在未来 3-4 年内发展到可以完成任何认知任务。现阶段AI已经给人类生活带来了改变,未来将继续带来巨大变革,甚至可以完成任何人想要的事情。作为智能硬件的代表,机器人与AI的结合自然也更紧密,同时二者的结合也加速了机器人向落地更进一步。
作为引领人形机器人浪潮的Optimus,马斯克不久前公开表态要把特斯拉的未来押注在Optimus机器人上,2025年特斯拉的目标是制造数千台人形机器人,2026年特斯拉的人形机器人产量将增加10倍,目标为生产5万到10万个人形机器人,以后或每年翻10倍。
除了人形机器人,消费级智能机器人产品也开始涌现,如陪伴机器人、清洁机器人、商业服务机器人均开始在智能化上衍生多样功能。特别是今年年初陆续登场的众多创新AI陪伴机器人,带动了AI机器人玩具这一新赛道的发展。
在前文《CES智能终端崛起引领算力下沉,端侧AI芯片性能再革新》中曾提到过,英伟达梳理的AI技术进化路径是从 Perception 感知AI到 Generative生成式AI,再到Agentic代理型AI,最终实现具备传感与执行功能的Physical 物理型AI。
在Physical 物理型AI终极形态,任何能感知并执行操作的设备都被视为是机器人,并由AI赋能释放应用潜力。物理AI这一概念正在引领AI技术在机器人端侧的革新,通过硬件与模型的深度融合将AI从数字世界带入物理世界。
机器人借力智能模型通过多模态能力增强智能理解和决策是现今产业链正在推进的方向,从近期人形机器人发展能明显看出这个趋势。
不久前阿加犀携手高通,发布了全球首台完全基于高通SoC的端侧多模态AI大模型人形机器人——“通天晓”(Ultra Magnus)。根据官方给出的定位,这是基于终端侧生成式AI的具身智能人形机器人解决方案。
高通的QCS8550处理器为机器人动作控制、感知、决策规划和语音交互提供底层计算能力支持。同时机器人基于终端侧大语言模型技术,运用端侧语言小模型识别实现自然语音交互和用户意图理解,此外还融合了视觉感知技术对机器人运动控制与作业进行规划。
在英伟达演讲“人形机器人军团”中亮相的银河通用Galbot G1则搭载了具身抓取基础大模型。不久前银河通用也联合北京智源人工智能研究院(BAAI)及北京大学和香港大学研究人员正式发布了具身抓取基础大模型 GraspVLA。Galbot是人形机器人分支下的轮式人形机器人,即下半身采用AMR式的轮式移动地盘,不追求双足式在灵活移动上的性能,聚焦于上半身的功能执行。
这里不过多展开二者的形态之争,轮式的优势在于从目前发展阶段的商业化角度来看,轮式人形机器人设计、制造成本会相对较低一些,轮式移动底盘已经相当成熟比双足的运动控制简单很多成本也更低,在商业化上可能先取得进展。聚焦在上肢的功能执行,Galbot的模型层通过仿真合成数据自研合成千万级的场景数据以及海量抓取和导航数据来掌握泛化闭环抓取能力,达成基础的感知操作模型。
去年刚刚成立的灵初智能不久前也发布首个基于强化学习(RL)的具身模型 Psi R0。该模型也是感知操作模型,支持双灵巧手将多个技能串联进行复杂操作,还可以实现跨物品、跨场景级别的泛化。
不止是2B类机器人在融合模型开始智能化升级,在许多消费类机器人产品上,这一趋势发展得同样迅速,特别以语言与感知模型与终端侧的结合居多。
大象机器人开发陪伴类机器人以动物外观作为外形设计,搭载AI大模型,理解人类语意和情感判别,提供情绪价值为主的智能交互。
TCL近期推出的的分体式智能家居陪伴机器人Ai Me基于AI大模型不仅能与人进行多模态的自然交互,提供温暖的情感陪伴和拟人互动,还能智能移动并自动捕捉家庭美好瞬间。此外,Ai Me还会通过与用户的互动不断学习和适应家庭成员行为习惯控制家居设备,在陪伴等情绪价值之外兼顾了家居智能中控的功能,功能发散得越来越多样。
在清洁家电深耕多年的云鲸智能同样在向机器人+模型的具身智能方向转变,推出的逍遥系列已经是具身智能雏形,通过大模型下达清洁指令,机器人依靠自己的语义理解去行动、识别、完成清洁。
消费类机器人尤其是提供情绪价值的陪伴类机器人有着很强的玩具属性,在模型技术的发展下这些机器人从简单的互动设备进化到集教育、陪伴和娱乐功能于一身。这类机器人和手办、玩偶以及“谷子”一样,能在情绪上给予消费者很高价值反馈,有着很高的市场接受度高,市场空间正在打开。
其实将视野再放大一些,很多创新的实体终端设备都开始搭载AI技术来迭代功能,在终端设备与终端侧AI的深度融合下,未来手机、PC,家电、汽车、玩具等等设备未尝不是另一种形态的机器人,这些实体的智能终端也正是物理AI的愿景。
在这些终端市场的发展上,终端侧AI也正朝着多模态融合、模型小型化与适配等方向发展,与终端硬件配置协同更新。可以说正是因为模型能力已演进到一定程度能在终端侧赋能硬件,才让物理AI变得可行。
Physical物理型AI在基础硬件上的需求提升自然是全方位的,聚焦在模型上,硬件配置完备机器人能否在不确定的环境下正常运行,决定因素之一是具不具备泛化决策能力的“大脑”。建立起对空间与物理过程进行精准建模、理解与推理决策的“世界模型”是实现具身智能的前提。
以NVIDIA在CES 2025上面向物理AI开发发布的最新“世界基础模型”——Cosmos为代表,Cosmos是一套“用于物理感知视频生成的开放式扩散和自回归 Transformer 模型”,拥有一系列开放的预训练世界基础模型,可以预测和生成虚拟环境未来状态的物理感知视频的神经网络。该世界基础模型通过生成合成数据,使用包括文本、图像、视频和运动在内的输入数据来生成和仿真虚拟世界,以准确模拟场景中物体的空间关系及其物理交互。
应该说在当前的AI架构和模型范式下,通过生成式物理仿真,捕捉现实世界时空四维镜像,从而获取大量的物理数据是实现具身智能的关键。和语言大模型不一样,机器人世界模型所需的训练数据需要精确标定来进行学习和泛化,很难从现实世界完成庞大的采集量且采集后多模态数据很难标定,度量不一这些数据就无法被模型利用。
机器人模型从Sim到Real也就成了更有效率的一条路,生成大量可控的基于物理学的合成数据,仿真虚拟世界以准确模拟场景中物体的空间关系及其物理交互。在物理AI模型部署到现实世界之前进行仿真测试和调试,以及在虚拟环境中进行强化学习以加速AI智能体学习。然后通过部分真实数据做对齐,进一步提高机器人执行准确性,最终实现物理AI愿景。
当然,实现真正意义上的Physical物理型AI,这些世界模型的建立与应用需要更多的计算能力和海量数据的学习与训练。除了通向物理AI终局的世界模型,终端侧大模型以及细分小模型的应用已经在持续推动终端设备智能化进程,让其拥有感知环境变化,依据观测数据优化决策,从而更精确地进行物理交互的能力。而未来更全面更真实世界模型与终端机器人的融合将进一步将AI向物理AI终局推动。
世界模型与下沉到端侧的语言、感知、操作模型共同赋能下物理Al将不断赋予“以机器人为代表的终端物理设备”自我适应和深度决策能力,使其在真实世界中具备更强的动手与动脑能力。
这里强调了是“以机器人为代表的终端物理设备”,物理AI的终局并不一定是现阶段我们认知的机器人,尤其不一定是人形。物理形态只是载体,在AI的加持下,设备外形设计适配具体任务的执行即可。在终端设备与终端侧AI的深度融合下,未来家电设备、自动汽车等设备又何尝不是另一种形态的机器人,这些实体的智能终端也正是物理AI的愿景。
写在最后世界基础模型提供物理世界知识和高仿真数据,奠定泛化基础;端侧模型经细化、压缩及多模态融合优化,适配终端侧设备算力需求;加之基础硬件如专用计算芯片、AI加速器性能的提升,物理AI时代正在慢慢变为现实。
来源:物联网智库