摘要:生成式AI时代,Arm架构的升级之路是从“更好地支持AI”走向“原生的AI能力”。其全新推出的Arm Lumex计算子系统(CSS)平台,正是这一战略的核心体现。它通过系统级的协同设计与软硬件深度融合,显著加速大模型从云端向终端应用下沉,真正让每一个设备都具备
生成式AI时代,Arm架构的升级之路是从“更好地支持AI”走向“原生的AI能力”。其全新推出的Arm Lumex计算子系统(CSS)平台,正是这一战略的核心体现。它通过系统级的协同设计与软硬件深度融合,显著加速大模型从云端向终端应用下沉,真正让每一个设备都具备原生AI能力。“真”端侧大模型正在成为现实,并有望全面引爆下一代移动终端的智能推理需求。日前举办的Arm Unlocked 2025技术大会上,Lumex CSS平台作为面向旗舰智能终端与下一代PC的AI原生计算底座,受到产业高度关注。该平台集成搭载第二代可伸缩矩阵扩展(SME2)技术的高性能Arm CPU、全新Mali GPU及系统IP,不仅大幅提升AI设备的推出效率,更可支持桌面级游戏画质、实时多模态翻译、情境感知助手和高度个性化的端侧应用。
为何是Lumex?Arm 的平台级战略跃迁在端侧AI爆发前夜,Arm 就已洞察到:单一IP的性能提升无法满足大模型时代对算力、能效与开发效率的系统性要求。碎片化的软硬件适配、冗长的开发周期,以及端侧推理的内存与延迟瓶颈,正成为产业向“真”端侧大模型智能演进的核心障碍。 早在2019,Arm就提出要在共同架构下推动全面计算,旨在解决单个IP与碎片化解决方案在优化问题时面临的重大挑战,标志着Arm对其IP设计与理念的根本性转变,也是Arm从IP提供商转型为计算平台公司的重要一步。这意味着,在解决系统创新设计挑战时,Arm需要将关注焦点逐渐从单一的产品演进,转化为以应用市场为导向的系统解决方案,对硬件IP、物理IP、软件、工具、以及彼此间的协作进行全面优化。 此后几年来,Arm不断推进“全面计算”战略的落地实施,CSS(计算子系统)就是一个重要的产品形态,它集成CPU、GPU、NPU、ISP等关键计算组件,以及SoC设计流程中所需的其他硬件IP、物理IP、软件工具等,成为行业面向特定市场(如移动、基础设施、汽车、物联网等)快速创新、实现高度智能化升级的关键技术支撑。 不过,随着端侧 AI 变得更加先进和成熟,移动芯片面临的压力仍在不断加剧:首先,新一代旗舰移动设备的推出速度在不断加速,而这意味着芯片供应商和 OEM 厂商必须在更紧迫的时间内实现创新,几乎没有出错余地;其次,在面积和散热受限的移动设备尺寸条件下,要实现为保持AI性能而采用的先进封装技术,是一项极具挑战的任务;与此同时,向3nm等更小工艺节点的发展也带来了复杂的设计难题。 Arm终端事业部产品管理副总裁James McNiven指出,这也正是Arm持续优化集成平台的原因,Arm Lumex就是新的面向智能终端专用的 CSS 平台,旨在为“AI优先”时代重新设计,满足旗舰移动设备和PC上持续增长的端侧 AI 体验需求,加速产品快速上新。Arm Lumex是移动计算设计思路的一次重要变革,它通过全新的协同设计和优化,重新设计了模块化且高度可配置的平台。这将推动终端AI从“功能点”升级为“基础能力”,渗透到每个角落。
Arm 高级副总裁兼终端事业部总经理 Chris Bergey
从产品布局来看,Arm C1系列CPU展现出了极强的架构灵活性与市场适配能力,全面覆盖从旗舰到穿戴设备的多层级需求,不论是旗舰、高端智能手机、中端移动设备,还是可穿戴设备,C1 CPU 集群均能提供灵活配置:
C1-Ultra(旗舰): 单线程峰值性能较前代提升高达25%,专为严苛AI任务设计。C1-Premium(次旗舰): 在保持同等性能的同时,核心面积比C1-Ultra缩小35%,实现更好的面积效率。C1-Pro(持久高能效): 在相同性能下能效提高达12%,提供出色的持续性能。C1-Nano(极致能效): 专为紧凑设备设计,能效提升26%,核心面积缩小2%。通过全栈技术协同与高度灵活的产品组合,Arm不仅夯实了在端侧AI计算市场的领导地位,更真正为产业界开辟出端侧AI规模化部署的全新市场空间。
Mali G1-Ultra:图形与AI的融合进化Arm GPU在图形和AI方面的创新始终围绕性能、能效与沉浸式体验三大核心持续突破。从2021年的Mali-G710引入高计算密度与命令流前端,到2023年Immortalis-G720通过延迟顶点着色大幅降低带宽占用,再到2024年Immortalis-G925实现像素级隐藏面消除与光线追踪微映射,每一代架构均在计算吞吐、生成和实时渲染技术上实现显著跃升。 同时,Arm积极整合AI能力,如MMUL指令支持矩阵计算、Arm ASR(精度超分)基于着色器实现高效升频,逐步构建起可在移动端高效执行复杂图形与AI任务的统一计算基础。 这一连贯的技术演进不仅体现出Arm在移动GPU领域逐年加码的算力与能效优势,更反映出其致力于将端侧图形与AI融合推向新阶段的战略意图——通过硬件加速光线追踪、AI超分及异构计算等特性,为下一代移动设备带来主机级的视觉体验与更强大的端侧智能。此次在Lumex平台中,Arm Mali G1-Ultra GPU成为一大核心突破。它不仅是移动GPU的性能巅峰,更是首款真正为端侧AI与高逼真图形并行而设计的视觉处理单元。 Mali G1-Ultra GPU引入了新一代光线追踪单元RTUv2,从而在移动端实现了硬件级光追加速,使得性能提升高达2倍,并带来40%的帧率提升,使手游首次逼近桌面级的视觉体验。同时在《原神》《崩坏:星穹铁道》等重度游戏中实现超过15%的综合性能提升。 与前一代 RTUv1 相比,RTUv2 更加智能,且采用单光线模型,大幅增强对非一致性光线的支持,并成为完全独立的硬件单元。这些设计变化带来了显著的能效与性能优势。例如,其模块化架构与独立电源域使得 RTUv2 可在设备空闲时断电,从而为其他任务节省电力。这为解决移动端实时光追的功耗瓶颈提供了一个精巧的解决方案,从而实现了帧率高达40%的提升和两倍的光追性能,让桌面级的光照、反射与阴影效果在手机上的长时间运行成为可能。
更重要的是,其新增的矩阵乘法单元(MMUL)FP16指令,使AI推理性能相比前代提升20%,在某些视觉类AI任务中甚至实现104%的性能跃升。借助扩展的L2缓存和优化内存调度,Mali G1-Ultra可高效并行处理图形渲染与AI推理,彻底打破传统GPU在异构计算中的瓶颈,为实时AI视觉、动态超分、情境感知渲染等融合体验奠定基础。 与CPU家族产品矩阵类似,除旗舰级Mali G1-Ultra 外,GPU平台还提供Mali G1-Premium与Mali G1-Pro,针对硬件资源受限的中端设备优化,在保证图形性能的同时,实现更优的能效比。
生态合力,走向“真”端侧智能Arm Lumex 的推出,标志着端侧AI正式进入“原生时代”——终端设备得以高效、低延迟地运行大模型,彻底摆脱对云端依赖带来的网络延迟、成本与隐私隐患。 为帮助开发者降低应用门槛,Arm Lumex 通过 KleidiAI 实现了与 PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN 及微软 ONNX Runtime 等主流框架的深度集成。开发者无需修改代码即可自动调用 SME2 加速能力,大幅降低端侧AI应用的开发与部署门槛。 这些能力正快速获得全球头部科技企业的认可,多项关键进展凸显出 Arm Lumex 的影响力和可迁移性:Google 多款核心应用(包括 Gmail、YouTube 和 Google Photos)已全面支持 SME2,可于搭载 Arm Lumex 的设备中无缝运行;跨平台兼容性显著增强,基于安卓优化的AI功能可无缝迁移至 Arm 架构的 Windows 及其他操作系统;支付宝等合作伙伴率先完成验证,基于 SME2 实现终端大语言模型(LLM)的高效推理,为行业落地树立标杆。其中,Arm、支付宝、vivo这个三方联动应用非常具有代表性。作为一款被频繁使用的超级应用程序,支付宝需适配多样化的智能手机设备。而基于Arm Lumex新硬件特性的引入,对其提升端侧模型推理性能具有重要意义。 据了解,支付宝的端侧AI引擎xNN 每日执行超过 100 亿次推理任务,通过将Arm的 KleidiAI与SME2技术集成至 xNN,支付宝实现了更高效、低功耗的推理表现。在vivo 新一代旗舰智能手机上,支付宝完成了基于Arm SME2 技术的大语言模型推理验证。结果显示,在预填充 (prefill) 与解码 (decode) 阶段,性能分别实现了超过40%和25%的提升,充分体现SME2在AI推理全流程中的加速效能。 除此之外,Apple、三星、MediaTek 等领军企业也正积极整合 AI 加速能力,推动端侧AI向更高效、更实时迈进:Apple 将其作为“Apple Intelligence”的核心支撑;三星与 MediaTek 则结合 Google Gemini,优化翻译、摘要和个人助手等实时AI体验。 面向这些广泛需求,Arm提供高度灵活的Lumex集成方案:厂商可直接采用 Arm 经过物理实现的平台方案,显著缩短产品上市时间;也可基于寄存器传输级(RTL)设计自主配置,实现差异化与硬化处理,满足不同市场的需求。
写在最后从IP到平台,Arm不断引领端侧AI的架构变革。Arm Lumex是生成式AI时代,Arm提供平台级智能计算底座的又一次战略跃迁。从SME2赋予CPU前所未有的AI能力,到跨栈协同的KleidiAI软件生态,Arm 正重新定义终端AI智能的底层架构——将AI从“附加功能”彻底转变为“内生基因”。 而这一转变,不仅奠定了Arm在AI计算新十年的核心地位,更真正为业界厘清了端侧AI大模型规模落地的技术路径与商业范式,这将深刻重构端侧AI的产业范式,实现智能终端从“兼容AI”向“AI原生创新”的时代跨越。来源:与非网