摘要:Arm 在本次大会上深入探讨了 AI 对计算的需求,并分享了如何通过硬件、软件、生态系统三大核心更好地把握 AI 的发展机遇,在场与会者也共同探讨了基于 Arm 的技术创新和 AI 发展趋势。
今天下午,一年一度的 Arm Tech Symposia 年度技术大会在深圳圆满结束。
Arm 在本次大会上深入探讨了 AI 对计算的需求,并分享了如何通过硬件、软件、生态系统三大核心更好地把握 AI 的发展机遇,在场与会者也共同探讨了基于 Arm 的技术创新和 AI 发展趋势。
Arm 终端事业部产品管理副总裁 James McNiven 在深圳场的大会主题演讲中强调,Armv9 作为 Arm 最新的技术架构,推出伊始便是为支撑 AI 计算而设计,并持续迭代更新,通过 SVE、SVE2、SME 等关键技术,Arm 以架构创新和强大的软硬件协同能力不断优化移动端 AI 体验,赋能开发者实现卓越的 AI 性能。
在本次大会中,KleidiAI 软件是值得关注的亮点之一。
它实现了与主流 AI 框架的深度集成,能够为开发者提供丝滑的开发体验;当与 Arm CSS 搭配使用时,KleidiAI 通过整合 Neon、SVE2 和 SME2 等一系列 Arm 加速技术,从而显著提升计算应用的性能表现。据悉,KleidiAI 是一套专门面向 AI 框架开发者的高性能计算内核。
它能够帮助开发者在各种设备上轻松发挥 Arm CPU 上的最佳性能,并充分利用 Neon、SVE2 和 SME2 等关键 Arm 架构的核心特性。
此外,KleidiAI 还集成了 PyTorch、Tensorflow、MediaPipe 等热门 AI 框架,对 Meta Llama 3、Phi-3 等模型进行了性能优化,并且还采用了可前后兼容的设计。
这样做的好处是,确保 Arm 未来在引入更多技术时依然能适用未来市场的需求。
据介绍,KleidiAI 的集成显著提升了生成式 AI 的工作效率。
数据显示,与参考实现方案(基于 llama.cpp,但不含 Kleidi 软件优化)相比,在新的 Arm Cortex-X925 CPU 上,使用(集成了 KleidiAI 的)llama.cpp 的 Meta Llama 3 和微软 Phi-3 大语言模型 (LLM) 的词元 (Token) 首次响应时间加快了 190%。
KleidiAI 的另一大优势在于易于集成。
据悉,Arm 的工程团队只用不到 24 小时就完成了 Llama 3 的性能优化测试。
此外,KleidiAI 还通过 XNNPACK 与 MediaPipe 集成,为在移动设备上运行的开源 Gemma LLM 提供支持。得益于此,Google Pixel 8 Pro 智能手机上 Gemma 2B 的词元首次响应时间缩短了 25%。
与此同时,Arm 还与 Unity 合作开发端侧 AI 推理引擎——Sentis,可让游戏开发者在所有支持 Unity 游戏引擎的设备上打造全新的 AI 游戏体验。
另外,作为迄今速度最快的 Arm 计算平台,Arm 终端 CSS 在计算和图形性能方面实现了超过 30% 的提升,足以应对各类严苛的 Android 工作负载。
与此同时,Arm 终端 CSS 也提高了 59% 的 AI 推理速度,适用于更广泛的 AI/机器学习 (ML) 和计算视觉工作负载。
Arm 终端 CSS 的核心优势在于其搭载了 Arm 迄今性能最强、效率最高、功能最全面的 CPU 集群,致力于实现性能与能效的最佳平衡。
而凭借新一代 Arm Cortex®-X CPU,AI 优化的 Arm 终端 CSS 带来最高的 IPC 同比提升,性能提高 36%;新的 Arm ImmortalisGPU 的图形性能提高 37%。Arm Immortalis-G925 GPU 是 Arm 性能最强、效率最高的 GPU,在多款手游应用中实现了 37% 的性能提升,并在多个 AI 和 ML 网络上提升了 34% 的性能。
Immortalis-G925 主要面向旗舰智能手机市场。
而包括 Arm Mali-G725 和 Mali-G625 GPU 在内的全新高可扩展性 GPU 系列,则面向从高端手机到智能手表和 XR 可穿戴设备等广泛的消费电子设备市场。Arm 预计到 2025 年底,全球将有超过 1000 亿台具备 AI 能力的 Arm 设备。
从传感器、智能手机,到工业物联网、汽车和数据中心,就像建造摩天大楼需要坚实的地基,AI 技术的蓬勃发展也离不开强大而高效的计算平台作为支撑。
凭借在芯片架构与技术创新上的不懈努力,Arm 正在为这座「AI 摩天大楼」打造最可靠的基石,也将在这场技术变革中扮演愈发关键的角色。
来源:爱范儿