摘要:在科技发展的浪潮中,数据中心的核心 ——CPU,正经历着一场深刻变革。近年来,AWS、谷歌和微软等美国超大规模企业,纷纷砸下数亿美元投身芯片设计领域,专为自家数据中心打造基于 Arm 架构的 CPU。可市场上并非没有其他选择,究竟是什么让这些科技巨头甘愿投入大
除了CPU,那些顶尖的超大规模企业还涉足AI加速器和网络芯片的硅片设计。
在科技发展的浪潮中,数据中心的核心 ——CPU,正经历着一场深刻变革。近年来,AWS、谷歌和微软等美国超大规模企业,纷纷砸下数亿美元投身芯片设计领域,专为自家数据中心打造基于 Arm 架构的 CPU。可市场上并非没有其他选择,究竟是什么让这些科技巨头甘愿投入大量时间与金钱,执着于自研芯片呢?
Arm 基础设施主管 Mohamed Awad 表示虽然绕过中间商,直接与代工厂合作,超大规模企业确实能省下芯片制造商的那部分利润,但这并非全部缘由。“这话有一定道理,但我不确定这是否是他们频繁投资的主因,毕竟其中涉及机会成本等诸多因素。” 他进一步解释,“实际上,关键在于开发并部署一个完全集成的解决方案,这个方案要针对他们自身的数据处理工作负载或特定用例进行优化。”
超大规模企业可不满足于围绕他人设计的 CPU 搭建数据中心,他们更倾向于从零开始,亲自操刀设计 CPU,自主做出契合自家数据中心需求的架构决策。“这种动机才是推动这一切的最终力量。”Awad 说,“如此一来,他们能够优化性能、提升效率,或者两者兼得。多数情况下,还能剔除那些无关紧要的部分,全力聚焦真正关键的环节。”
Awad 还指出,除了 CPU,那些顶尖的超大规模企业还涉足 AI 加速器和网络芯片的硅片设计。换言之,他们正以一种能让所有硅片在数据中心系统中实现最佳协同工作的方式,进行全方位设计。正如他所言:“这关乎整个系统,而非单个部件。”
超大规模企业期望通过定制硅片收获总拥有成本(TCO)优势,这其中既包括降低毛利率,也涵盖减少与电源效率相关的运营支出。“超大规模数据中心有着极为复杂的 TCO 模型。”Awad 解释道,“要是我能在相同功耗下,将数据中心的计算量翻倍,那就能节省大量 TCO,因为我无需再新建一座数据中心大楼了。”
谈及 Arm 生态系统,Awad 认为它兼具性能与能效优势,且拥有成熟的软硬件生态系统以及创新的自由空间。虽说性能优势在 CPU 供应商 Ampere 基于 Arm 的 CPU 上也有所体现,但对于超大规模企业而言,情况又有所不同。“Ampere 选择了特定的设计方向,对某些用例可能适用,对另一些则未必。在不少用例中它确实可行,但关键在于如何权衡。对最大的超大规模计算企业来说,重要的不是从现成部件中挑选,然后围绕其构建数据中心,而是要为自家数据中心量身定制。问题不在于选哪种现成部件,而在于是否值得投资,从头构建一个能支撑基础设施的体系。”
在数据中心 CPU 市场格局中,超大规模计算平台约占据半壁江山,另一半则被一系列长尾且碎片化的用例所占据。为了解决这些长尾用例的难题,Arm 推出了计算子系统(CSS,一种将多个 IP 模块组合的即插即用设计)以及 Arm Total Design(Arm 的设计、制造和测试合作伙伴生态系统)等项目。其目的在于助力那些资源不及超大规模计算平台的公司,更轻松地实现定制硅片设计。
“我们已经联合众多生态系统合作伙伴,致力于进一步降低自主研发芯片的成本。”Awad 透露,“在某些情形下,我们甚至有现成的芯片可供使用。有些芯片可直接封装,或者把两个芯片整合在一个封装里,从而形成一个 SoC。这是我们正在积极推进的方向。” 定制硅片设计并非所有公司都能轻易实现,Arm 的目标是在扩大其可及性的同时,减轻自身的支持负担。
Arm Total Design 涵盖了 ASIC 供应商、IP 提供商、代工厂和 EDA 工具供应商等各类公司。Arm 将其 CSS 设计提供给生态系统,方便合作伙伴公司进行预集成 IP、构建芯片集、确保 CSS 在工具流程中高效运行,以及在硅片中达成预期效果。
据报道,Arm 预计到 2025 年底,基于 Arm 的 CPU 在数据中心市场的占比将接近 50%(2024 年底这一比例仅为 15%),有望取代英特尔和 AMD 等公司的 x86 CPU。面对这一趋势,开源指令集 RISC-V 会成为 Arm 在该领域的强劲竞争对手吗?
对此,Awad 表示:“要成为基础设施级的 CPU,生态系统至关重要。我们在软件生态系统上已经投入了 15 年时间,这绝非一蹴而就。” 他还指出,早期 Arm 在软件准备方面做了大量工作,而超大规模企业加入 Arm 生态系统后,进一步加速了其发展。“我们已经从‘它今天能在 Arm 上运行吗?’的问题,转变为‘这个软件在 Arm 上运行得更好吗?’客户追求领先的 IP 性能和每瓦性能、强大的生态系统以及差异化能力,而我们恰好能独一无二地提供这一切,这三者缺一不可。”
Arm 拥有以 microNPU 形式呈现的 AI 加速器 IP(Ethos 产品线),主要用于物联网设计。那 Arm 是否会考虑推出适用于数据中心设计的 Ethos 版本,或者开发一款新的数据中心 AI 加速器 IP 产品呢?“这是个很有意思的问题。”Awad 回应道,“我们在物联网和客户端领域确实运用了一些核心的 NPU 技术,但这些技术与数据中心所使用的大不相同…… 如你所想,我们在很多不同领域都有研究,如果遇到合适的机会,我们肯定会加以利用。”
当下,随着人工智能工作负载持续增长,数据中心对 CPU 的需求空前高涨。无论是超大规模企业自研的基于 Arm 的设计,还是 Nvidia 基于 Arm 的 Grace CPU(常与最新高端人工智能训练和推理系统中的 GPU 配套使用),都备受瞩目。“该 CPU 的所有软件都针对 Arm 进行了优化。”Awad 说道,“因此,许多底层基础设施,比如检查点、加速器管理以及跨大规模系统的模型分发,都在基于 Arm 的系统上运行。” 他补充道:“这对我们而言,实际上是一股非常有利的发展趋势,我们将持续以极具意义的方式加以利用。”
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!
来源:半导体产业纵横一点号