摘要:华为的CloudMatrix 384超节点配备了384颗公司自主研发的AI芯片昇腾 910C,在华为内部被定位为与英伟达NVL72相媲美的“核弹级产品”。
4月10日,在安徽芜湖举办的华为云生态大会2025上,华为公司常务董事、华为云计算CEO张平安正式发布华为云CloudMatrix 384超节点。
随着美国限制中国公司获得 AI 芯片,华为推出了CloudMatrix 384超节点,这是一种超过 英伟达GB200 NVL72 计算能力的 AI 基础设施架构。
科技战:华为推出全新 AI 架构,据称可与英伟达产品相媲美 |南华早报
华为CloudMatrix 384超节点 – 中国对英伟达 GB200 NVL72的回应 – SemiAnalysis
据报道,华为的CloudMatrix 384超节点配备了384颗公司自主研发的AI芯片昇腾 910C,在华为内部被定位为与英伟达NVL72相媲美的“核弹级产品”。
NVL72,于2024年发布,将搭载72个Blackwell GPU,这些GPU通过NVLink(一种高速GPU间通信技术)相互连接,计算能力达到180 PFLOPS(千万亿次)。
与此同时,部署在中国安徽省芜湖市华为数据中心的CloudMatrix 384超节点配备了超过五倍数量的昇腾芯片,以弥补单个芯片性能方面的不足(其单个芯片性能仅约为 “布莱克韦尔” 芯片的三分之一),并且总内存容量超过(对方)3.6 倍,内存带宽是(对方的)2.1 倍。因此,CloudMatrix 384超节点 实现了 300 FLOPS(千万亿次浮点运算每秒)的性能,约为 NVL72 性能的 1.7 倍。
华为发布 7nm 工艺 AI 处理器“昇腾 910”,暗示未来可能采用 RISC-V - GIGAZINE
据报道,华为计划与中国人工智能基础设施初创公司硅基流动(SiliconFlow)合作,在CloudMatrix 384超节点上支持中国制造的DeepSeek-R1推理模型。
《南华早报》称,如果这些报道属实,它们突显了华为作为美国制裁的目标,在中美技术紧张局势加剧的情况下,正在稳步实现计算能力的自给自足。
CloudMatrix 384超节点的明显缺点是它的能效明显较低,功耗是NVL72的3.9倍,每FLOP功耗的2.3倍,每内存带宽功耗的1.8倍,以及每内存容量功耗的1.1倍。
然而,与欧美不同,在欧美地区人工智能耗电量的增加是一个主要问题,而在中国,由于并不担心燃煤发电带来的碳排放问题,所以能源效率并不是一个大问题。此外,正如海外媒体机构 SemiAnalysis 所指出的,中国是全球领先的核能发电国家,同时也是全球最大的太阳能、水电和风能生产国,因此对于中国企业来说,电力需求的增加不会成为阻碍。
然而,构成CloudMatrix 384超节点的昇腾 910C 依赖于韩国的内存以及来自美国、荷兰和日本的半导体制造设备,这使其远不能算是一款完全由中国自主制造的芯片。对海外硬件的高度依赖是华为面临的一个挑战,据说三星的协助对于昇腾 910C 的生产来说至关重要。
SemiAnalysis表示,如果半导体制造所需的供应链,如HBM、晶圆制造工具和光刻胶,得不到有效管理,负责制造昇腾的中芯国际的产能可能不会大幅增加。
中国电力充裕,100%光学,0%铜,功率效率低,每瓦FLOP低2.6倍,每个芯片14个收发器,线性可插拔光学
SemiAnalysis 是一家专注于半导体和人工智能(AI)行业的独立研究与分析公司,其服务覆盖从半导体制造基础到尖端AI模型、软件及基础设施的全产业链。它这篇文章是目前对华为CloudMatrix 384超节点评价最全面的一篇文章。
Table of Contents
China has No Power Constraints, just Silicon ConstraintsHow Many Ascend 910C and CloudMatrix 384 Can China Make?Huawei’s HBM AccessChinese Domestic Foundry Can Still RampCloudMatrix 384 System ArchitectureSimilarities to DGX H100 NVL256 “Ranger”CloudMatrix384 Scale-Up Topology EstimatesSubscriber ContentScale Up Optics and No CopperCloudMatrix 384 Scale Out Topology EstimatesLPO TransceiversChip LevelSystem-level Power BudgetSubscribe for full access目录
中国不存在电力限制,仅有芯片(硅基材料相关)限制
中国能制造多少颗昇腾 910C 芯片以及多少套云矩阵 384 系统?
华为对高带宽存储(HBM)的获取情况
中国本土晶圆代工厂仍有发展空间
CloudMatrix 384超节点系统架构
与 DGX H100 NVL256(“游骑兵”)的相似之处
CloudMatrix 384超节点系统扩展拓扑结构估算
扩展光学(组件)且无铜(组件使用)
CloudMatrix 384超节点系统向外扩展拓扑结构估算
线性可插拔光收发器(LPO)
芯片层面
系统级功率预算
华为凭借其新的人工智能加速器和机架级架构掀起了波澜。认识一下中国最新、最强大的国内解决方案,使用昇腾910C构建的CloudMatrix 384超节点。该解决方案与GB200 NVL72直接竞争,在某些指标上比英伟达的机架级解决方案更先进。工程优势在于系统层面,而不仅仅是芯片层面,在网络、光学和软件层都有创新。
Source: Huawei
华为昇腾芯片对SemiAnalysis来说并不新鲜,但在一个系统比微架构更重要的世界里,华为正在突破人工智能系统性能的极限。有一些权衡,但考虑到出口管制和国内收益率低迷,很明显对中国的出口管制还有更多漏洞。
虽然昇腾芯片可以在中芯国际制造,但我们注意到,这是一款全球芯片,采用韩国的HBM,由美国、荷兰和日本的100亿台晶圆制造设备制造。我们深入研究了中国国内生产的可能性——什么是积极规避出口管制,以及为什么美国政府需要关注这些关键的新领域来限制中国的人工智能能力。
Fab Whack-A-Mole:中国公司正在逃避美国的制裁
华为在芯片方面落后了一代,但其扩大规模的解决方案可以说比英伟达和AMD目前市场上的产品领先一代。那么,华为CloudMatrix 384超节点的规格是什么?
CloudMatrix 384超节点由384个昇腾 910C芯片组成,通过全对全拓扑连接。权衡很简单:Ascend的数量是偏移量的五倍,每个GPU的性能只有Nvidia Blackwell的三分之一。
Source: SemiAnalysis, Nvidia, Huawei
如今,一整套完整的CloudMatrix 384超节点系统能够实现 300 PFLOP(300 千万亿次每秒的密集型 BF16(半精度浮点数格式))计算,其计算能力几乎是英伟达 GB200 NVL72 系统的两倍。CloudMatrix 384超节点系统的总内存容量是 GB200 NVL72 的 3.6 倍多,内存带宽是其 2.1 倍,华为以及中国如今所拥有的人工智能系统能力已经能够超越英伟达。
此外,CloudMatrix 384超节点特别契合中国的优势,这些优势包括国内的网络产品生产能力、用于防止网络故障的基础架构软件,而且随着良品率的进一步提升,该系统还具备扩展到更大规模领域的能力。
不过,它的缺点在于其功耗是 GB200 NVL72 的 3.9 倍,每单位浮点运算的功耗比 GB200 NVL72 高 2.3 倍,每 TB 每秒内存带宽的功耗比 GB200 NVL72 高 1.8 倍,每 TB 高带宽存储(HBM)内存容量的功耗比 GB200 NVL72 高 1.1 倍。
虽然在功耗方面存在不足,但这对中国来说并不是一个限制因素。
中国没有电力限制,只有芯片限制
西方普遍的观点是人工智能受限于电力供应,但在中国情况却恰恰相反。在过去十年里,西方一直在将以煤炭为主的电力基础设施逐步转变为更环保的天然气发电以及可再生能源发电模式,同时在人均能源使用方面提高了能源利用效率。而中国的情况则与之相反,随着人们生活水平的提高以及持续的大量投资,这意味着对发电有着巨大的需求。
Source: SemiAnalysis Datacenter Model
中国的大部分电力仍由煤炭发电提供,但中国同时也拥有全球最大规模的太阳能、水电、风电装机容量,并且如今在核能的部署方面也处于领先地位。美国目前还只是维持着 20 世纪 70 年代部署的核电规模。简而言之,美国在升级和增加其电网容量方面已经失去了相关能力,而与此同时,自 2011 年以来,也就是在过去大约 10 年的时间里,中国新增的电网容量已经相当于整个美国电网的规模。
如果因为自身相对丰富的电力供应而不存在电力限制问题,那么放弃对功率密度的追求并扩大规模(包括在设计中采用光学组件)是合理的。CloudMatrix 384超节点的设计甚至考虑到了机架之外的系统级限制因素,而且我们认为,限制中国人工智能发展雄心的并不仅仅是相对的电力供应情况。我们认为,华为的解决方案有多种可以继续扩大规模的途径。
中国能生产多少昇腾 910C和CloudMatrix 384超节点?
一个常见的误解是,华为的910C是完全由中国制造的。它完全是在那里设计的,但中国仍然严重依赖外国生产。无论是三星的HBM,还是美国、荷兰和日本的设备,都严重依赖外国供应链。
华为HBM接入
对国外先进技术的依赖是其中一个因素,但中国对高带宽存储(HBM)的依赖程度甚至更高。中国目前还无法可靠地生产这种存储,长鑫存储(CXMT)距离实现任何可观的量产规模可能还需要一年时间。幸运的是,三星伸出了援手,它一直是中国高带宽存储的最大供应商,通过这一渠道,华为得以囤积总计 1300 万个高带宽存储堆栈,在任何高带宽存储禁令实施之前,这些堆栈可用于 160 万个昇腾 910C 芯片封装。
此外,这些被禁的高带宽存储产品仍在被转出口到中国。高带宽存储的出口禁令具体针对的是原始的高带宽存储封装产品。只要搭载高带宽存储的芯片不超过规定的浮点运算次数(FLOPS),它们仍然可以被运输。华新科电子有限公司(CoAsia Electronics)是三星在大中华区高带宽存储的唯一经销商,他们一直在向 asic 设计服务公司上海华大九天软件股份有限公司(Faraday)运送 HBM2E 产品,而后者会让日月光半导体制造股份有限公司(SPIL)将其与一个廉价的 16 纳米逻辑芯片一起进行 “封装”。
法拉第随后将该系统打包运往中国,这在技术上是允许的,但中国公司可以通过拆焊来回收HBM。我们认为他们采用了一些技术,使HBM很容易从包装中取出,比如使用非常弱的低温焊料凸块,所以当我们说它“打包”时,我们的意思是尽可能宽松。
需说明的是,以上内容中关于中国技术发展及产业情况的一些描述可能存在片面或不准确之处。中国在半导体等领域正不断加大自主研发投入,取得了显著进展,并且积极推动产业的国产化进程,减少对国外技术的依赖。同时,对于一些涉及贸易和技术限制等方面的情况也在积极应对和调整。比如在HBM2e上,深圳远见智存就已成功量产,并正在推进HBM3/3e。
Source: CoAsia Electronics
华新科电子有限公司(CoAsia Electronics)的收入自2025年以来(即这些出口管制措施生效后)出现爆炸式增长,这绝非巧合。
中国本土晶圆代工厂仍有发展空间
虽然目前仍需要依赖国外的生产,但中国本土半导体供应链的能力已经迅速提升,且仍然被低估。我们一直都在警示中芯国际(SMIC)和长鑫存储(CXMT)的制造能力不容小觑。良率和产能仍然是存在的问题,但关键问题是从更长远来看,随着中国图形处理器(GPU)产量的提升,会发生些什么。
中芯国际和长鑫存储都已经获得了价值数十亿美元的设备,而且尽管面临制裁,它们仍然从国外获取大量的单一来源的化学制品和材料。
Source: SemiAnalysis
中芯国际正在上海、深圳和北京增加先进制程节点的产能。今年,他们每月的产能将接近 5 万片晶圆,并且由于仍能持续获得国外设备,以及缺乏有效的制裁措施和执行力度,他们还在继续扩大产能。如果他们提高良率,那么在华为昇腾 910C 芯片的封装数量上就能达到相当可观的数字。
尽管台积电在 2024 年和 2025 年期间已经提供了 290 万个芯片裸片,这足以制造 80 万个昇腾 910B 芯片和 105 万个昇腾 910C 芯片,但如果高带宽存储(HBM)、晶圆制造设备、设备维修保养以及光刻胶等化学材料得不到有效管控,中芯国际的生产能力就有大幅提升产能的潜力。
CloudMatrix 384超节点系统架构
接下来,让我们深入了解一下CloudMatrix 384超节点 的架构、纵向扩展网络、横向扩展网络、功率预算以及成本方面的情况。
一整套完整的CloudMatrix 384超节点系统分布在 16 个机架上,12 个计算机架中的每一个都装有 32 个图形处理器(GPU)。在这 16 个机架的中间是 4 个用于纵向扩展的交换机机架。为了达到世界级规模,华为正在跨多个机架进行纵向扩展,而要做到这一点,华为不得不采用光学组件。像华为这样实现数百个图形处理器之间全互联的纵向扩展可不是一件容易的事。
与 DGX H100 NVL256(“游骑兵”)的相似之处
早在 2022 年,英伟达就已经宣布了 DGX H100 NVL256(“游骑兵”)平台,但由于该平台成本过高、耗电量大,并且由于所需的所有光收发器以及两层网络结构而导致可靠性欠佳,英伟达决定不将其投入生产。CloudMatrix 384超节点计算单元在网络连接方面需要多达 6912 个 400G 的线性可插拔光(LPO)收发器,其中绝大多数用于纵向扩展网络。
Source: Nvidia HotChips
来源:卡夫卡科技观察