电子行业深度分析:国产算力佼佼者,昇腾产业链有望受益

360影视 日韩动漫 2025-05-07 08:34 2

摘要:全产业链助力,构建昇腾计算产业强大生态。这一生态涵盖学术、技术、公益及商业活 动,涉及知识、产品及各类合作伙伴,包括原始设备制造商(OEM)、原始设计制造商 (ODM)、独立硬件开发商(IHV)、咨询与解决方案集成商(C&S1)、独立软件开发商 (ISV)、云

全产业链助力,构建昇腾计算产业强大生态。这一生态涵盖学术、技术、公益及商业活 动,涉及知识、产品及各类合作伙伴,包括原始设备制造商(OEM)、原始设计制造商 (ODM)、独立硬件开发商(IHV)、咨询与解决方案集成商(C&S1)、独立软件开发商 (ISV)、云服务提供商(XaaS)等。此外,昇腾的合作伙伴体系还包括服务交付伙伴、 人才联盟伙伴(提供培训服务)以及投融资运营伙伴。昇腾计算的基础软硬件是产业核 心,也是 AI 计算能力的来源。华为作为生态核心成员,是基础软硬件系统的主要贡献者。 昇腾计算软硬件包括硬件系统、基础软件和应用使能三部分:

硬件系统:1)基于华为达芬奇内核的昇腾系列处理器;2)基于昇腾处理器的硬件 产品,如嵌入式模组、板卡、小站、服务器及集群等。

基础软件体系:1)异构计算架构 CANN,涵盖驱动、运行时、加速库、编译器、调 试调优工具、开发工具链 MindStudio 及运维管理工具,向开发者与客户开放;2) AI计算框架,包括开源的MindSpore及其他业界流行框架,支持多种计算框架对接。

应用使能:1)MindX 支持上层 ModelArts、HiAI 等应用使能服务,同时兼容第三方 平台;2)行业应用覆盖千行百业,如互联网推荐、自然语言处理、视频分析、图像 分类、目标识别、语音识别及机器人等场景;3)支持 IaaS、PaaS、SaaS 等多种云 服务模式,并通过端边云协同能力,推动昇腾计算成为全场景 AI 基础设施。

1.1 硬件体系:从单卡到集群,矩阵完善

华为昇腾硬件体系作为全栈 AI 计算平台的核心底座,以达芬奇架构为技术基石,构建了 覆盖端边云全场景的完整产品矩阵,其从单卡到集群的垂直化布局充分展现了技术纵深 和生态协同能力。 当前国产高性能芯片发展迅速,在多个关键指标上展现出显著进步。目前国内自主研发 芯片的企业主要包括华为海思、寒武纪、海光信息等,其中华为 Ascend910 凭借自研 Da Vinci 架构和较高的能效比,成为国产高性能芯片的代表之一,尤其适用于 AI 训练和推 理场景。其运算能力达 512TOPS@INT8,位于国产芯片前列,仅次于平头哥含光 800 (825TOPS@INT8)。Ascend910 性能功耗比为 2TOPS/W,与英伟达 A100 持平,表明 其能耗控制能力达到国际主流水平。然而,国产芯片在显存带宽、架构等领域仍需持续 提升,以提高全球竞争力。

华为达芬奇架构(Da Vinci Architecture)是华为于 2018 年推出的自主研发 AI 计算架 构,专为人工智能(AI)计算任务设计,如矩阵计算、向量计算、张量计算。其核心目 标是以最小的计算代价增加矩阵乘的算力,实现更高的 AI 能效。

核心设计特点

1) 计算单元

昇腾 AI 处理器的计算核心主要由 AI Core 构成,包含三种基础计算资源:矩阵计算单元 (Cube Unit)、向量计算单元(Vector Unit)和标量计算单元(Scalar Unit),分别负责 执行张量、矢量、标量计算。

2) 存储系统

为了配合 AI Core 中数据的传输和搬运,围绕着三种计算资源还分布式的设置了一系列 的片上缓冲区,比如用来放置整体图像特征数据、网络参数以及中间结果的输入缓冲区 (Input Buffer,IB)和输出缓冲区(Output Buffer,OB),以及提供一些临时变量的高 速寄存器单元,这些寄存器单元位于各个计算单元中。输入缓冲区之后设置了一个存储 转换单元(Memory Transfer Unit,MTE)。这是达芬奇架构的特色之一,主要的目的是 为了以极高的效率实现数据格式的转换。

3) 控制单元

控制单元主要包括系统控制模块、标量指令处理队列、指令发射模块、矩阵运算队列、 向量运算队列、存储转换队列和事件同步模块。系统控制模块负责指挥和协调 AI Core 的整体运行模式,配置参数和实现功耗控制等。不同的执行单元可以并行的按照指令来 进行计算或处理数据,同一个指令队列中指令执行的流程被称作为指令流水线。事件同 步模块时刻控制每条流水线的执行状态,并分析不同流水线的依赖关系,从而解决数据 依赖和同步的问题。

1) 单卡级产品

华为昇腾加速卡系列是一组高性能的计算加速解决方案,为满足各种人工智能和大数据 处理需求而设计。该系列加速卡包括多款不同型号的产品,旨在提供灵活多样的计算能 力,以满足不同应用场景下的性能需求。 华为昇腾加速卡采用了先进的处理器架构和高速内存技术,确保了卓越的计算性能和数 据处理能力。其中,Ascend 系列处理器作为核心计算引擎,提供了强大的 AI 算力和 CPU 算力,支持多种算法和模型的高效运行。同时,这些加速卡还支持多种视频编解码格式 和 JPEG 图片编解码,进一步扩展了它们在多媒体处理领域的应用范围。在硬件规格方 面,华为昇腾加速卡提供了丰富的选择,包括不同数量的处理器核心、内存容量和存储 容量等配置。这些规格的选择旨在满足不同用户对计算性能和存储容量的需求,确保在 各种应用场景下都能获得最佳的性能表现。

华为昇腾 910

华为昇腾 910 是一款具有超高算力的 AI 处理器。它集成了多个基于达芬奇架构的 AI 核,以及 CPU、DVPP 和任务调度器等组件,形成了一个高集成度的片上系统(SOC), 从而具有自我管理能力,可以充分发挥其高算力的优势。在实际测试中,昇腾 910 的半 精度(FP16)算力达到 256 TeraFLOPS,整数精度(INT8)算力达到 512 TeraOPS,且 额定 TDP 仅为 300W,能效比表现出色。凭借其强大的算力和高效的能效比,昇腾 910 在 AI 训练等场景中展现出了卓越的性能,是华为在 AI 领域的一项重要技术成果。

华为昇腾 910B

华为昇腾 910B芯片最大功耗 400w,配备 64GB HBM2e,FP16性能达 320TFLOPS。 于 2023 年推出,采用 7+nm 制程工艺和华为自主研发的达芬奇架构,最大功耗为 400 瓦,配备 64GB HBM2e 高带宽内存。在计算性能方面,该芯片在 FP16 和 INT8 精度下表 现突出,分别达到 320 TFLOPS 和 640 TFLOPS,适合高吞吐量的人工智能推理和训练场景。整体来看,该芯片展现了华为在 AI 芯片领域的技术积累,尤其在低精度计算和能效 设计方面具备竞争力。

2) 服务器级产品

华为昇腾的服务器系列涵盖了高性能计算、训练和推理等多个领域,其中 Atlas800 系 列和 Atlas500Pro 系列是其中的重要代表。Atlas800 系列服务器专为高性能计算和大 规模数据处理而设计,包括多种型号以满足不同场景的需求。例如,Atlas800T 推理服务 器以其强大的处理能力和高效的资源利用率,在需要高性能推理的应用场景中表现出色。 Atlas500Pro 智能边缘服务器则专为边缘计算场景而设计。它紧凑的结构和高效的性能, 使得它能够在资源受限的边缘环境中提供强大的计算和推理能力。

3) AI 集群

Atlas 900 A2 PoD 支持高达 50.5kW 的最大功耗。其中 Atlas 900 A2 PoD 支持 256 个 DDR4 内存插槽,内存带宽最高可达 3200MT/s,确保了数据的高速读写和高效处理。而 Atlas 900 AI 集群则整合了 HCCS、PCIe 4.0 和 100G RoCE 三种高速连接接口,不仅提 供了高效的数据传输通道,还支持多种网络通信协议和存储协议,方便用户根据实际需 求进行灵活配置和扩展。在功耗和散热方面,华为昇腾 AI 集群系列采用了先进的液冷散 热技术,不仅有效降低了加速卡在工作过程中的温度,还提高了系统的稳定性和可靠性。 同时,Atlas 900 A2 PoD 还支持高达 50.5kW 的最大功耗,确保了在高负载情况下的稳 定运行。

1.2 软件:昇腾 CANN 提供高性能算子库

英伟达 CUDA((Compute Unified Device Architecture)将 GPU 从专用的图形处理 器转变为通用并行计算功能的平台。2006 年,英伟达推出了第一款支持通用运算的显卡 GeForce 8800 GTX,并在不久后推出了 CUDA。从此以后,原本只是图像渲染用的显卡 开始在其他领域大放异彩。CUDA 核心思想是将异构计算平台(如 CPU 和 GPU)抽象为 统一的编程模型,使得开发者能够使用熟悉的 C/C++语言来编写同时针对 CPU 和 GPU 的程序,而无需深入了解底层硬件的复杂细节。CUDA 通过提供一系列的 API 和库函数, 使得程序员可以轻松地将计算任务分配给最适合的设备,从而充分发挥异构计算系统的 性能优势。 CUDA 扩展 GPU 的并行计算能力,构建英伟达护城河。如 AI、深度学习、大数据分析、 科学计算等多个领域。例如,英伟达的 A100、V100 等 GPU 通过 CUDA 提供了巨大的计 算加速,成为 AI 训练、推理以及科学模拟等领域的核心计算引擎。像 GPT-3 等大规模语言模型的训练,就依赖于 CUDA 加速的英伟达 GPU 实现高效的并行计算。英伟达每款 GPU((如 Tesla、A100、RTX 系列等)都经过 CUDA 优化,使得它们能够在多个应用领域 中发挥卓越的性能。这种软硬件的深度集成是英伟达产品线能够保持市场领先的关键所 在,确保硬件和软件的无缝协作,增强了市场的依赖性和用户粘性,被称为英伟达的 “CUDA 护城河”。

华为昇腾 CANN 是针对 AI 场景推出的异构计算架构,对标英伟达 CUDA。通过提供多 层次的编程接口,CANN 能够支持用户快速构建基于昇腾平台的 AI 应用和业务。CANN 支持多种计算架构和计算框架,一套体系支持 CPU、NPU 等架构和多种 AI 计算框架, 包含了编程语言,编译及调试工具和编程模型,创造了基于昇腾系列处理器的一个编程 的框架,未来将持续演进。 CANN 的完整软件平台分为 4 层。Driver 实现硬件和操作系统的适配和支持。中间一层 提供了基础的服务,提供内存管理、算力分配和资源调动,内置硬件数字视觉解码器和 高性能算子库。同时,HCCL((Huawei Collective Communication Library,华为集合通信 库)提供了板间以及框间的通信能力,将昇腾训练处理器 100G 的 ROCE 接口宽带连接 能力发挥出来。上一层是图引擎,架构的核心模块,实现了大计算图的拆分、图融合, 最大化芯片算力利用率。

CANN 提供两种算子开发方式。相比业界主流的只有一种算子开发方式,CANN 实现了 效率和性能的最佳平衡。 1) TBE-DSL(Tensor Boost Engine-DomainSpecific Language)。基于 DSL 的语法规则 定义,可自动实现数据的切分和调度。对开发者来说,只需要关注计算的表达,写完 公式即可生成代码,相比业界,提升了 70%开发效率。 2) TBE-TIK((Tensor lterator Kernel)。该开发方式需要开发者提供指令级编程和调优的 能力,包括数据的编排、计算的表达,通过全过程人工干预,可以更好发挥芯片的极 致性能。 CANN 提供高性能算子库,预置超过 1000 个深度优化的硬件亲和算子,支持更优异的 运行性能。高性能算子库有以下主要特征。(1)统一算子中间表达:算子基于统一的中 间表达,支持多种不同的框架;同时,算子可以在多种框架中共享,相似算子无须重复 开发。(2)硬件解耦:算子和硬件解耦,实现异构计算架构在全场景的各种形式硬件中 的最佳运行性能。(3)动静结合:提供静态注册与动态执行相结合的方式,提高算子加 载的性能和执行效率。 开源框架 MindSpore 支持高效开发。同时,华为提供模型转换工具,支持主流模型便 捷地转换到 MindSpore。在架构层面,MindSpore 是面向端、边、云全场景的 AI 计算框 架,可以实现全场景自适应感知与协同。例如模型训练完成后,可以根据不同硬件形态 自适应生成相应大小的模型。MindSpore 还支持在端侧直接对模型进行轻量训练,更新 本地的推理参数。这样既保护了个人隐私,又提升了模型精度,实现模型“私人订制”。

MindSpore 致力于实现开发态友好、运行态高效、全场景按需协同三大目标。基于此, MindSpore 在动静态图转换、Auto Parallel((自动并行)以及端边云协同等方面出出了较 大的创新。 1) 动静态图转换。MindSpore 采用了基于 SCT(Source Code Transformation,源码翻 译)的 AD(Automatic differentiation,自动微分)机制,该机制可以将函数转换成 中间表达以及计算图,从静态图模式切换到动态图模式只需要一行代码,简化了动 态图和静态图之间的切换。 2) 自动并行。MindSpore 可以实现自动数据并行和模型并行的混合并行训练。用户只需 写串行单机模型,就能实现混合并行训练,兼顾易用和高性能。另外,MindSpore 可 以结合内存、计算和通信开销,为用户选择一个性能较优的并行切分策略实现大规 模网络的线性加速、自动扩展。 3) 端边云协同。MindSpore 针对“端、边、云”全场景提供了一致的开发和部署能力, 以及按需协同能力,让开发者能够实现 AI 应用在云、边缘和手机上的快速部署,全 场景互联互通,实现更好的资源利用和隐私保护,创造更加丰富的 AI 应用。 华为自主研发的深度学习开源框架 MindSpore,具有易用性强、性能优异等特点,并在 开源计算框架、数据框架和模型格式中支撑主流开源架构,构建生态基础。在开源开放 的生态环境中,开发者可与华为共同优化计算框架,从而应用于更多的场景,挖掘潜在 可能性。

1.3 应用使能:2+1+X 助力开发

MindX 昇腾应用使能由 2 个组件((深度学习组件 MindX DL、智能边缘组件 MindX Edge)、 1 个模型库(优选模型库 Model Zoo)以及多个行业 SDK 组成,致力于让行业开发者以 最简单的方式开发应用。

MindX DL 提供参考架构,打造可用于开发商用版本的深度学习系统。MindX DL 通过增 强插件的方式部署在现有集群的控制节点,以支持 NPU 资源的调度,增强插件包括用于 设备发现的 Ascend Device Plugin、华为集合通信控制器 HCCL-Controller、用于集群亲 和性调度的 Volcano、以及设备监控 cAdvisor for Ascend。

MindX Edge 旨在让边缘 AI 应用触手可及。MindX Edge 是一个原生支持边云协同的中 间件 Agent,可实现快速将云端模型推送至边缘端部署,同时将边缘侧未识别数据上传 至云端进行增量训练。MindX Edge 支持多样化设备形态,可以统一支持摄像头、工控机、 机器人、无人机、边缘推理服务器等边缘设备。同时,MindX Edge 秉承极致轻量化部署 原则,内存开销小于 256M,CPU 资源占用率小于 3%。基于以上特点,MindX Edge 可 以帮助合作伙伴高效开发支持边云协同的边缘推理 AI 应用。

Edge Agent 边云协同中间件是由用于底层 docker 资源调度的 Edge Core、用于本地接 入管理及消息面转发的 Edge Site、用于对接设备管理系统及云端的 Edge Hub 三个组件 组成。通过 Edge Site,可对接更多功能如容器故障检测、双机备份、数据存储及高性能 消息总线等。 ModelZoo 将 AI 开发所需模型提前调优,确保精度性能,为解决开发者模型选型难、 模型训练难,数据获取难等问题而设计。深度神经网络模型是深度学习最核心的生产资 料。众多型如何选择,在不同的场景中如何针对性增量训练调优,开发者都要花费大量 的时间和精力反复尝试。ModelZoo 提供各类框架如 MindSpore、TensorFlow、PyTorch、 Caffe 等和多种场景如图像分类、推荐排序、目标检索、自然语言等网络模型。开发者仅 需进入昇腾开发者社区,即可快速下载所需模型。 SDK 凝聚行业知识,是结合 AI 最佳实践的软件开发套件。以制造业 AI 应用为例,开发 者须了解针对制造业的算法,了解训练过程、数据采集、数据预处理、数据增强,反复 调参,并进行多次推理验证。制造业 SDK 已提前为开发者完成上述工作,针对制造业端 到端的完整业务流程已提前预制好,开发者无需再写繁杂的训练脚本和模型算子。整个 的业务流程自动化完成,开发者仅需关注制造业的特殊业务流程。较未使用 SDK,使用 SDK 后仅需采集少量现场数据进行优化训练,优化时长由数月降至数周,万行的开发代 码甚至可降至百行代码。SDK 对整个过程进行预制化、二次封装和大量抽象,原本需消 耗 5 人·月的 AI 开发工作可缩短至 0.5 人·月,开发效率提升 10 倍。

一体机方面,昇腾产品矩阵完善,受益于 deepseek 带来的一体机需求提升: 昇腾产品形态完善,全面适配 DeepSeek V3/R1 满血版/蒸馏版本全系列模型。华为 昇腾推出从服务器、推理卡、到加速模组等丰富的一体机产品形态,全面适配 DeepSeek V3/R1 满血版/蒸馏版本全系列模型,涵盖智能对话、智能编程、文档分析、开发板等全 场景应用,能够满足各类用户在不同场景下的 AI 需求。截止 2 月 12 日,已有 13 家伙 伴基于昇腾产品打造自有 DeepSeek 一体机产品,满足细分市场的多样化需求,进一步 拓展 AI 技术在各行业的应用边界,共同推动人工智能产业的蓬勃发展。

集群能力方面,华为 CloudMatrix 384 已实现商业化,国产算力奇点已现: 基于新型高速总线架构的 CloudMatrix 384 超节点集群已在芜湖数据中心规模上线。 4 月 10 日,华为公司常务董事、华为云计算 CEO 张平安在华为云生态大会 2025 上公布 了 AI 基础设施架构突破性新进展——推出基于新型高速总线架构的 CloudMatrix 384 超 节点集群,并宣布已在芜湖数据中心规模上线。作为国内唯一正式商用的大规模超节点 集群,其可为 AI 推理提供澎湃充足、即开即用的智能算力,加速千行万业智能跃迁。

CloudMatrix 384算力规模相比 NVL72提升 67%,在 DeepSeek-R1上可比肩 H100 部署性能。根据《科创板日报》,华为云 CloudMatrix384 超节点 25H1 将有数万规模的 上线。华为 CloudMatrix 384 在规模、性能和可靠性上对标英伟达 NVL72,基于 CloudMatrix 的昇腾 AI 云服务,大模型训练作业可稳定运行 40 天,互联带宽断点恢复在 10 秒级别。在互联带宽上,超节点网络交换机采用 6812 个 400G 光模块,实现 2.8Tbps 卡间互联带宽。硅基流动已经联合华为云基于 CloudMatrix384 超节点昇腾云服务正式上 线DeepSeek-R1,在保证单用户20TPS水平前提下,单卡Decode吞吐突破1920Tokens/s, 可比肩 H100 部署性能。同时,经过主流测试集验证及大规模线上盲测,在昇腾算力部 署 DeepSeek-R1 的模型精度与 DeepSeek 官方保持一致。华为公布的数据显示, CloudMatrix 384实现算力规模达 300PFlops,相比英伟达NVL72 的180PFlops提升 67%。

华为集群性价比已经有了较大的提升,未来有望不断实现优化: 华为 25 年 3 月发布《UB-Mesh——分层本地化的 nD-FullMesh 数据中心网络架构》论 文,随着大语言模型(LLM)规模扩大,传统数据中心面临带宽不足、成本高、可用性低 的问题。UB-Mesh 提出一种分层本地化的多维全网格(nD-FullMesh)网络架构,通过直 接连接相邻节点减少数据移动距离和交换机依赖,降低成本并提升性能。UB-Mesh-Pod 是其具体实现,采用 4D 全网格拓扑,结合统一总线(UB)技术、全路径路由(APR)和 64+1 容灾设计,最终实现 2.04 倍成本效率提升、7.2%网络可用性提升,并在 LLM 训 练任务中保持 95%以上的线性扩展能力。 nD 全网格拓扑减少跳数和光模块使用,86.7%连接为低成本电缆。nD 全网格拓扑的 核心在于层级结构,从 1D((单板内节点全连接)扩展到 2D((机架内多板连接)、3D(( 机架)、4D(( 机柜),形成多维全网格。 从物理映射来看,短距离用电缆(1 米-XY 就是 卡间和板间),中距离用主动电缆(10 米-Z 就是 rack 之间),长距离用光纤(100 米以 上),减少跳数和光模块使用,86.7%连接为低成本电缆。

从硬件实现来看,核心组件为 NPU(AI 计算单元)、CPU、低阶交换机(LRS)、高阶 交换机(HRS),通过统一总线(UB)互联。UB 总线支持灵活 IO 分配和硬件资源池化 (如 CPU 与 NPU 动态绑定)。每机架 64 个 NPU+1 个备份 NPU,故障时自动切换,仅增 加单跳延迟。传统的基于 GPU 的 LLM 训练系统通常采用混合互连,PCIe 用于 CPU-GPU 和 CPU-NIC 互连,NVLink 用于服务器内部 GPU 互连,InfiniBand/RoCE 用于服务器间互 连。基于 UB,只需要设计和实现一个可以在 CPU、NPU 甚至 LRS 交换机之间重复使用 的 UB IO 控制器。UB 还提供以下三个主要优势:1)灵活的 IO 资源分配:UB 互连与特 定用例解耦,可以为芯片内不同类型的 IO 灵活分配资源,NPU 间带宽和 CPU-NPU 带宽 也可以根据具体要求灵活调整,因为它们使用相同的 UB 链路;2)硬件资源池:UB 的 点对点通信功能支持硬件资源的高效池化,包括 DDR RAM、CPU、NPU 和 NIC;3)系 统优化:统一互连消除了协议转换的需要,显著降低了开销,并简化了驱动程序、通信 库和框架等的设计和优化。

从 UB-Mesh 的整体架构设计来看,按照 nD-FullMesh 拓扑实现了一个 UB-Mesh-Pod。在 每个机架内创建一个 2D FullMesh,并将其扩展到机架之外的另一个 2D-FullMesh,从而 产生 4D-FullMesh。机架的核心由 8 个 NPU 板组成,每个板包含 8 个 NPU。机架内 64 个 NPU 互连,形成 2D FullMesh,确保 NPU 到 NPU 的高带宽。由于 UB IO 控制器也具 有路由能力,因此每个 NPU 都充当路由器,并在此架构中启用间接路由。除了 NPU 之 外,机架还包括专用的 CPU 板,与 CPU 和 NPU 位于同一板上的传统设置不同,这里它 们是分开的。CPU 通过交换机连接到 NPU,实现灵活的 CPU/NPU 比例,并支持 CPU/NPU/DDR 资源池,以提高资源利用率。该机架配备多个背板交换机,用于管理机架 内和机架间的连接。这些交换机采用低基数设计(称为 LRS),在降低成本的同时确保设 备间的无阻塞通信。总体而言,这些背板交换机输出四路 UB x256 IO。两个维度连接四 个相邻的机架,构建机架间 FullMesh,考虑到 AEC 的覆盖范围,这是最佳点。由于每个 机架有 64 个 NPU,每个 Pod 有 16 个机架,因此一个 4D-FullMesh UB-Mesh-Pod 总共 包含 1024 个 NPU。 进一步构建 UB-Mesh-SuperPod,它可以容纳多个 UB-Mesh-Pod。考虑到在当前的云场 景下,中小型 LLM 训练工作负载可能不会消耗整个 SuperPod,华为选择在 Pod 级别的 互连中采用对称的 Clos 拓扑,而不是继续使用 FullMesh。这样的设计允许云管理器根据 消费者的需求灵活地划分 SuperPod,并保证每个划分域的带宽,使用高基数 Pod 开关 (HRS)连接 SuperPod 中的每个机架,可扩展至 8K NPU。最后,SuperPod 中的机架还 通过 UB 交换机或位于 CPU 板上的 NIC 连接到大规模 DCN,DCN 交换机使用 Clos 拓扑 进行组织可以扩展到 100K NPU 或更多。

UB-Mesh 的 4D-FM+Clos 架构 CapEx 显著降低,OpEx 减少约 35%,成本效率提 升 2.04 倍: 华为比较了不同的机架内网络架构,与 Clos 架构相比,2D-FM 架构实现了 93.2%到 95.9% 的训练性能。1D-FM-A 架构的性能下降较低,与 2D-FM 相比,LLAMA2-70B 的性能提高 了 2.44%。对于其他参数较多的模型,改进幅度小于 1.6%。由于机架间带宽更高,与 2D-FM 架构相比,1D-FM-B 架构的性能提高了 3%以上,但改进仍然微乎其微。对于 8K 到 32K 的序列长度,2D-FM 架构实现了 95.5%的性能,略低于 1DFM-A(98.1%)和 1DFM-B(99.2%)。对于 64K 到 10M 的序列长度,与 Clos 架构相比,2D-FM 架构实现 了 95.0%的性能。与 Clos 相比,2D-FM 架构提供了类似的训练性能(性能差距在 7%以 内),硬件成本要低得多。 华为使用内部数据估算资本支出成本,包括 NPU、CPU、LRS、HRS、电缆和其他模块的 成本,并在不同的架构之间进行比较。UBMesh 的 4D-FM+Clos 架构与 2D-FM+x16((表 示每个 NPU 的 UB x16 IO×Clos、1D-FM+x16 Clos)和 x64T Clos 架构相比,资本支出 分别降低了 1.18×、1.26×、1.65 和 2.46×Clos 架构。与基准 Clos 架构相比,UB-Mesh 成功地将系统中的网络基础设施成本比率从 67%降低到 20%,因为节省了高性能交换 机和远程光缆/模块。与基线 Clos 架构相比,节省了 98%的高基数交换机和 93%的光模 块。OpEx 的减少主要包括系统生命周期内的电费和维护成本。与 Clos 相比,UB-mesh 的运营支出降低了约 35%,因为它对交换机和光模块的使用要少得多,根据华为云事业 部对 AI 系统的估计,OpEx 约占 TCO 的 30%,UB-Mesh 实现了 2.04×的成本效益。

2024 年新增算力规模约为 2 万 Pflops,2028 年中国智算中心市场投资规模有望达到 2886 亿元。据科智咨询统计,2023 年中国智算中心市场投资规模达 879 亿,同比增长 90%以上。未来,AI 大模型应用场景不断丰富,商用进程加快,智算中心市场增长动力 逐渐由训练切换至推理,市场进入平稳增长期,预计 2028 年中国智算中心市场投资规 模有望达到 2886 亿元。截至 2024 年 8 月,中国智算中心项目超过 300 个,已公布算力 规模超 50 万 PFlops。从已投用、在建、规划的智算中心项目来看,全国各省智算中心总 计 300 余个,约三分之一智算中心项目规划算力大于 500PFlops,主要为政府或基础电 信运营商投建项目,2024 年当年投运项目数量超过 50 个,60%以上为地方政府、国资 平台及电信运营商项目,总计新增算力规模约为 2 万 PFlops。

互联网及云厂商建设的智算中心算力规模占比达 35%,占比最高。根据智算中心项目 数量统计,截至 2024 年 8 月,全国投运、在建及规划的智算中心中,地方政府和基础 电信运营商主导建设的智算中心项目占比超过 50%,互联网及云厂商项目数量占比约为 17.7%,地方政府及基础电信运营商是智算中心主要参与方。从智算中心算力规模来看, 互联网及云厂商在智算中心投资建设中占据重要地位。互联网及云厂商建设的智算中心 规模较大,多为万卡集群,智算中心具备大规模、可扩展性、绿色化等特征,满足互联 网及云业务长远发展需求。企业主体在智算中心建设中可以提供强大的资金、技术支持 和市场应用,以及市场化的管理运营机制,相比于政府等国资平台更注重效率和效益, 有助于提高智算中心的运营效率和服务质量。截至 2024 年 8 月,全国投运、在建及规 划的智算中心中,互联网及云厂商建设的智算中心规模占比达 35.0%,其次为基础电信 运营商,占比约为 25.6%。

国内资本开支浪潮迭起。海外四大 CSP 资本开支持续上升,25 年在 24 年高基数上保持 高增长,deepseek 推动下推理需求井喷,国内大厂把握 AI 浪潮,资本开支持续上升, 我们看到,在 deepseek 推动的国内 AI 高潮下,国内大厂资本开支有望持续超预期(类 比 24 年海外 CSP 如 meta 逐季上调资本开支预期)。我们认为国内 25 年资本开支也将 复制甚至超越海外 24 年资本开支增速,看好国内 2025 年资本开支大年带动订单增长。

H20 为中国主流算力芯片,出口限制下国产厂商替代空间广阔。TrendForce 集邦咨询分 析师龚明德表示,从AI服务器市场观察,目前中国市场主要GPU供应仍以NVIDIA((H20) 等为主力,一位英伟达算卡经销商在接受财联社采访时也表示 H20 是主流,其次是 A100, 性价比次之,4090 是‘改卡’(指消费卡用于专业计算)的,综合看不太合适企业。腾 讯和字节跳动一直是英伟达在中国市场的最大的两个客户,据 Omdia 数据,2024 年字 节跳动和腾讯分别订购了约 23 万颗英伟达的 AI 加速器(其中绝大部分是 H20),购买 量高居全球第二和第三,仅次于微软(购买了 48.5 万颗英伟达的 AI 芯片)。2025 年 4 月 2 日,《The Information》报道,包括字节跳动、阿里巴巴集团和腾讯控股在内的多家 中国公司在 2025Q1 订购了至少价值 160 亿美元的 H20。

从供应商库存来看,新华三表示 H20 的国际供应链面临重大不确定性,目前库存已接近 耗尽,预计 2025 年 4 月中旬将有新的货物出货,但是 4 月 20 日以后的供应计划还面临 原材料政策变化、运输中断和生产挑战等不确定性。2025 年 4 月 16 日英伟达披露,公 司的 H20 被美国列入了限制出口名单,该限制将造成公司 55 亿美元的减记损失。我们 认为,在美国对 H20 的出口限制下,国产芯片有望扛下算力需求大旗,替代空间广阔。

3.1 整机:生态伙伴网络庞大,配合昇腾二次开发

昇腾链接众多高新技术企业,构建生态伙伴网络。昇腾整机硬件伙伴要求拥有自有品牌 产品,能在昇腾产品基础上二次开发或加工生产,并销售与服务至最终用户,伙伴类型 分领先级、优选级、认证级。

1)昇腾战略级整机硬件伙伴: 昆仑技术: 昆仑技术是超聚变数字技术有限公司的全资子公司,致力于依托自主创新的软硬件研究 中心、先进智能制造以及开放的联合创新实验室等核心能力,响应国家战略,聚焦通用 计算、AI 异构计算、基础软件与数据服务等领域,提供稳定可靠、安全可信、绿色可持 续的 IT 产品与创新解决方案。 昆仑技术拥有 KunLun G2280、KunLun G5680 等多种型号的 AI 服务器。KunLun G2280 是一款 2U2 路 AI 服务器,是基于鲲鹏 920 与昇腾 310 的 AI 推理服务器,最大 可支持 8 个 Atlas 300I/V Pro 推理卡,AI 算力最大 1120TOPS INT8,为深度学习和推理 提供强大算力,广泛应用于中心侧 AI 推理如智慧城市、智慧交通、智慧金融等多场景。

KunLun G5680 是一款 4U4 路 AI 服务器,是基于鲲鹏 920 与昇腾 910 的 AI 训练服务 器,AI 算力可达 2.24 PFLOPS FP16,具有超强算力密度、超高能效与高速网络带宽等特 点。该服务器广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文 探索、石油勘探等需要大算力的行业领域。

华鲲振宇: 2020 年,华鲲振宇是由成都高新投资集团、申万宏源长虹股权投资基金等牵头成立的混 合所有制高科技创新企业,国资控股比例 60%,承接长虹计算产业战略转型升级重任, 聚焦“新计算 新存储”基础设施应用,打造基于“鲲鹏+昇腾”处理器的自主品牌“天 宫”系列计算产品。

华鲲振宇服务器年产能达 30 万台。华鲲振宇研发团队具备 IT 类产品软硬件自主设 计、开发能力,发挥长虹冠军集群制造优势,服务器年产能达 30 万台。在全国拥有 成都、北京、上海、广州、深圳五大销售中心,服务网点实现 100%直辖市省会城市 地级市覆盖,已服务超 30 家银行及金融机构客户。

2)昇腾领先级整机硬件伙伴: 神州鲲泰: 神州鲲泰是神州信创产业体系的重要组成部分。神州信创(北京)集团有限公司(简称: 神州信创)2020 年成立,为神州数码旗下全资子公司,也是神州数码自主品牌战略的重 要平台和承载者。 KunTai A722 是神州数码新一代数据中心 ARM 服务器,基于华为鲲鹏 920 处理器。 2U 双路机架式服务器具有高效能计算、安全可靠、开放生态的优势,适合为大数据、分 布式存储、原生应用、高性能计算和数据库等应用高效加速,旨在满足数据中心多样性 计算、绿色计算的需求。

3)昇腾优选级整机硬件伙伴: 长江计算: 武汉长江计算科技有限公司成立于 2020 年 5 月,是中国信息通信科技集团有限公司为 匹配国家总体战略布局、发展我国高新技术产业而成立的全资子公司,集服务器、计算 机、存储产品、云计算等相关软硬件产品的研发、生产、销售和售后于一体,独立运营 多样性计算产业。

公司控股股东为烽火通信。长江计算的控股股东——武汉长计科技有限公 司是烽火通信的全资二级子公司,烽火通信对其具有完全控制权。烽火通信是国际知名 的信息通信网络产品与解决方案提供商,主营业务立足于光通信,深入拓展至信息技术 与通信技术融合而生的广泛领域,是我国智慧城市、行业信息化、智能化应用等领域的 核心企业。

3.2 电源:芯片性能升级伴随功耗提升,带动价值量增长

AI 服务器供电分为柜外、rack、tray。高压电从电网进入数据中心后,服务器电源供应 器会先将交流电转为直流电,并降压到 48 伏特,这一步由 PSU 完成;接着,主板上的 DC/DC 转换器,再将电压转换成 CPU 用的 12 伏特和 GPU 用的 0.8 伏特低电压。 UPS:在电网中断时提供临时电力,保护数据免受损失,该设施在柜外,不包括在 rack 的供电设施中。 AC/DC 环节:将电网的交流电转换为适合服务器使用的 48V 直流电,该电源模块名 为 PSU,在 rack 中。 DC/DC 环节:进一步将 48V 直流电降至 CPU 用的 12 伏特和 GPU 用的 0.8 伏特低 电压,该设施在 tray 中,分为 Hot Swap、IBC 和 Vcore。 GB200 NVL72 采用 48 个 5.5kw PSU,1:1 冗余+sidecar 带动 PSU 需求提升。在 不考虑冗余的情况下,GB200 NVL36 机架每个机架有 2 个 power shelf,每个 power shelf 由 6 个 5.5kw 的 PSU 构成,一共提供 66kW 的电力,NVL72 将有 4 个 power shelf,提 供 132kW 的电力。根据微软,其在 Azure 中部署的 NVL72 单柜采用 8 个 power shelf, 即 48 个 PSU(8*6),也就是 1:1 冗余,此外侧柜中还有两个 power shelf,大幅提升 了电源的需求。我们认为,根据台达的 PSU 路线,后续 GB300、Rubin 有望采用 10kw PSU,功率密度提升以及 1:1 冗余的趋势下,将带动 AI 电源市场规模持续增长。

Atlas 800T A2 支持 4 个热插拔 2600w 电源模块,支持 2+2 冗余备份。Atlas 800T A2 适用于 AI 训练场景,满足大规模数据中心集群部署。Atlas 800T A2 训练服务器是基 于华为自研鲲鹏 920 处理器和昇腾 910 AI 处理器的 AI 训练服务器。服务器中包括 4 颗 鲲鹏 920 处理和 8 颗昇腾 910 AI 处理器,支持 4 个热插拔 2600w 电源模块,支持 2+2 冗余备份。Atlas 800T A2 广泛应用于深度学习模型开发和 AI 训练服务场景。该设备面 向公有云、互联网、运营商、政府、交通、金融、高校、电力等领域,具有高计算密度、 高能效比、高网络带宽、易扩展、易管理等优点,满足企业机房部署和大规模数据中心 集群部署。华为昇腾 910B 对标 A100,我们认为随着华为下一代芯片的升级,未来有 望对标英伟达 H100,8 卡形式下或将升级,电源模块价值量有望提升。

Atlas 900 A2 PoD 支持 24 个 PSU,单 PSU 3kw,最大支持 66kw 供电。Atlas 900 A2 PoD 集群基础单元支持 8 个 4U 计算节点,配置 4 台 DX511 交换机,支持 24 个 PSU, 单 PSU 3kw,最大支持 66kw 供电,具有高密度,高能效,高可靠,易拓展,一体化交 付,极简运维,低 TCO 等特点,支持大规模,高性能 AI 训练业务,可应用于人工智能 计算中心、运营商、云计算等重算力场景。我们认为,国内 AI 芯片迭代下,随着功耗逐 步提升,机柜形式下未来有望从 3kw 的 PSU 升级至目前海外 AI 服务器主流的 5.5kw PSU,进一步提升国内 AI 电源的市场空间。

泰嘉股份电源业务研发生产能力强劲。电源业务主要包括消费电子电源业务和大功率电 源业务(包括新能源智能光伏/储能电源、数据中心电源、站点能源电源业务)。公司拥 有高度自动化的电源产品生产线,可以为客户提供电源一站式解决方案;拥有完整的智 能制造系统,自主研发工厂管控和数字云端预警系统,IT 防呆系统,可实现制程 KPI 可 视化。泰嘉股份拥有国内领先的电源研发实验室,满足各个功率段电源产品研发的需求。 IQC、CFA 实验室具备各类型物料尺寸、电气参数、安规、可靠性、ROHS 检测能力。实 验室具备各种器件分析技术包括 X 射线、CT、超声扫描、EDX、化学解封、研磨,染色 实验,热成像,雪崩测试等进行失效机理及原因分析的能力。 泰嘉股份与华为长期合作。泰嘉股份自 2016 年与华为开展合作,积极对接华为各类电 源产品的生产业务。在 2024 年华为 EMS/ODM 现场改善表彰及动员大会上,子公司罗 定雅达荣获“2023 年度现场改善奖二等奖”,成为唯一获此殊荣的 EMS/ODM 电源供应 商。在未来,罗定雅达将继续深化与华为等优质客户的合作,加大研发投入,紧跟大客 户新品需求。

板卡层面,GPU、CPU 等算力芯片朝着更高性能升级也对供电系统提出更高要求。算力 的提升需要更大的耗电,这对供电电压调节器模块(VRM/Vcore)和负载点电源(PoL) 提出了严 峻挑战 ,包括 更高的 效率、 更高的功 率密度 ,以及 同时满 足处理器 di/dt>1000A/us 瞬态响应要求。

由多相控制器和 DrMos 组成的拓扑架构是目前公认的 GPU/CPU 供电场景的最佳解决 方案。每相 Buck 对应的半桥 MOSFET 可由包含驱动和温度/电流检测的 DrMOS 代替, 由一个控制器采集反馈的电压、电流、温度/错误等信号,并发出各 PWM 波实现功率的 闭环控制。控制器可通过特定协议的通信接口和信号指示 IO 口,与系统上位机或负载处 理器进行信号交互。多相控制器连接DrMOS可实现多相拓补结构的大电流DC/DC系统, 可大幅提升供电功率,优化能耗,提升整体性能,简化系统电源设计,是大功率供电芯 片的核心,也是 GPU 的主流供电形式。根据英飞凌,在 GPU Board(2GPU+1CPU)上 需要采用 36 颗芯片,价值量为 130 美元。

DrMOS+多相控制器产品矩阵逐步完善,多类产品已经实现量产爬坡。杰华特 DrMOS 和多相业务持续推进中,其中 30A~90ADrMOS 及 6 相、8 相、12 相等多相控制器均已 实现量产爬坡。目前,公司在 PC-服务器-AI-自动驾驶等应用领域已形成完整的 DrMOS+ 多相的产品矩阵。

3.3 散热:液冷渗透率不断提升,国产厂商机遇良多

单机柜功耗推动液冷技术应用。单机柜功耗从通算中心(传统数据中心)的 4~6KW 逐 渐增加至智算中心(AIDC)的 20~40kW,未来逐步发展至 40~120kW 甚至还要更高, 智算中心机柜呈现高密度化趋势。这将导致智算中心在 IT 负载和市电引入规模上大大高 于通算中心,也意味着将消耗更多的能源,同时也对资源产生众多新的需求,房间级风冷空调远端送风型式的散热能力上限为单机柜 25kW,当单机柜功耗超过 25kW 时,房 间级风冷空调很难满足服务器的散热需求。对于单机柜功耗在 25~80kW 的高密度散热 需求,可采用列间空调、背板式风冷、薄板风墙等近端送风或冷板液冷技术,其中液冷 技术因具有高效散热、低能耗、低噪声、占地面积小等突出的优势,成为智算中心制冷 系统的优先选择。

液冷技术主要包括冷板式液冷、浸没式液冷和喷淋式液冷技术三种,冷板式液冷、单相 浸没式液冷为主要形式。冷板式液冷采用微通道强化换热技术具有极高的散热性能,目 前行业成熟度最高;而浸没式和喷淋式液冷实现了 100%液体冷却,具有更优的节能效 果。当前,冷板式液冷、单相浸没式液冷为主要形式。从液冷系统通用架构及原理来看,室外侧包含冷却塔、一次侧管网、一次侧冷却液;室内侧包含 CDU、液冷机柜、ICT 设 备、二次侧管网和二次侧冷却液。 冷板式液冷是服务器芯片等高发热元件的热量通过冷板间接传递给液体进行散热, 低发热元件仍通过风冷散热的一种方式。 浸没式液冷是服务器完全浸入冷却液中,全部发热元件热量直接传递给冷却液,通 过冷却液循环流动或蒸发冷凝相变进行散热的一种方式。其中,作为传热介质的二 次侧冷却液在热量传递过程中仅发生温度变化,而不存在相态转变,过程中完全依 靠物质的显热变化传递热量的是单向浸没式液冷,作为传热介质的二次侧冷却液在 热量传递过程中发生相态转变,依靠物质的潜热变化传递热量的方式为两相浸没式 液冷。 喷淋式液冷是面向芯片级器件精准喷淋,通过重力或系统压力直接将冷却液喷洒至 发热器件或与之连接的导热元件上的液冷形式。

芯片侧,风冷芯片解热上限为 TDP<1000W,单相冷板液冷芯片解热上限为 TDP

2026 年液冷数据中心规模有望达 180 亿元,浸没式液冷快速发展。液冷数据中心具有 高密度、高集成、低碳绿色的优势,2023 年中国市场规模为 86.3 亿元,增速达 26.2%,高于全球 2 个百分点,连续三年保持 20%以上的高速增长。预计到 2026 年,中国液冷 数据中心市场规模将达到 180.1 亿元,同比增长 29.1%。浸没数据中心采用冷却液浸泡 的方式,实现 CPU、GPU 等主要算力部件的温度控制,散热效率较高,同时也减少了噪 声,2023 年的比重同比提高了近 3 个百分点,规模为 31.7 亿元。冷板数据中心在应对 高性能计算等极高功率场景的表现不如浸没数据中心,虽然居于市场主导位置,但比重 相比 2022 年有所下降,为 59.6%,规模为 51.4 亿元。喷淋数据中心相比 2022 年变化 不大,市场规模为 3.2 亿元。

英维克液冷技术 2024 年上半年收入翻倍,得益于 AI 算力需求增长。英维克是业内领 先的精密温控节能解决方案和产品提供商,致力于为云计算数据中心、算力设备、通信 网络、电力电网、储能系统、电动汽车充电桩、工业自动化、电源转换等领域提供设备 散热解决方案。随着 AI 等领域的蓬勃发展,算力密度不断提高,算力设备、数据中心机 柜的热密度显著上升,加快了液冷技术的导入。基于液冷需求的快速增长和英维克在液 冷的“全链条”平台优势,来自数据中心机房及算力设备的液冷技术相关营业收入在 2024 年上半年内增长至上年同期的 2 倍左右。

申菱环境 2024 年上半年液冷技术收入大幅增长,服务于数据中心等领域。申菱环境研 发生产专业特种空调为代表的空气环境调节设备,致力于为数据服务产业环境、工业工 艺产研环境、专业特种应用环境、公共建筑及商用环境等应用场景提供专业特种空调设 备、数字化的能源及人工环境整体解决方案。数据服务产品主要应用于云数据中心、算 力中心、通信基建、计算机技术服务、精密电子仪器生产等领域,用于对温度、湿度、 洁净度、气流分布等各项指标进行高精度、高可靠度调控,实现数据设备的稳定、高效、 持续化运行。主要产品包括房间级精密空调、列间行级精密空调、机柜级背板空调、元 件级液冷温控系统、直接蒸发冷却空调机组、间接蒸发冷却空调机组、蒸发冷却冷水机 组、自然冷却冷水机组、DPC 相变冷却系统、氟泵自然冷却机组、氟泵双循环机组、机 架式空调机组、恒湿机组、新风机组等。

3.4 连接:AI 背板连接器需求旺盛,国产替代亟待推进

背板连接器(Backplane Connector)是大型通讯设备、超高性能服务器和巨型计算机、 工业计算机、高端存储设备常用的一类连接器。其主要作用是连接单板和背板,单板和 背板间成 90 度垂直结构,传递高速差分信号、单端信号以及传递大电流。 背板连接器的主要特点有: 高速传输能力:高速背板连接器支持极高的数据传输速率。 高密度设计:为有限的空间内集成更多的触点,从而提高触点密度。减少信号间的 距离,但同时也增加了信号间相互耦合而产生的串扰风险。信号完整性保障:高速背板连接器在设计时需要考虑信号在传输过程中的稳定性和 可靠性,即信号完整性。 设计灵活性和可扩展性:保证较高的设计灵活度和设计余量,以便在不同应用场景 下实现扩展和升级。 材料选择与制造工艺:高速背板连接器通常由金属和塑料制成,金属提供更好的 EMI 屏蔽和机械强度,塑料则轻便且易于加工。制造工艺的精度和稳定性对连接器的性 能也有重要影响。 2025 年通信连接器市场规模达 600 亿元,外企垄断 AI 服务器高速连接器市场。根据 连接器世界网,在 AI 算力爆发与东数西算工程的双重驱动下,中国通信连接器市场正以 年复合增长率 30%-35%的速度扩容,预计 2025 年规模突破 600 亿元,其中 AI 相关连 接器占比超 70%,即 420 亿元,从竞争格局来看,外企在 AI 服务器高速连接器、新能 源高压系统等高端市场垄断 70%-80%份额,本土企业正面临技术突围与市场防御的双 重压力。

华丰科技连接器产品矩阵完善,有望实现国产替代。华丰科技是我国电连接器研发生产 的核心骨干企业及高新技术企业,长期从事光、电连接器及线缆组件的研发、生产、销 售,并为客户提供系统解决方案,目前已具备突破关键核心技术的基础和能力,掌握具 有自主知识产权的连接器核心技术。在通讯产业方面开发自主界面的 224Gbps-PAM4 互 连解决方案组合产品,包括近芯片(ASIC)互连解决方案、电缆和背板等。2024 年上半 年,公司新增申请专利 33 项,其中新申请发明专利 8 项,实用新型专利 24 项。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

来源:未来智库

相关推荐