摘要:随着大语言模型(LLM)规模持续扩张,其训练对计算算力与网络带宽的需求呈指数级增长。传统数据中心多采用 Clos 架构,虽能提供对称节点带宽,却因依赖大量高基数交换机与光模块,存在成本高昂、可用性低等问题,难以满足 LLM 训练的大规模、高带宽、低成本、高可用
电子发烧友网综合报道 在最近的Hot Chip2025大会上,华为进行了一场线上分享,提出了一种全新的AI数据中心网络架构UB-Mesh。
随着大语言模型(LLM)规模持续扩张,其训练对计算算力与网络带宽的需求呈指数级增长。传统数据中心多采用 Clos 架构,虽能提供对称节点带宽,却因依赖大量高基数交换机与光模块,存在成本高昂、可用性低等问题,难以满足 LLM 训练的大规模、高带宽、低成本、高可用四大核心需求(R1-R4)。
那么UB-Mesh是通过分层本地化 nD-FullMesh 拓扑与多维度优化,实现性能、成本与可用性的平衡。
UB-Mesh 的设计遵循三大核心原则:一是流量驱动拓扑(P1),利用 LLM 训练中张量并行(TP)、序列并行(SP)占 97% 流量且集中于近距离节点的特性,构建分层网络;二是拓扑感知计算通信(P2),将并行策略、路由等与拓扑深度协同,避免带宽浪费;三是自愈容错(P3),通过硬件备份与快速故障恢复,保障训练连续性。
UB-Mesh的整体架构设计,展示了从2D-FullMesh(机柜内)到4D-FullMesh(Pod内)再到SuperPod的扩展方式。
在核心架构设计上,UB-Mesh 以nD-FullMesh 拓扑为基础,通过 “维度递推” 实现规模化扩展:从板级 1D 全连接(相邻 NPU 直接互连),到机架级 2D 全连接(1D mesh 间互连),最终形成 Pod 级 4D-FullMesh(UB-Mesh-Pod),可支持 8K NPU 的高带宽域。UB-Mesh-Pod是一个由1024个NPU组成的4D-FullMesh集群。该集群内部,每个机柜包含64个NPU,构成一个2D-FullMesh;16个这样的机柜再构成一个2D-FullMesh,从而形成一个4D-FullMesh的Pod。
该拓扑以短距离电连接为主(占比 86.7%),大幅减少对高成本光模块与交换机的依赖,同时通过灵活带宽分配,为近距离通信(TP/SP)提供高带宽,远距离通信(数据并行 DP)分配低带宽,精准匹配 LLM 流量特征。
硬件层面,UB-Mesh 通过统一总线(UB) 实现组件互连,替代传统混合互连(PCIe/NVLink/IB),支持 Load/Store 等同步操作与 Read/Write 等异步操作,不仅简化驱动设计,还实现 IO 资源灵活分配与硬件资源池化(如 CPU、NPU、DDR 共享)。核心硬件包括支持 72 路 UB 通道的 NPU、32 路 UB 通道的 CPU,以及低基数交换机(LRS,用于机架内聚合)、高基数交换机(HRS,用于 Pod 间互连)。此外,架构采用 “64+1 备份设计”,每机架额外配置 1 个备用 NPU,节点故障时可通过 LRS 快速切换,仅增加少量延迟而不中断训练。
为解决架构落地挑战,UB-Mesh 提出多维度优化机制。路由方面,创新全路径路由(APR) ,结合源路由(8 字节紧凑头实现路径指示)、结构化寻址(按 Pod / 机架划分地址段,减少路由表开销)与拓扑感知无死锁流控(TFC 算法,仅用 2 个虚拟通道实现无死锁),充分利用多路径带宽,避免拥塞。故障恢复方面,采用 “直接通知” 机制,节点故障时直接向通信目标节点发送信息,相比传统逐跳通知,大幅缩短收敛时间。通信优化方面,针对 All-Reduce 设计多环算法,通过 idle 链路复用与流量分区提升带宽利用率;针对 All-to-All 采用多路径传输与分层广播 / 归约,适配 MoE 模型的专家并行需求。
实验验证显示,UB-Mesh 相比传统 Clos 架构优势显著:成本效率提升 2.04 倍,减少 98% 高基数交换机与 93% 光模块使用,网络基础设施成本占比从 67% 降至 20%;可用性达 98.8%,较 Clos(91.6%)提升 7.2%,其 Mean Time Between Failure(MTBF)达 98.5 小时,是 Clos 的 7.14 倍;在 LLAMA-70B、GPT3-175B、MoE-10T 等模型训练中,性能仅下降 7% 以内,且集群规模扩展至 64 倍时,线性度仍保持 95% 以上,可支持超大规模 LLM 训练。
UB-Mesh架构通过其创新的nD-FullMesh拓扑、统一总线技术以及一系列系统级优化,成功地解决了大规模LLM训练所面临的“通信墙”问题。它不仅在理论上证明了分层局部化网络设计的优越性,更在实践中展示了其在成本、性能和可靠性方面的巨大优势。UB-Mesh为构建下一代超大规模、高性价比的AI计算集群提供了一个强有力的范例,预示着AI基础设施设计的一次重要范式转移。
来源:核芯产业观察