关于华为CloudMatrix384昇腾AI云服务,看这一篇就够了!

360影视 欧美动漫 2025-06-20 17:29 2

摘要:CloudMatrix384是一个超节点(Super Node),相当于一台超级“服务器”。它搭载了384颗华为昇腾NPU和192颗鲲鹏CPU,单卡推理吞吐量可以达到2300 Tokens/s。同时,推理的时延也得到了极大降低,原来100ms的增量Token输

前段时间,华为发布了一款针对AI智算场景的重磅产品——CloudMatrix384,在行业内外引起了不小的震动。

CloudMatrix384是一个超节点(Super Node),相当于一台超级“服务器”。它搭载了384颗华为昇腾NPU和192颗鲲鹏CPU,单卡推理吞吐量可以达到2300 Tokens/s。同时,推理的时延也得到了极大降低,原来100ms的增量Token输出时延,现在降低到了50ms以下。

舆论普遍认为,在目前全球AI算力需求高速增长的背景下,CloudMatrix384的横空出世,将彻底打破国外对AI算力市场的垄断,改变中国乃至全球AI产业的格局。

小枣君一直想写一篇关于CloudMatrix384的文章,但苦于官方公开的资料太少,迟迟无法下笔。

现在,机会终于来了。

今天,华为开发者大会2025在东莞正式开幕。在主题演讲环节,华为常务董事、华为云计算 CEO张平安宣布,基于CloudMatrix384的昇腾AI云服务已经全面上线,提供澎湃算力,供各行各业客户使用。

在演讲中,他还透露了更多的产品细节,进一步揭开了CloudMatrix384昇腾AI云服务的神秘面纱。

张平安演讲发言

接下来,小枣君就结合最新信息,给大家做个深入解读。

█ CloudMatrix384的核心设计理念

如前面所说,CloudMatrix384是一个超节点,也是一个AI智算集群。

AI智算集群分为两种模式,一种是Scale Up,另一种是Scale Out。

Scale Up是向上扩展(纵向扩展),增加单节点内的GPU/NPU算卡数量。Scale Out是向外扩展(横向扩展),增加节点的数量。

拥有16卡以上的Scale Up系统,就是超节点。CloudMatrix384拥有384卡,算是目前超节点中规模最大的。

那么,CloudMatrix384是不是简单地把384个卡“绑定”在一起,进行算力的叠加呢?

答案当然是否定的。

CloudMatrix384发布之后,很多人都只关心算力的大小,但实际上,这款产品最大的看点,在于它的设计理念。

华为在发布CloudMatrix384时,反复强调了三句话,即:“一切可池化”“一切皆对等”“一切可组合”

这就是CloudMatrix384的核心设计理念。看懂了这三句话,才能真正看懂这款产品。

我先解释一下这三句话的基本含义:

一切可池化,指的是在CloudMatrix384中,所有的资源都在资源池里。这个资源,不仅包括NPU,也包括CPU、内存、网络。(英伟达仅实现了GPU池化。)

一切皆对等,指的是资源池里的资源不再是主从式关系,而是对等关系。传统的以CPU为中心的计算范式,已经转变为更高效、更灵活的CPU与NPU等对等架构。

一切可组合,则是指CloudMatrix384中池化的资源,可以根据不同的任务需求,像搭积木一样,进行灵活调配组合。

华为认为,在人工智能大爆发的时代,单一类型的计算资源,单一节点的计算能力、存储能力,以及配比固定、松散协同的扩展模式,已经难以满足日益复杂且快速变化的应用部署需求。

与其在传统计算互联构架上修修补补,不如创建一个新的架构。

CloudMatrix架构将NPU、CPU、内存、网卡等所有资源完全解耦,形成可以独立扩展的资源池,实现“由单算力转向混合算力,由单机转向集群,由传统应用松散分布转向多样应用紧密融合”,是一个真正对等互联的超节点架构。

大家看明白了吗?我总结一下:

CloudMatrix384,是华为打造的新一代AI云基础设施,实现了所有资源的逻辑解耦和对等池化,能够更好地应对不断增长的AIGC大模型训推任务需求。它的核心思想,就是用“对等互联池化”打造“强整体”,以系统化的思维,应对大模型训推带来的算力挑战。

接下来,我们就根据具体的计算任务场景,看看CloudMatrix384是如何实现算力效率提升的。

█ Scale Up最强超节点

CloudMatrix384是一个拥有384个昇腾NPU的超节点,通过全新高速网络MatrixLink全对等互联,变身为一台超级“服务器”。

这台“超级服务器”为AI而生,它的架构设计,能够更好地匹配大模型的训推任务。

我们举个分布式推理技术的例子。

现在包括DeepSeek在内的很多热门大模型,都采用了MoE(Mixture of Experts,混合专家)架构。整个模型,包括了多个专门的子模型(“专家”),存在大量的专家并行(EP,Expert Paralelism)计算。

MoE架构

CloudMatrix384基于华为云分布式QingTian等技术,达成了一切可池化。它所提供的超强卡间互联能力,能够让DeepSeek实现“一个专家一张卡”的模式,大幅提升推理任务的效率。

原因如下:

AIGC大模型推理过程包括了Prefill(预填充)和Decode(解码)两个阶段,大模型推理要实现Prefill阶段的"高吞吐"和Decode阶段的的"低时延"。

Prefill阶段和Decode阶段

DeepSeek有256个固定专家+32个共享专家(288张卡),加上一些冗余卡(应对负载不均衡的情况),一共320张卡,用于Decode。Prefill大概会用到32张卡。加在一起,就是352张卡。

CloudMatrix384的384卡可以“一卡一专家”地完美契合这352张卡的计算任务,基于卡间互联能力,能够实现all to all(Full mesh)通信。值得注意的是,它不是单纯叠卡的“大力出奇迹”,而是通过技术调优来达成“高吞吐”和“低时延”的目标。

我们也可以用更简单的方式来理解——

通过将计算任务在跨节点的专家间进行分布式处理,使得单次推理的批量大小(batch size)得以大幅增加。更大的批量处理能力可充分释放并行计算潜力,减少单位计算的调度开销,从而实现整体吞吐量的提升。

CloudMatrix384的池化算力资源,还可以更灵活地分工完成这些工作。分工肯定会带来很多沟通成本(通信开销),而CloudMatrix384的卡间通信能力,能够hold得住这些成本。再举一个池化架构帮助降低系统时延的例子:

大模型推理任务涉及到了一个KV Cache(键值缓存)技术。Prefill生成KV Cache,Decode使用和更新KV Cache。KV Cache会不断增长,占用更多显存。

KV Cache

前面说了,CloudMatrix384的池化不仅包括算卡,也包括内存。它创建的解耦式共享内存池(把所有的CPU高速内存凑一块),可以保存KV Cache,让Prefill和Decode任务更快速、更均衡地访问KV Cache,降低系统延迟。

根据上面这些例子,大家可以看出,CloudMatrix384的强大卡间通信能力和池化设计,是它实现高性能、高效率的关键因素。

在这些buff的加持下,CloudMatrix384不仅单节点算力很高(300Pflops),它的单卡计算和通信效率也非常惊人。CloudMatrix384的节点内互联带宽高达2.8Tbps,远高于英伟达的1.8Tbps。

这里还要补充说明一下:CloudMatrix384的强大卡间通信能力,得益于华为云Matrixlink亲和性智能调度、重构网络协议等技术能力,大幅提升了带宽,降低了时延。

这些技术创新共同发挥作用,最终能将整体all to all通信效率提升30%。

█ Scale Out最大集群

我们刚才介绍了CloudMatrix384的Scale Up能力。接下来,我们看看Scale Out。

人工智能发展到现在,已经迈入了万亿参数时代。如此庞大规模参数的模型训练,动辄需要万卡、十万卡。

CloudMatrix384的Scale Out能力同样很强。将432个CloudMatrix384进行级联,可以形成一个165888卡(384×432)的超级AI集群,提供10万PFlops的惊人算力。

CloudMatrix384不仅能构建超大集群,还能实现极高的线性度。

线性度,就是1+1要尽量等于2。通常来说,算卡越多,损耗越多,线性度越差,1+1甚至可能只有1.6甚至1.2(举例)。

线性度

CloudMatrix384的万卡集群线性度可以做到95%以上,性能提升与资源扩展的比例接近1:1。

之所以能做到这一点,是因为华为云通过一系列算法和软件调优,很好地解决了通信瓶颈和负载不均衡等会对线性度造成严重影响的问题。

例如,运用多任务算网存融合负载均衡算法,协同调度,实现全网无阻塞;结合集群并行调度等技术,提升资源的使用效率以及开发者的开发效率;在算力请求增加或减少时,系统能够合理分配计算资源,实现节点内(Scale Up)秒级伸缩,节点间(Scale Out)毫秒级极速弹性。

█ 资源极致优化,负载智能感知

前面我们已经说过了,CloudMatrix384的所有资源都是池化的。这为资源的优化调度创造了条件。

在大模型推理过程中,有些任务是计算密集型,有些任务是内存(显存)密集型。通过“一切可组合”,可以实现资源的最佳分配。

以前面提到的Prefill(预填充)和Decode(解码)两种任务为例。前者属于典型的计算密集型,后者则是内存带宽密集型。

CloudMatrix384可以根据NPU资源情况、业务请求数据等多因子,估算负载的态势,并结合新的编排模型,实现Prefill/Decode按比例组合,以及Prefill/Decode单独扩缩容。这提升了计算资源分配的合理性,减少了资源闲置,节约了成本。

CloudMatrix384还支持训推算力一体部署,比如白天推理,晚上训练。训推的算力可以按卡灵活分配,帮助客户最优使用资源。

这边要提一下CloudMatrix384的“40天长稳训练、10分钟快速恢复”能力。

大家都知道,AI大模型训练经常会出错中断。中断后,需要时间进行恢复。这不仅拉长的训练周期,也增加了大量的训练成本。

CloudMatrix384借助昇腾云脑,实现了全栈故障感知、诊断与快速自动恢复。在快速恢复方面,CloudMatrix384配合“三层快恢技术”,可以实现万卡集群故障10分钟快速恢复。

█ 最后的话

前不久,华为任正非在接受人民日报采访的时候,说了这么一句话:

“我们单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。”

这句话,不正是指的CloudMatrix384超节点吗?

任老爷子还是很坦诚的,华为昇腾芯片的单芯片算力确实不如英伟达的最新竞品,而且,这个差距也不是短时间内能够弥补的。

但是,“单打独斗”不行,可以“抱团”啊。正所谓“团结就是力量”,通过对等互联池化,在底层架构上进行创新,也可以实现计算效率的提升,获得竞争优势。

对于全球AI产业来说,摩尔定律逐渐放缓,芯片工艺制程越来越难提升,与其在单点算力上抓耳挠腮,不如学习一下华为,重构计算互联架构,才能更好地适应新时代的需求,实现真正的系统最优。

目前,CloudMatrix384昇腾AI云服务已经在芜湖、贵安、乌兰察布、和林格尔等地的华为云数据中心规模上线。

新浪基于CloudMatrix384昇腾AI云服务,为“智慧小浪”智能服务体系构建了统一的推理平台,推理的交付效率提升超过50%,模型上线速度成倍加快。通过软硬协同调优,NPU利用率提升超过40%,让每一份资源都得到更高效的使用。

硅基流动在CloudMatrix384昇腾AI云服务上部署DeepSeek-R1时,采纳了大规模专家并行方案,通过多专家负载均衡和极致通信优化,实现高吞吐及更高性能,大幅提升了用户体验。

总而言之,希望CloudMatrix384能走出一条属于自己的特色发展之路,也希望国内AI产业能带来更多类似的创新产品。

日积月累,我们一定能够实现弯道超车,打破垄断,真正在国际舞台上与巨头们同台竞技,甚至引领全球AI发展。

来源:鲜枣课堂一点号

相关推荐