中信建投 | 华为发布Pangu Ultra MoE 模型中文技术报告

360影视 日韩动漫 2025-06-04 13:48 2

摘要:华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告,披露了模型的细节,其核心突破在于实现了“全栈国产化”——完全基于昇腾AI计算平台训练,参数量达7180亿,是中国首个自主可控的超大规模稀疏混合专家模型(MoE)。这一成果标志

华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告,披露了模型的细节,其核心突破在于实现了“全栈国产化”——完全基于昇腾AI计算平台训练,参数量达7180亿,是中国首个自主可控的超大规模稀疏混合专家模型(MoE)。这一成果标志着国产AI基础设施在硬件、软件及工程落地上完成了闭环验证。实际应用中,盘古Ultra MoE展现出卓越的复杂任务处理能力,例如2秒内完成高等数学题目解析。其衍生模型盘古Pro MoE(720亿参数)通过动态激活160亿参数,在SuperCLUE榜单中位列国内千亿级模型第一,性能媲美更大规模模型。这一系列成果不仅验证了昇腾平台超越英伟达Hopper架构的推理性能,更在全球AI竞赛中为中国确立了技术自主的新路径。

Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型,最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告,披露了这个模型的细节。

华为盘古Ultra MoE作为中国首个准万亿级(7180亿参数)全自主训练的稀疏混合专家模型,其核心突破在于完全基于昇腾AI计算平台实现训练闭环,摆脱了对GPU的依赖。为攻克超大规模MoE训练的稳定性难题,华为团队创新提出DSSN(深度缩放夹心归一化)架构与TinyInit小初始化方法,成功支撑超过18TB数据的长期稳定训练,避免了训练过程中的梯度突变和损失震荡。同时,通过EP loss负载均衡机制优化专家分工,结合MLA(多层注意力)与MTP架构,在预训练和后训练阶段均采用Dropless策略,显著提升计算效率与专家领域特化能力。最终模型在多个权威开源评测集上展现出一流的效果。

在训练系统优化层面,华为实现了三项关键突破:并行策略智能优化:通过建模仿真框架自动搜索最优并行配置,采用16路流水线并行、8路张量并行和32路专家并行的混合策略,将专家并行通信开销压缩至接近零(

华为盘古Ultra MoE的发布标志着“国产算力+国产模型”全流程自主可控的实践完成,衍生模型盘古Pro MoE(720亿参数)通过动态激活160亿参数,性能媲美千亿模型,在SuperCLUE榜单位列国内千亿级模型首位15,印证了MoE架构在成本与效能上的双重优势。实际应用中,该系列模型展现出卓越的复杂任务处理能力,如2秒内解析高等数学大题,并在科学计算、工业级AI代理等领域落地。昇腾平台在MoE推理性能上超越英伟达Hopper架构,CloudMatrix超节点技术对标NVL72。

北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;公司生产和交付延期,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。

于芳博:中信建投人工智能组首席分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖人工智能等方向,下游重点包括智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。

辛侠平:中信建投证券人工智能行业分析师,中央财经大学硕士,曾从事通信行业研究工作,2022年加入中信建投人工智能团队,重点覆盖人工智能、AI芯片、智能驾驶等领域。

证券研究报告名称:《华为发布Pangu Ultra MoE 模型中文技术报告》

对外发布时间:2025年6月2日

报告发布机构:中信建投证券股份有限公司

本报告分析师:

来源:点滴财学

相关推荐