moe模型资讯

大模型推理，得讲性价比

如今，后发优势再一次来到了大洋此岸，以华为为代表的中国科技企业，纷纷提出对MoE架构的优化重组方案。尤其是华为的MoGE架构，不仅克服了MoE负载不均衡及效率瓶颈的弊病，还能够降本增效，便于训练和部署。

5月30日，北京。在AI训练领域，一件大事炸开了锅：华为团队正式对外发布了全流程基于国产昇腾算力、自主研发的盘古Ultra MoE准万亿级大模型，参数量直接拉满到7180亿，技术报告也同步亮相。一时间，国产AI基础设施到底能不能站稳脚跟引发全网热议。

5月30日，证券时报·券商中国记者从华为获悉，华为在MoE模型训练领域再进一步，重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。同时，华为发布盘古Ultra MoE模型架构和训练方法

近日，华为在MoE模型训练领域再进一步，推出参数规模高达7180亿的全新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告，披露众多技术细节，充分体现了昇腾在

华为日前在MoE模型训练领域再进一步，推出参数规模高达7180亿的全新模型——盘古Ultra MoE。这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时还发布了盘古Ultra MoE模型架构和训练方法的技术报告，披露众多技术细节，充分体现了昇腾

近日，华为在MoE模型训练领域再进一步，重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告，披露众多技术细节，充分体现了昇

近日，华为在MoE模型训练领域再进一步，重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告，披露众多技术细节，充分体现了昇

Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型。最近华为盘古团队发布了Pangu Ultra MoE模型架构和训练方法的技术报告[1]，进一步披露了这个模型的细节。

从2017年Google提出Transformer——这一人工智能中最常用的神经网络架构，到DeepSeek V3/R1在2025年春节一夜爆火，超大规模MoE架构大模型的重点逐渐从训练开发转向推理支撑的应用落地。

从2017年Google提出Transformer——这一人工智能中最常用的神经网络架构，到DeepSeek V3/R1在2025年春节一夜爆火，超大规模MoE架构大模型的重点逐渐从训练开发转向推理支撑的应用落地。

要问最近哪个模型最火，混合专家模型（MoE，Mixture of Experts）绝对是榜上提名的那一个。

4 月 29 日，阿里巴巴发布并开源了最新一代大语言模型Qwen3系列。本次开源了Qwen3-235B-A22B和Qwen3-30B-A3B两款 MoE 模型以及Qwen3-32B、14B、8B、4B、1.7B、0.6B多款密集模型。

思考模式：面对复杂数学推导（如 AIME25 测评 81.5 分）、代码生成（LiveCodeBench 评测 70 分）等任务时，模型会通过多步骤推理输出详细过程，支持最高 38k token 的动态思考预算。开发者可通过/think指令逐轮控制模式，甚至在

因为基准测试成绩与实际表现相差较大，近期开源的 Llama 4 系列模型正陷入争议的漩涡之中，但有一点却毫无疑问： MoE（混合专家）定然是未来 AI 大模型的主流范式之一。从 Mixtral 到 DeepSeek 再到 Qwen2.5-Max 以及 Lla

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqiz

模型 moe moe模型 2025-01-24 14:52 20