国产AI真的被华为“卷”疯了?Ultra MoE模型横空出世!
5月30日,北京。在AI训练领域,一件大事炸开了锅:华为团队正式对外发布了全流程基于国产昇腾算力、自主研发的盘古Ultra MoE准万亿级大模型,参数量直接拉满到7180亿,技术报告也同步亮相。一时间,国产AI基础设施到底能不能站稳脚跟引发全网热议。
5月30日,北京。在AI训练领域,一件大事炸开了锅:华为团队正式对外发布了全流程基于国产昇腾算力、自主研发的盘古Ultra MoE准万亿级大模型,参数量直接拉满到7180亿,技术报告也同步亮相。一时间,国产AI基础设施到底能不能站稳脚跟引发全网热议。
5月30日,证券时报·券商中国记者从华为获悉,华为在MoE模型训练领域再进一步,重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。同时,华为发布盘古Ultra MoE模型架构和训练方法
近日,华为在MoE模型训练领域再进一步,推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节,充分体现了昇腾在
华为日前在MoE模型训练领域再进一步,推出参数规模高达7180亿的全新模型——盘古Ultra MoE。这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时还发布了盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节,充分体现了昇腾
近日,华为在MoE模型训练领域再进一步,重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节,充分体现了昇
近日,华为在MoE模型训练领域再进一步,重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节,充分体现了昇
Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型。最近华为盘古团队发布了Pangu Ultra MoE模型架构和训练方法的技术报告[1],进一步披露了这个模型的细节。
从2017年Google提出Transformer——这一人工智能中最常用的神经网络架构,到DeepSeek V3/R1在2025年春节一夜爆火,超大规模MoE架构大模型的重点逐渐从训练开发转向推理支撑的应用落地。
从2017年Google提出Transformer——这一人工智能中最常用的神经网络架构,到DeepSeek V3/R1在2025年春节一夜爆火,超大规模MoE架构大模型的重点逐渐从训练开发转向推理支撑的应用落地。
要问最近哪个模型最火,混合专家模型(MoE,Mixture of Experts)绝对是榜上提名的那一个。
4 月 29 日,阿里巴巴发布并开源了最新一代大语言模型Qwen3系列。本次开源了Qwen3-235B-A22B和Qwen3-30B-A3B两款 MoE 模型以及Qwen3-32B、14B、8B、4B、1.7B、0.6B多款密集模型。
思考模式:面对复杂数学推导(如 AIME25 测评 81.5 分)、代码生成(LiveCodeBench 评测 70 分)等任务时,模型会通过多步骤推理输出详细过程,支持最高 38k token 的动态思考预算。开发者可通过/think指令逐轮控制模式,甚至在
因为基准测试成绩与实际表现相差较大,近期开源的 Llama 4 系列模型正陷入争议的漩涡之中,但有一点却毫无疑问: MoE(混合专家) 定然是未来 AI 大模型的主流范式之一。从 Mixtral 到 DeepSeek 再到 Qwen2.5-Max 以及 Lla
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqiz