与时代共昇腾！

摘要：2025年3月21日，在华为中国合作伙伴大会期间，昇腾人工智能伙伴峰会在深圳正式召开。会上，华为昇腾计算业务总裁张迪煊发表了《与时代共昇腾》的演讲。他表示，长思考能力将scaling延展到推理，集群推理成为大模型推理系统的标配，昇腾率先落地大规模专家并行方案

2025年3月21日，在华为中国合作伙伴大会期间，昇腾人工智能伙伴峰会在深圳正式召开。会上，华为昇腾计算业务总裁张迪煊发表了《与时代共昇腾》的演讲。他表示，长思考能力将scaling延展到推理，集群推理成为大模型推理系统的标配，昇腾率先落地大规模专家并行方案，平均单卡性能提升到原来的3~4倍。

华为昇腾计算业务总裁张迪煊

全文如下

尊敬的各位领导、各位来宾，线上/线下的伙伴们、朋友们，大家下午好！很高兴和大家相聚在合作伙伴大会计算峰会的现场。当下，人工智能已经成为推动世界发展的核心驱动，昇腾作为智能化底座，在各位伙伴和开发者朋友们的共同支持和努力下，得到了快速发展。我谨代表华为昇腾计算业务，再次感谢大家，欢迎大家的到来！

今天我的演讲主题是：与时代共昇腾！

每年，AI都在突破我们预设的认知边界，从图像识别到艺术创作，从信息检索到逻辑推演，每一天都是探索的起点。朋友们，你准备好每年重启一次认知边界了吗？

唯有持续创新才能与时代同频

认知的突破源于技术的跃迁。2012年，机器视觉完成从理论到应用的蜕变；10年后，ChatGPT完成从感知理解到生成创造的跨越；不到2年，Sora实现从语言到视觉的衔接；仅1年，DeepSeek又实现从内容生成到逻辑推理的进化；多模态、长序列、思维链、强化学习等技术的密集爆发，推动模型迭代进入指数级加速的新纪元。时代的变化永不停歇，唯有持续创新才能与时代同频。应用的创新已经不再围绕单模型能力，而是发挥每个模型专长，协同增效。每次长思考的逻辑推理，都会带来额外20倍的token生成，随之而来的是百倍的推理算力需求，AI推理也从“单卡加速”走向“分布式推理加速”，需要在性能与收益之间找到最佳平衡。

如今，业界不仅在模型结构上创新，还延伸到“训推全流程”的工程创新，下探到底层硬件资源的极致利用。

这些变化激发着AI创新的觉醒。伴随着越来越多的企业、高校、科研机构及开发者的加入，人工智能产业将迸发出更加旺盛的创新活力，也是构建自主AI生态的黄金时期，未来充满想象与机遇！

2025进入大模型应用元年

DeepSeek揭开了AI自主创新的序幕，高质量模型+后训练范式大幅提升行业模型效果，降低行业落地门槛，带来技术平权。

AI开发从“实验室特权”变为“全民工具箱”，中小团队占据了AI创新的半壁江山；需求驱动行业场景倍增，让应用不再聚焦于头部企业，而是在千行万业的业务流中涌现。

我们都知道，移动互联网时代，流量是衡量产业发展的量纲；AI时代，Tokens成为新的衡量标准，2024年年初，中国日均Token消耗量为1千亿，今天每日消耗量已达到了十万亿级，1年增长100倍。

我们将以“中国速度”迎来大模型的应用元年！

昇腾携手伙伴与时俱进

在创新的道路上，昇腾与时共进，加速前行。

今年春节前夕，DeepSeek R1快速席卷了国内外AI技术圈及产业界。而昇腾早在去年年中，DeepSeek V2发布的时候，就已经联合幻方团队完成了模型结构适配及性能的调优。

依托已沉淀的经验和技术积累，昇腾几乎在R1上线的同时就完成了昇腾版本的发布。同时在春节期间，昇腾也与伙伴硅基流动共同作战，迅速面向全国用户第一时间提供DeepSeek的线上服务，在新春的烟花点亮夜空时，为大家献上AI的厚礼。如今，硅基新增用户数突破了300万，增长了800%！

春节随后的2周，当国内友商还在探索适配DeepSeek的时候，昇腾已经围绕融合算子、通信优化、并行加速、推理系统、强化学习 5大方向实现工程技术创新，让一体机性能实现翻番。并率先落地大规模专家并行技术，让推理性能实现再翻番，支撑伙伴抓住推理新机遇。

同时昇腾率先完整复现Open-R1后训练全流程，并将能力沉淀成套件及解决方案，开放给伙伴，支撑伙伴抓住后训练新机遇。

春节过后的一个月，已有超过80个伙伴基于昇腾落地大模型应用一体机、国内25城人工智能计算中心也全都上线DeepSeek，为本地的高校、企业及科研院所提供即时可用的服务。

目前已有超过150家企业基于昇腾部署上线DeepSeek，比如：

龙岗政数局是第一家上线DeepSeek的政府部门，为全区两万多名公职人员提供政务办公、城市治理、民意速办等服务；

东南大学依托昇腾算力平台本地部署，在校园网内，师生通过访问链接，可无限次免费体验“满血版”DeepSeek，彻底告别“服务器繁忙”困扰。服务上线即刻引发使用热潮，上线一小时，用户访问数即突破千人；上线近一周，日均生成超1亿token 。

这些成果离不开每一位伙伴的付出，感谢各位伙伴一路陪伴，与昇腾同行！

昇腾AI基础软件栈全新升级发布

一直以来，昇腾坚持聚焦根技术创新，并结合业界的反馈和建议，不断迭代和演进各个能力组件，以满足不同时期的需求。今天，面向大模型深度创新的时代，昇腾全新升级昇腾AI基础软件栈！

在架构上，面向不同开发诉求及场景，实现了更清晰的分层：

硬件使能层CANN深度开放，从上层图引擎到底层运行时，从融合算子到通信算法，释放硬件极致性能，使能伙伴及客户自主创新。AI框架层支持业界生态，早在2023年10月Pytorch开源社区就已官方宣布支持昇腾，上个月，vLLM开源社区也已官方宣布拥抱昇腾，这意味着当前所有训练和推理上的创新都可以基于昇腾快速实现。同时，昇思在大家的贡献下，也在持续演进，最近，鹏城实验室基于昇思发布GRPO强化训练框架，率先突破了大模型强化学习技术全栈壁垒。

应用使能层沉淀极致加速能力，训练加速库实现从单任务加速到多任务加速；推理引擎支持从单卡加速到大规模专家并行集群的极致加速。

从预训练到后训练，使能模型高效创新

无论是预训练还是后训练，都需要基于业务数据快速迭代，Time to Accuracy是最关心的指标之一，也代表着企业投入训练的成本。

面向预训练，昇腾通过超节点集群架构创新满足前沿模型探索，依托高速总线互联，混合并行加速等技术，训练效率提升2.7倍；同时，基于CCAE集群故障预测及断点续训的能力，大规模集群平均无故障运行时间从几小时提升到几天，支撑客户更短时间完成基础大模型预训练。

强化学习技术的成熟，让每个企业都有机会打造属于自己的“R1模型”。

昇腾率先复现了后训练全流程，并沉淀成套件及解决方案，使能所有伙伴和客户更敏捷迭代匹配场景的行业模型。

今天，昇腾将发布业界首个强化学习开发套件MindSpeed RL。

业界首个强化学习开发套件MindSpeed RL提供了从数据准备、模型获取到训练启动、模型评估的全流程工具、脚本及算法，并在Gitee上开源，致力于通过能力及技术赋能，降低后训练门槛，助力伙伴及客户构建更强大的后训练系统。强化学习是一个通过“探索 - 反馈 - 优化” 循环实现智能决策的过程，涉及到训练与推理系统的频繁交互，这对训推系统间数据同步效率及通信效率提出了更高的挑战。昇腾提供了业界首个大规模MoE训推共卡强化学习技术，通过训推参数同步、权重动态转换、共卡调度控制实现千亿参数规模下的训推共卡切换，节省训练资源的同时，提升交互效率。同时，面对生成、前向、训练三个核心环节中相互等待的问题，昇腾提供了创新的多模型异步流水调度方案，利用MBS动态内存优化切分技术，将通信与计算充分并行，实现流水掩盖，相较于原始GRPO算法，可以将流水掩盖性能提升10%以上。欢迎大家在Gitee上下载使用，打造自己的行业R1模型！

率先实现大规模专家并行方案

长思考能力将scaling延展到推理，Tokens已经成为衡量推理系统的唯一标准，集群推理成为大模型推理系统的标配，系统即要确保用户的低时延响应，又需要提高整体吞吐，以最大化推理的经济价值。

为了实现大模型推理的极限计算，昇腾从算子到推理系统全面创新。针对MoE架构，国内首创大规模专家并行方案，通过将MoE模型的多专家权重数据分散部署到更多的卡上，降低单卡权重加载时延，让模型解码输出更快；同时，单卡内存容量占用的降低，能够支持更大用户并发所需的KV缓存，实现系统的更大吞吐性能。

复杂的并行方案带来了更多的通信开销，昇腾独创双流并行等优化技术，通过计算、访存、通信的相互掩盖，将all2all通信时延降低50%；提供PA+MLAPO融合算子将计算耗时降低70%；通过多专家动态均衡，实现20%以上的资源利用率提升。

就在上周，昇腾与科大讯飞携手，发布了国内首个大规模专家并行方案，也是继DeepSeek公布其MoE模型训推方案后，业界首个基于自主创新的算力平台的全新解决方案。平均单卡性能提升到原来的3~4倍。面向未来，昇腾将持续在此基础上叠加超节点等更多的创新技术，单卡性能可以再次提升5~10倍以上，持续保持大规模吞吐领先。

一体机解决方案加速伙伴AI应用落地

面向中小企业、学校和医院等机构需要快速部署、快速落地AI应用的需求，昇腾联合合作伙伴提供基于昇腾的一体机解决方案。昇腾为伙伴提供高性能、易部署的AI基础软硬件底座，使能伙伴打造丰富多样、开箱即用的一体机产品。华鲲振宇的一体机方案已经部署在成都区域政务服务大厅中，提升服务效率。

从模型部署、推理加速到应用上线，昇腾都为伙伴提供了业界领先的方案支持。量化、调优等工具链显著提升50%部署效率；MLA亲和等特性，让伙伴的大模型应用一体机吞吐性能提升90%；服务化能力支持应用天级上线。

目前已有超80家合作伙伴基于昇腾发布大模型应用一体机方案，为金融、政府、能源、制造、教育等广泛行业场景提供智能应用，加速AI落地行业。

推理引擎MindIE持续升级

今年2月份，vLLM开源社区宣布了与昇腾的对接，实现昇腾与开源版本0 Day演进，开发者可基于昇腾使用vLLM全量功能，无感切换。

同时，通过MindIE Turbo推理加速插件，可以为vLLM提供并行策略、投机解码、动态调度等的高阶优化特性，在vLLM基础之上进行深度优化，吞吐可提升20%以上，获得极致性能体验。

中国工商银行基于MindIE部署了满血版DeepSeek，通过量化、MLA、多专家均衡等技术支撑，较初始版本实现了数倍的推理性能提升，目前已在行内大规模部署，支持万级日访问量，为数十万员工提供服务。

昇腾自动驾驶SDK正式发布

智驾已成为新能源车标配，L2及L2+智驾渗透率已经从2024年的66%提升到了80%。伴随而来的是智驾模型规模提升、数据采集规模变化以及训练节奏的加快，数据的快速闭环以及模型天级迭代成为智驾训练的刚需。

今天，昇腾也将为大家带来全新的Driving SDK 昇腾自动驾驶训练套件。支持感知、预测、决策及规控类模型开发，提供数据标注、难例挖掘、场景理解及重建能力，加速自动驾驶数据闭环；在智驾模型开发上，预置50多种主流的智驾模型开箱即用，分钟级完成自有模型搭建；在模型性能上，提供超50个高性能智驾算子，满足目标检测、点云等场景需求，模型性能提升30%以上；套件中的模型及算子也全量开源在Gitee上，并提供丰富的参考设计，切实帮助伙伴及客户提升自定义开发效率。

昇腾联合华为车BU，将该套件应用于ADS智驾系统的开发中，大幅缩短ADS 3.0模型训练时长，实现天级上线。

坚持围绕五大创新方向发展AI产业生态

昇腾的生态发展离不开每一位伙伴的共同努力。

在过去的一年时间里，昇腾坚定围绕硬件、算子、加速库、模型及应用五大创新方向，携手伙伴，共同发展。现在，已经取得了丰富的成果。今年，昇腾将持续加大生态投入，从技术、政策、生态及激励几个维度持续为伙伴提供支撑：升级布道师队伍，加强技术赋能；深化昇腾万里伙伴计划，通过开发、市场、算力等专项激励，赋能伙伴打造更有竞争力的产品和解决方案；欢迎更多的伙伴加入到昇腾五大创新方向，共同发展可持续、有韧性的AI产业生态！

昇腾将聚焦在自己所擅长的产品和技术领域，持续深耕。

面向不同行业、不同阶段的伙伴及客户，提供从模组到板卡到服务器的全系列硬件产品，全面开放软件栈，包含丰富的算子、加速套件、工具链等，支撑好伙伴及客户打造差异化产品和解决方案，加速智能化升级。

来源：华为计算

标签：模型推理开源 deepseek moe

本文地址：https://news.43u.com.cn/a/868325.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!