摘要:2025年3月21日,在华为中国合作伙伴大会期间,昇腾人工智能伙伴峰会在深圳正式召开。会上,华为昇腾计算业务总裁张迪煊发表了《与时代 共昇腾》的演讲。他表示,长思考能力将scaling延展到推理,集群推理成为大模型推理系统的标配,昇腾率先落地大规模专家并行方案
2025年3月21日,在华为中国合作伙伴大会期间,昇腾人工智能伙伴峰会在深圳正式召开。会上,华为昇腾计算业务总裁张迪煊发表了《与时代 共昇腾》的演讲。他表示,长思考能力将scaling延展到推理,集群推理成为大模型推理系统的标配,昇腾率先落地大规模专家并行方案,平均单卡性能提升到原来的3~4倍。
华为昇腾计算业务总裁张迪煊
全文如下
尊敬的各位领导、各位来宾,线上/线下的伙伴们、朋友们,大家下午好!很高兴和大家相聚在合作伙伴大会计算峰会的现场。当下,人工智能已经成为推动世界发展的核心驱动,昇腾作为智能化底座,在各位伙伴和开发者朋友们的共同支持和努力下,得到了快速发展。我谨代表华为昇腾计算业务,再次感谢大家,欢迎大家的到来!
今天我的演讲主题是:与时代 共昇腾!
每年,AI都在突破我们预设的认知边界,从图像识别到艺术创作,从信息检索到逻辑推演,每一天都是探索的起点。朋友们,你准备好每年重启一次认知边界了吗?
唯有持续创新才能与时代同频
认知的突破源于技术的跃迁。2012年,机器视觉完成从理论到应用的蜕变;10年后,ChatGPT完成从感知理解到生成创造的跨越;不到2年,Sora实现从语言到视觉的衔接;仅1年,DeepSeek又实现从内容生成到逻辑推理的进化;多模态、长序列、思维链、强化学习等技术的密集爆发,推动模型迭代进入指数级加速的新纪元。时代的变化永不停歇,唯有持续创新才能与时代同频。应用的创新已经不再围绕单模型能力,而是发挥每个模型专长,协同增效。每次长思考的逻辑推理,都会带来额外20倍的token生成,随之而来的是百倍的推理算力需求,AI推理也从“单卡加速”走向“分布式推理加速”,需要在性能与收益之间找到最佳平衡。
如今,业界不仅在模型结构上创新,还延伸到“训推全流程”的工程创新,下探到底层硬件资源的极致利用。
这些变化激发着AI创新的觉醒。伴随着越来越多的企业、高校、科研机构及开发者的加入,人工智能产业将迸发出更加旺盛的创新活力,也是构建自主AI生态的黄金时期,未来充满想象与机遇!
2025进入大模型应用元年
DeepSeek揭开了AI自主创新的序幕,高质量模型+后训练范式大幅提升行业模型效果,降低行业落地门槛,带来技术平权。
AI开发从“实验室特权”变为“全民工具箱”,中小团队占据了AI创新的半壁江山;需求驱动行业场景倍增,让应用不再聚焦于头部企业,而是在千行万业的业务流中涌现。
我们都知道,移动互联网时代,流量是衡量产业发展的量纲;AI时代,Tokens成为新的衡量标准,2024年年初,中国日均Token消耗量为1千亿,今天每日消耗量已达到了十万亿级,1年增长100倍。
我们将以“中国速度”迎来大模型的应用元年!
昇腾携手伙伴与时俱进
在创新的道路上,昇腾与时共进,加速前行。
今年春节前夕,DeepSeek R1快速席卷了国内外AI技术圈及产业界。而昇腾早在去年年中,DeepSeek V2发布的时候,就已经联合幻方团队完成了模型结构适配及性能的调优。
依托已沉淀的经验和技术积累,昇腾几乎在R1上线的同时就完成了昇腾版本的发布。同时在春节期间,昇腾也与伙伴硅基流动共同作战,迅速面向全国用户第一时间提供DeepSeek的线上服务,在新春的烟花点亮夜空时,为大家献上AI的厚礼。如今,硅基新增用户数突破了300万,增长了800%!
春节随后的2周,当国内友商还在探索适配DeepSeek的时候,昇腾已经围绕融合算子、通信优化、并行加速、推理系统、强化学习 5大方向实现工程技术创新,让一体机性能实现翻番。并率先落地大规模专家并行技术,让推理性能实现再翻番,支撑伙伴抓住推理新机遇。
同时昇腾率先完整复现Open-R1后训练全流程,并将能力沉淀成套件及解决方案,开放给伙伴,支撑伙伴抓住后训练新机遇。
春节过后的一个月,已有超过80个伙伴基于昇腾落地大模型应用一体机、国内25城人工智能计算中心也全都上线DeepSeek,为本地的高校、企业及科研院所提供即时可用的服务。
目前已有超过150家企业基于昇腾部署上线DeepSeek,比如:
龙岗政数局是第一家上线DeepSeek的政府部门,为全区两万多名公职人员提供政务办公、城市治理、民意速办等服务;
东南大学依托昇腾算力平台本地部署,在校园网内,师生通过访问链接,可无限次免费体验“满血版”DeepSeek,彻底告别“服务器繁忙”困扰。服务上线即刻引发使用热潮,上线一小时,用户访问数即突破千人;上线近一周,日均生成超1亿token 。
这些成果离不开每一位伙伴的付出,感谢各位伙伴一路陪伴,与昇腾同行!
昇腾AI基础软件栈全新升级发布
一直以来,昇腾坚持聚焦根技术创新,并结合业界的反馈和建议,不断迭代和演进各个能力组件,以满足不同时期的需求。今天,面向大模型深度创新的时代,昇腾全新升级昇腾AI基础软件栈!
在架构上,面向不同开发诉求及场景,实现了更清晰的分层:
硬件使能层CANN深度开放,从上层图引擎到底层运行时,从融合算子到通信算法,释放硬件极致性能,使能伙伴及客户自主创新。AI框架层支持业界生态,早在2023年10月Pytorch开源社区就已官方宣布支持昇腾,上个月,vLLM开源社区也已官方宣布拥抱昇腾,这意味着当前所有训练和推理上的创新都可以基于昇腾快速实现。同时,昇思在大家的贡献下,也在持续演进,最近,鹏城实验室基于昇思发布GRPO强化训练框架,率先突破了大模型强化学习技术全栈壁垒。
应用使能层沉淀极致加速能力,训练加速库实现从单任务加速到多任务加速;推理引擎支持从单卡加速到大规模专家并行集群的极致加速。
从预训练到后训练,使能模型高效创新
无论是预训练还是后训练,都需要基于业务数据快速迭代,Time to Accuracy是最关心的指标之一,也代表着企业投入训练的成本。
面向预训练,昇腾通过超节点集群架构创新满足前沿模型探索,依托高速总线互联,混合并行加速等技术,训练效率提升2.7倍;同时,基于CCAE集群故障预测及断点续训的能力,大规模集群平均无故障运行时间从几小时提升到几天,支撑客户更短时间完成基础大模型预训练。
强化学习技术的成熟,让每个企业都有机会打造属于自己的“R1模型”。
昇腾率先复现了后训练全流程,并沉淀成套件及解决方案,使能所有伙伴和客户更敏捷迭代匹配场景的行业模型。
今天,昇腾将发布业界首个强化学习开发套件MindSpeed RL。
业界首个强化学习开发套件MindSpeed RL提供了从数据准备、模型获取到训练启动、模型评估的全流程工具、脚本及算法,并在Gitee上开源,致力于通过能力及技术赋能,降低后训练门槛,助力伙伴及客户构建更强大的后训练系统。强化学习是一个通过“探索 - 反馈 - 优化” 循环实现智能决策的过程,涉及到训练与推理系统的频繁交互,这对训推系统间数据同步效率及通信效率提出了更高的挑战。昇腾提供了业界首个大规模MoE训推共卡强化学习技术,通过训推参数同步、权重动态转换、共卡调度控制实现千亿参数规模下的训推共卡切换,节省训练资源的同时,提升交互效率。同时,面对生成、前向、训练三个核心环节中相互等待的问题,昇腾提供了创新的多模型异步流水调度方案,利用MBS动态内存优化切分技术,将通信与计算充分并行,实现流水掩盖,相较于原始GRPO算法,可以将流水掩盖性能提升10%以上。欢迎大家在Gitee上下载使用,打造自己的行业R1模型!
率先实现大规模专家并行方案
长思考能力将scaling延展到推理,Tokens已经成为衡量推理系统的唯一标准,集群推理成为大模型推理系统的标配,系统即要确保用户的低时延响应,又需要提高整体吞吐,以最大化推理的经济价值。
为了实现大模型推理的极限计算,昇腾从算子到推理系统全面创新。针对MoE架构,国内首创大规模专家并行方案,通过将MoE模型的多专家权重数据分散部署到更多的卡上,降低单卡权重加载时延,让模型解码输出更快;同时,单卡内存容量占用的降低,能够支持更大用户并发所需的KV缓存,实现系统的更大吞吐性能。
复杂的并行方案带来了更多的通信开销,昇腾独创双流并行等优化技术,通过计算、访存、通信的相互掩盖,将all2all通信时延降低50%;提供PA+MLAPO融合算子将计算耗时降低70%;通过多专家动态均衡,实现20%以上的资源利用率提升。
就在上周,昇腾与科大讯飞携手,发布了国内首个大规模专家并行方案,也是继DeepSeek公布其MoE模型训推方案后,业界首个基于自主创新的算力平台的全新解决方案。平均单卡性能提升到原来的3~4倍。面向未来,昇腾将持续在此基础上叠加超节点等更多的创新技术,单卡性能可以再次提升5~10倍以上,持续保持大规模吞吐领先。
一体机解决方案加速伙伴AI应用落地
面向中小企业、学校和医院等机构需要快速部署、快速落地AI应用的需求,昇腾联合合作伙伴提供基于昇腾的一体机解决方案。昇腾为伙伴提供高性能、易部署的AI基础软硬件底座,使能伙伴打造丰富多样、开箱即用的一体机产品。华鲲振宇的一体机方案已经部署在成都区域政务服务大厅中,提升服务效率。
从模型部署、推理加速到应用上线,昇腾都为伙伴提供了业界领先的方案支持。量化、调优等工具链显著提升50%部署效率;MLA亲和等特性,让伙伴的大模型应用一体机吞吐性能提升90%;服务化能力支持应用天级上线。
目前已有超80家合作伙伴基于昇腾发布大模型应用一体机方案,为金融、政府、能源、制造、教育等广泛行业场景提供智能应用,加速AI落地行业。
推理引擎MindIE持续升级
今年2月份,vLLM开源社区宣布了与昇腾的对接,实现昇腾与开源版本0 Day演进,开发者可基于昇腾使用vLLM全量功能,无感切换。
同时,通过MindIE Turbo推理加速插件,可以为vLLM提供并行策略、投机解码、动态调度等的高阶优化特性,在vLLM基础之上进行深度优化,吞吐可提升20%以上,获得极致性能体验。
中国工商银行基于MindIE部署了满血版DeepSeek,通过量化、MLA、多专家均衡等技术支撑,较初始版本实现了数倍的推理性能提升,目前已在行内大规模部署,支持万级日访问量,为数十万员工提供服务。
昇腾自动驾驶SDK正式发布
智驾已成为新能源车标配,L2及L2+智驾渗透率已经从2024年的66%提升到了80%。伴随而来的是智驾模型规模提升、数据采集规模变化以及训练节奏的加快,数据的快速闭环以及模型天级迭代成为智驾训练的刚需。
今天,昇腾也将为大家带来全新的Driving SDK 昇腾自动驾驶训练套件。支持感知、预测、决策及规控类模型开发,提供数据标注、难例挖掘、场景理解及重建能力,加速自动驾驶数据闭环;在智驾模型开发上,预置50多种主流的智驾模型开箱即用,分钟级完成自有模型搭建;在模型性能上,提供超50个高性能智驾算子,满足目标检测、点云等场景需求,模型性能提升30%以上;套件中的模型及算子也全量开源在Gitee上,并提供丰富的参考设计,切实帮助伙伴及客户提升自定义开发效率。
昇腾联合华为车BU,将该套件应用于ADS智驾系统的开发中,大幅缩短ADS 3.0模型训练时长,实现天级上线。
坚持围绕五大创新方向发展AI产业生态
昇腾的生态发展离不开每一位伙伴的共同努力。
在过去的一年时间里,昇腾坚定围绕硬件、算子、加速库、模型及应用五大创新方向,携手伙伴,共同发展。现在,已经取得了丰富的成果。今年,昇腾将持续加大生态投入,从技术、政策、生态及激励几个维度持续为伙伴提供支撑:升级布道师队伍,加强技术赋能;深化昇腾万里伙伴计划,通过开发、市场、算力等专项激励,赋能伙伴打造更有竞争力的产品和解决方案;欢迎更多的伙伴加入到昇腾五大创新方向,共同发展可持续、有韧性的AI产业生态!
昇腾将聚焦在自己所擅长的产品和技术领域,持续深耕。
面向不同行业、不同阶段的伙伴及客户,提供从模组到板卡到服务器的全系列硬件产品,全面开放软件栈,包含丰富的算子、加速套件、工具链等,支撑好伙伴及客户打造差异化产品和解决方案,加速智能化升级。
来源:华为计算