帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,搞定通算瓶颈 FlashComm1: 大模型推理中的 AllReduce 通信优化技术。将 AllReduce 基于通信原理进行拆解,并结合后续计算模块进行协同优化,推理性能提升 26%。FlashComm2:大模型推理中以存换传的通信优化技术。在保持计算语义等价的前提下, 模型 华为 推理 通算 通算瓶颈 2025-05-22 14:43 3