摘要:5月14日,DeepSeek创始人梁文锋等人发表了一篇名为《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for Al Architectures》(深入了解
5月14日,DeepSeek创始人梁文锋等人发表了一篇名为《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for Al Architectures》(深入了解DeepSeek-V3:人工智能架构硬件的扩展挑战与思考)的论文。
近年来,大型语言模型(LLMs)的快速发展显著推动了人工智能能力的边界,但也暴露了现有硬件架构的局限性,包括内存容量、计算效率和互连带宽的瓶颈。
比如,尽管GPT-4o、LLaMA-3、Gemini等模型在性能上取得突破,但其训练和推理对计算资源的需求呈指数级增长,高昂的成本也给小型研究团队和组织带来了巨大的障碍。
DeepSeek-V3 仅在2048块NVIDIA H800 GPU上进行训练,就实现了经济高效的大规模训练和推理。本次,DeepSeek团队把在V3/R1训练和推理过程中,如何解决的“硬件瓶颈”方法正式公布。
对内存效率提升:LLMs 对内存资源需求巨大,而内存增长速度远不及模型增长速度。DeepSeek-V3 采用低精度模型(如FP8)和多头潜在注意力(MLA)机制来减少内存消耗。MLA 通过将所有注意力头的键值(KV)表示压缩成一个较小的潜在向量,显著降低了 KV 缓存的内存占用。
除了MLA之外,团队还提出了其他几种方法来减少 KV 缓存的大小。这些方法非常有价值,为内存高效注意力机制的进步提供了重要的启发。如共享键值、窗口化键值、量化压缩。
对计算优化(MoE模型):对于稀疏计算,团队开发了DeepSeekMoE,一种先进的混合专家 (MoE) 架构。MoE 架构的主要优势在于它能够显著降低训练成本。通过选择性地激活专家参数的子集,MoE 模型允许总参数数量大幅增加,同时保持适度的计算需求。
例如,DeepSeek-V2拥有236B参数,但每个token仅激活21B参数。同样,DeepSeek-V3 扩展到 671B参数——几乎是V2的三倍——同时每个token的激活量仅为37B。相比之下,Qwen2.5-72B 和 LLaMa3.1-405B 等密集模型则要求在训练期间所有参数都处于激活状态。
将推理速度提升:通过计算与通信重叠、多令牌预测等方法提高推理速度。例如,为了最大限度地提高吞吐量,该模型从一开始就采用双微批次重叠架构,将MLA和 MoE 的计算分解为两个阶段,实现通信与计算的重叠;多令牌预测框架 (MTP) 则使模型在推理时能并行验证多个候选令牌,加速推理过程。
与此同时,论文还基于DeepSeek-V3的实践经验,提出了下一代AI硬件的发展方向,包括精确的低精度计算单元、纵向扩展和横向扩展融合,以及低延迟通信结构的创新。随着AI工作负载的复杂性和规模不断增长,这些创新将至关重要,为下一代 AI 系统的创新提供了切实可行的蓝图。
团队深度探索了包括:低精度驱动设计、互连驱动设计、大规模网络驱动设计(多平面网络拓扑)。
比如,如何最大程度降低集群级网络开销的多平面网络拓扑。
在DeepSeek-V3 训练期间,团队部署了一个多平面胖树 (MPFT) 横向扩展网络。每个节点配备8个GPU和8个IB网卡,每个GPU-网卡对分配到不同的网络平面。此外,每个节点还配备一个400 Gbps以太网RoCE网卡,连接到单独的存储网络平面,用于访问 3FS 分布式文件系统。在横向扩展网络中,团队使用了64端口400G IB交换机,使该拓扑理论上最多可支持16,384个GPU。
在保持成本和延迟优势的同时支持大量GPU 扩展,提高通信效率和系统可靠性,满足训练需求的可靠性能。
DeepSeek通过创新模型设计原理,以低成本、高效率的技术路径复现出OpenAI-o1级别的性能,突破了ChatGPT 以来的大模型训练整体流程。DeepSeek的实践也表明,中小团队可通过创新设计缩小与巨头的差距。
论文链接:https://www.arxiv.org/abs/2505.09343
来源:卓乎科技一点号