梁文锋团队新论文揭秘DeepSeek:聪明 AI 是怎样“省钱又变强”的?

360影视 欧美动漫 2025-05-19 07:00 2

摘要:“高级厨具”(就是很贵的电脑芯片,GPU)数量有限: 不像有些大餐厅,可以随便买最顶级的厨具。做这道大餐特别费“食材”和“时间”(就是计算资源和电力):成本较高。

“AI 越来越聪明,但你知道它们是怎么‘省钱又变强’的吗?今天我们来看看 DeepSeek 团队的独家秘笈!”

一个小故事告诉你 DeepSeek AI 大模型都在研究什么

想象一下,DeepSeek 团队就像一群超级厉害的厨师,他们想做一道全世界最美味、最复杂的“AI 大餐”。

他们遇到的难题:

“高级厨具”(就是很贵的电脑芯片,GPU)数量有限: 不像有些大餐厅,可以随便买最顶级的厨具。做这道大餐特别费“食材”和“时间”(就是计算资源和电力):成本较高。

DeepSeek 的妙招:

让 AI “记笔记”更高效: 以前 AI 记东西可能像把整本书都背下来,很占地方。现在他们教 AI 只记重点,就像写课堂笔记一样,省了不少“脑容量”。“专家小组”来帮忙: 以前 AI 遇到问题,所有“员工”都要一起上。现在,AI 会自动找最懂行的一小撮“专家”来解决,其他人歇着。这样干活又快又省力。AI “说话”一口气说好几个词: 不再是一个字一个字蹦,大大提高了聊天写东西的速度。用“差不多就行”的数字: 很多计算不用那么精确,用“大概齐”的数字也能得到好结果,还快很多,就像做菜放盐“少许”一样。修了“专属高速路”: 让 AI 内部传递信息更快、不堵车。

DeepSeek 想告诉我们:

光有钱买好东西不一定行,聪明才智更重要!就算资源不多,只要方法对,也能做出很棒的东西。未来的 AI 会越来越聪明,也越来越会“精打细算”。

上面这个小故事,每句话都是 DeepSeek 团队核心的重点研究,你是否知道他们的专业名称?

DeepSeek 团队最新论文

“DeepSeek-V3 的成功秘诀在于‘软硬件协同设计’,他们通过巧妙的模型架构(比如 MLA、MoE)和对硬件的极致利用(比如 FP8、定制网络),大大提高了模型性能,这也让很多大量使用 GPU 的大厂闻风丧胆,因为这个研究不再需要堆叠 大量的GPU 了。DeepSeek 团队最近分享了他们训练 DeepSeek-V3 大模型的经验,核心在于如何在有限的硬件资源下,通过巧妙的“软硬件协同设计”实现成本效益最大化。

核心挑战:

AI 模型的“胃口”越来越大: 对内存、算力、网络带宽的需求呈指数级增长。

顶级硬件成本高昂: 动辄数万张 GPU 的集群并非人人都能拥有。

DeepSeek 的关键策略与创新:

DeepSeek 核心改进

模型架构优化,直击痛点:

Multi-head Latent AttentionMLA (多头潜在注意力): 大幅压缩 LLM 推理时的 KV Cache 内存占用。想象一下,如果把上下文信息比作书架上的书,MLA 就是用更紧凑的索引卡来代替厚重的书籍,让 AI 能“记住”更多内容而不爆内存。通过将多头注意力机制的 KV 表征压缩到更小的潜在空间,显著降低了 KV Cache 的内存占用(DeepSeek-V3 中仅 70KB/token),有效缓解了长序列推理的内存墙问题。

DeepSeek 潜在注意力机制模型

Mixture of ExpertsMoE (混合专家模型): 让模型参数量巨大,但每次只激活一小部分“专家”参数参与计算。就像一个庞大的智囊团,根据问题类型只调动相关领域的专家,大大降低了单次计算的开销。采用稀疏激活的 MoE 架构(如 DeepSeek-V3 的 671B 总参数,37B 激活参数),在大幅扩展模型容量的同时,有效控制了单 token 的计算量和训练/推理成本。

DeepSeek 混合专家模型

Multi-Token PredictionMTP (多token预测): 类似游戏的“预判”,让模型一次性生成多个可能的后续token并快速验证,显著提升文本生成速度。:基于 speculative decoding 思想,通过轻量级模块并行预测和验证多个候选 token,显著提升了推理吞吐量(TPS 提升约 1.8x)。

硬件特性极致利用,榨干性能:

FP8 混合精度训练: 大胆采用更低精度的 FP8 进行训练,以一半的内存占用和更快的计算速度换取可接受的精度损失。这需要对训练过程进行精细调优。率先大规模应用 FP8 进行训练,充分利用 Hopper 架构的 FP8 计算能力,实现了模型权重的内存减半和计算加速。论文探讨了 FP8 的硬件局限(如累加精度、细粒度量化支持)并提出了改进建议。

Multi-Plane Fat-Tree Network定制化网络拓扑 (多平面网络): 放弃昂贵且复杂的三层胖树,设计了更经济、高效的两层多平面网络,优化 GPU 间的通信。部署成本效益更优的两层多平面胖树网络,替代传统三层胖树,提升了网络的可扩展性和容错性。

Node-Limited Routing for MoE通信优化 (针对 H800 的节点限制路由): 充分考虑 H800 GPU NVLink 带宽的特点,通过算法和部署策略,优先利用节点内高速互联,减少对节点间带宽的依赖。针对 H800 NVLink 带宽特点,设计了专家路由策略,最大化利用节点内高带宽互联,减少跨节点 IB 通信压力。

LogFMT (实验性): 探索了对数浮点格式在通信压缩方面的潜力,以期在相同比特宽度下获得优于 FP8 的精度。

GPUDirect Async (IBGDA): 利用 IBGDA 消除 GPU-CPU 通信开销,降低网络延迟。

对未来 AI 硬件的启示:

论文也指出了当前硬件的不足,并对未来发展提出了期望:

更强的低精度计算支持: 需要硬件原生支持更细粒度的量化和更高精度的累加。

融合的、智能化的网络互联: 打破节点内外的壁垒,实现高效、低延迟、可智能调度的通信。

突破内存瓶颈: 需要 HBM 之外的创新,如 3D 堆叠内存、晶圆级集成等。

更高的系统鲁棒性: 应对大规模集群中的硬件故障和数据错误。

DeepSeek-V3 的成功证明,通过深入理解硬件限制并进行创新的软硬件协同设计,即使在资源受限的情况下,也能开发出世界一流的大模型。这为AI 领域的“降本增效”提供了宝贵的实践经验。

论文强调,面对 LLM 对内存容量、计算效率和互连带宽的指数级需求,以及由此带来的高昂成本,DeepSeek-V3 的开发实践证明了硬件感知模型设计(Hardware-Aware Model Design)的有效性。

nsights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI ArchitecturesDeepSeek-AI

来源:人工智能研究所

相关推荐