DeepSeek开源周首日发布FlashMLA,将英伟达H800GPU性能发挥到极

360影视 2025-02-25 00:22 1

摘要:就在刚刚,DeepSeek 正式拉开“开源周”的序幕。其在 GitHub 发布了开源项目 FlashMLA(Flash Multi-Layer Attention)。(https://github.com/deepseek-ai/FlashMLA)

就在刚刚,DeepSeek 正式拉开“开源周”的序幕。 其在 GitHub 发布了开源项目 FlashMLA(Flash Multi-Layer Attention)。(https://github.com/deepseek-ai/FlashMLA)

这是一款专为英伟达 Hopper 架构 GPU 设计的高效多层注意力解码内核,能够提高大模型的推理速度。FlashMLA 不仅适配英伟达 H800,其所具备的分页缓存机制可以帮助国产芯片克服显存管理效率低的短板,推动端侧 AI 应用的普及。其核心目标是优化大模型的推理过程,尤其能在处理变长序列比如处理聊天对话和长文本生成时,显著提升吞吐量和响应速度。

对于传统大模型推理来说:首先,它存在显存带宽限制,即 KV 缓存(存储注意力机制中的键值对)占用大量显存,导致内存访问效率低下;其次,它的计算效率不足,即变长序列的动态处理需要频繁调整计算资源,因此难以充分利用 GPU 算力。

而 FlashMLA 通过低秩压缩和分页内存管理两大核心技术,将 H800 GPU 的性能发挥到极致。

更详细地来说:

FlashMLA 的第一个亮点在于具备 BF16 精度支持,这让它能够平衡性能与资源。相比传统的 FP32 精度,BF16 精度在保持数值范围的同时能够减少一半的存储空间,使模型在训练和推理中既能保留关键精度,又能降低显存占用。这一特性尤其适合那些需要高吞吐量的实时生成任务。

FlashMLA 的第二个亮点在于具备分页 KV 缓存,因此能够实现高效的内存管理。传统 KV 缓存采用连续内存分配,导致显存碎片化严重。 FlashMLA 引入分页式 KV 缓存(块大小 64),即引用类似于操作系统的内存分页机制,借此将键值对划分为固定大小的块,从而能够实现按需动态分配。这种设计可以显著减少显存浪费,并能够支持变长序列的高效处理。例如,在处理一段 1000 词的长文本时,系统只需加载当前计算所需的“页”,而无需加载整个序列。

FlashMLA 的第三个亮点在于采用低秩联合压缩(Low-Rank Key-Value Joint Compression),因此可以减少冗余计算。受到 LoRA 和 Stable Diffusion 的启发,FlashMLA 针对注意力机制中的键(Key)和值(Value)矩阵,进行了低秩联合压缩,从而能够将高维数据映射到低维空间。这样一来,就能在不损失模型性能的前提下,将 KV 缓存体积压缩至原来的 1/4,从而大幅降低显存需求。例如,原始需要存储的 100GB 中间结果,压缩后仅需 25GB。

通过开源让企业可以直接使用 FlashMLA 来优化自家模型。 随着 FlashMLA 的普及,AI 推理有望进入“千元级硬件跑百亿模型”的时代。当然, FlashMLA 的发布仅是 DeepSeek 开源周的“开胃菜”。业界猜测,后续 DeepSeek 可能推出更重磅的通用人工智能相关技术。此外,结合其此前发布的 DeepSeek-V3 和 GRPO 算法,DeepSeek 正在逐步构建从训练到推理的全栈技术闭环。

来源:东窗史谈

相关推荐