摘要:5月14日下午,DeepSeek团队发布新论文,以DeepSeek-V3为代表,深入解读DeepSeek在硬件架构和模型设计方面的关键创新,为实现具有成本效益的大规模训练和推理提供思路。
梁文锋亲自参与的DeepSeek最新论文,来了!
这一次,团队把DeepSeek-V3在训练和推理过程中,如何解决“硬件瓶颈”的方法公布了出来。
5月14日下午,DeepSeek团队发布新论文,以DeepSeek-V3为代表,深入解读DeepSeek在硬件架构和模型设计方面的关键创新,为实现具有成本效益的大规模训练和推理提供思路。
DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中,在作者列表中处于倒数第五的位置。论文署名通讯地址为“中国北京”,可以推测论文研究大概率为DeepSeek北京团队主导。
大语言模型的迅猛扩张正暴露出硬件架构的三大瓶颈:内存容量不足、计算效率低下、互连带宽受限。而DeepSeek-V3却实现了令人瞩目的效率突破——
仅在2048块H800 GPU上进行训练,FP8训练的准确率损失小于0.25%,每token的训练成本250 GFLOPS,而405B密集模型的训练成本为2.45 TFLOPS ,KV缓存低至每个token 70 KB(仅为Llama-3.1缓存的1/7)……
这些突破性数据背后,究竟隐藏着怎样的技术革新?
具体而言,DeepSeek-V3之所以可以只用2048块H800,就能达到超大规模集群(如数万块GPU)相当的训练效果,核心在于四项创新技术:内存优化:多头潜在注意力(MLA);计算优化:混合专家模型(MoE)与FP8低精度训练;通信优化:多层网络拓扑与低延迟设计;推理加速:多token预测(MTP)。
DeepSeek-V3基本架构
DeepSeek的论文中验证了,有效的软硬件协同设计可以实现大型模型的成本效益训练,从而为较小的团队提供公平的竞争环境。
也难怪OpenAI联合创始人Andrej Karpathy此前赞叹:“DeepSeek-V3的出现实现了高性能与低成本的平衡……未来或许不需要超大规模的GPU集群了。”
DeepSeek在论文中提到,本文的目的不是重申DeepSeek-V3的详细架构和算法细节,是跨越硬件架构和模型设计采用双重视角来探索它们之间错综复杂的相互作用,以实现具有成本效益的大规模训练和推理。侧重于探讨:
硬件驱动的模型设计:分析FP8低精度计算和纵向扩展/横向扩展网络属性等硬件功能如何影响DeepSeek-V3中的架构选择;
硬件和模型之间的相互依赖关系:深入了解硬件功能如何塑造模型创新,以及大模型不断变化的需求如何推动对下一代硬件的需求;
硬件开发的未来方向:从DeepSeek-V3获得可实现的见解,以指导未来硬件和模型架构的协同设计,为可扩展、经济高效的AI系统铺平道路;
论文地址:https://arxiv.org/abs/2505.09343
DeepSeek团队从五大维度做出了展望,希望在这一方面能够从过去的“被动适配”逐步过渡到“主动设计”。
1、低精度计算支持
针对计算效率低的问题,下一代的AI硬件需要提高累积寄存器的精度,支持FP32累加,或可配置精度(如训练用FP32,推理用FP16)。这样才能在不同的模型训练和推理需求中实现性能和准确性的平衡。
硬件还需要支持本地的细粒度量化,使张量核心能够直接接收缩放因子(scaling factors),在计算单元内部完成量化和反量化,减少数据搬运。
此外,建议支持LogFMT(对数浮点格式),在相同比特宽度下提供更高精度,并提高编解码的速度。
2、扩展与扩展融合
针对传输速度慢的问题,建议未来的硬件将节点内(纵向扩展)和节点间(横向扩展)的通信整合到一个统一的框架中,通过集成专门用于网络流量管理的协处理器。
这样的设计可以降低软件复杂性并最大化带宽利用率,包括以下内容:
统一网络适配器:设计连接到统一扩展和缩减网络的NIC(网络接口卡)或I/O芯片,让网卡直接支持所有通信需求。
专用通信协处理器:将数据搬运、Reduce、类型转换等任务卸载到专用硬件,释放GPU SM资源。
增加智能传输功能:自动转发数据,支持广播和汇总操作,并自动处理数据顺序问题。
动态带宽分配:支持流量优先级调度(如EP通信>KV缓存传输)。
CPU-FPU高速互联:用NVLink连接CPU与GPU,进一步优化节点内通讯。
3、网络拓扑优化
针对网络卡顿的问题,建议以太网供应商开发专门针对RDMA工作负载进行优化的RoCE交换机,移除不必要的以太网功能。
还需要优化路由策略,支持自适应路由(Adaptive Routing,AR)通过动态向多个路径发送数据包,即可显著提高网络性能。
或者可以通过虚拟输出队列(VOQ)改进流量隔离或拥塞控制机制,隔离不同流量,避免拥塞。
4、内存系统优化
针对AI模型记性越来越差,聊天时难以记住上下文的问题,可以通过3D堆叠DRAM的方法,把内存芯片像三明治一样叠在计算芯片上。
或者学习Cerebras,直接在晶圆上进行集成工程,最大化内存带宽和计算密度,让硬件能记得更多。
又或者,在硬件存储层部署稀疏注意力加速器,让硬件直接帮忙整理记忆,只记重点。
5、鲁棒性与容错
针对大规模训练中网络闪断、GPU故障会导致任务失败的问题,期待下一代硬件能够支持链路层重试和快速故障切换,在闪断后能够立刻自己找备用路线。
还可以增加基于信用的流控(CBFC)+ 智能拥塞控制算法(如RTT-CC),避免网络集体卡死。
简单来说,下一代AI硬件要向算数快(低精度计算+本地细粒度量化)、传话快(直连网络+智能路由)、记性好(3D内存+近存计算)、不宕机(自愈网络)的方向改进,才能更好地应用于大模型训练,实现高效扩展。
AI产业正进入软硬件深度协同时代。通过将硬件特性融入模型设计、反向驱动硬件升级,DeepSeek 开创了软硬件良性迭代闭环。
从硬件到模型,DeepSeek-V3体现了软硬件协同设计在推进大规模AI系统的可扩展性、效率和鲁棒性方面的变革潜力。
从模型回到硬件,DeepSeek则跳出DeepSeek-V3具体模型,来定义未来硬件需为大模型优化的核心方向,从内存、互连、网络、计算等多层面提出了建设性建议,对产业生态具有重要参考意义。
来 源 |凤凰网科技
推荐阅读——
DeepSeek V3深夜低调升级,代码进化令人震惊
DeepSeek赋能网络安全产业迎来发展新机遇
求美国封杀中国AI!OpenAI提交15页信函攻击DeepSeek:另一个华为
机器人基座大模型--下一个“DeepSeek”从这里来?
用户越多亏损越多 ?DeepSeek带火的MaaS究竟是不是门好生意
英伟达大跌8.69%:DeepSeek成魔咒
[技术沙龙]Deepseek如何赋能网络安全?
来源:电子技术应用