关于DeepSeek的几点思考

摘要：1) DeepSeek 不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的，但

几个事实

1) DeepSeek 不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的，但

DeepSeek不是。

2)核心架构还是基于 Transformer，deepseek在架构、工程设计上进行了创新和工艺提升，实

现效率优化。架构上，采用了混合专家模型(MOE)、多头潜注意力(MLA)、多令牌预测

(MTP)、长链式推理(CoT)、DualPipe 算法等设计，并进行了依赖强化学习(RL)而不加入

监督微调(SFT)的训练尝试。工程上，在数据精度(FP8混合精度)、底层通信等方面进行了

优化。这些方法在学术界都已经有了，Deepseek没有过于追求新技术，而是花了心思把这些方法

都用上，解决了一些技术的应用难点，在理论应用和工程上找到平衡，具体如下

MoE

将模型划分多人专家模块来进行分工。训练中将不同专家模块分

配到不同计算设备训练，提升训练效率。推理时，仅动态激活部分专家(37B参数)，而非全

模型参数(671B 参数)，减少计算负担。但是MoE 经常会面临某些专家承担所有工作，其他专

家不被使用的问题，业内会通过一如辅助损失来对此调控、平衡各个专家模块的工作量，而

deepseek 通过无辅助损失的自然负载均衡(引入一个无形的手而不是人为调控)、共享专家机

制来解决该问题

MLA:Multi-Head Latent Attention。扩展了传统的多头注意力机制，引入潜问量(latentVariables)

可以动态调整注意力机制，捕捉任务中不同的隐含语义。在训练中减少内存和计算

开销，在推理中降低 KV 缓存占用空间。

MTP:Multi-Token Prediction。一般 LLM次生成1个token，采用单步预测。deepseek

在特定场景下能同时预测多个 token，来提高信号密度。一方面能够减少上下文漂移、逻辑更连

贯，也能减少一些重复中间步骤，在数学、代码和文本摘要场景能提升效率

Cot:Chain of thought。一种训练和推理方法，将复采的中塑拆分成小步的中中间日迈辑，独分

逻辑链条。在训练阶段，Deepseek用标注的Long CoT 数据微调模型，让模型生成更清晰的

推理步骤，在强化学习中用 CoT 设计奖励优化增强长链推理能力，并且在此过程中观察到了模

型的反思(回溯推理路径)、多路径推理(能给出多个解)、aha 时刻(通过策略突破瓶颈)等

自发行为。

DualPipe:传统训练信息流水线会产生一些等待时间、有“流水线气泡”，deepseek设计了一个

双重流水线，让一个计算阶段在等待数据传输时可以切换到另一批数据，充分利用空闲时间

R1-Zero:Deepseek在V了基础模型上，仅通过强化学习(Rreinforcement Learning)训练，而

而不加入 SFT(Supervised fine tuning)数据，训练了 R1-Zero 模型，探索了模型不依赖

人类标注数据微调、自主推演的能力，打开了新的思路。但 R1模型仍然采取 SFT 数据优化推理

和生成质量。

FP8混合精度训练:引入了FP8混合精度训练框架，相比传统的 FP16 精度，数据内存占用

更少，但在一些算子模块、权重中仍然保留了FP16、FP32 的精度，节省计算资源:

底层通信优化:开发了高效的通信内核，优化对带宽的利用，保证数据传输效率，并能支持大

规模部署。

拿内燃机和汽车的发明打个比方，德国人发明了内燃机和汽车，美国人喜欢 Scaling Law，排量

越大马力越大，于是从2升到4升，甚至8升排量的车在美国都很常见，所以美国肌肉车很耗

油。虽然源头技术不是日本发明的，但日本人擅长把一件事做精，工程上做很多优化，日本2.5

升排量的车甚至可以做到和美国5升排量车一样的百公里加速指标。比如轻量化设计把大钢板换

成钢条(类似通过稀疏的办法减少大模型的参数量);涡轮增压利用废气能量增加空气供给，提

高燃烧效率:精密制造，使得发动机零部件的配合更加紧密，从而减少能量损失;等等。

3)有些宣传说 DeepSeek 的训练成本是550万美元，是Meta的1/10，OpenAl的

1/20，好像一下子比别人厉害了10倍 20 倍，这有点夸张。因为现在在美国预训练几千亿参数的

一个模型其实也就不到 2000 万美元的成本DeepSeek把成本差不多压缩到三分之一。

Meta和 OpenAl花的钱多是因为前沿探路，探路就意味着会有浪费，而后发追赶是站在别人的肩膀上，是可以避开很多浪费的。另外算力成本在过去几年是指数型下降的，不能这么机械的比较。

打个不恰当的比方，创新药的研发需要十年几十亿美元，而仿制药的研发一定会更快更省。另外

成本的统计口径也没有统一的标准，可以有很大的差别。

几个观点:

1) DeepSeek 代表的是整个开源相对闭源的一次胜利，对社区的贡献会快速转化为整个开源社

区的繁荣，我相信包括 Meta 在内的开源力量会在此基础上进一步发展开源模型，开源就是一

个众人拾柴火焰高的事情。

2)OpenAl这种大力出奇迹的路径暂时看显得有点简单粗暴，但也不排除到了一定的量又出现了

新的质变，那闭源和开源又将拉开差距，这也不好说。从 A 过去70 年发展的历史经验来看算力

至关重要，未来可能依然是。

3) DeepSeek 让开源模型和闭源模型一样好

来源：全产业链研究

标签： deepseek moe cot

本文地址：https://news.43u.com.cn/a/551724.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐