DeepSeek V3的低训练成本只是一种幻觉

摘要：虽然外网有贬有褒，还有Sam Altman这种有点酸的。但是由于某种特殊的氛围，现在在X也不能过分看轻中国，这样会有违背美科技圈的某种ZZZQ的嫌疑，容易招致群嘲。有一个例子是Eric Schmidt，半年之前他在斯坦福非公开演讲中曾经透露美国在小于5纳米芯片

看了几天的简中互联网，感觉普遍来说网友对DeepSeek V3是很兴奋的。

虽然外网有贬有褒，还有Sam Altman这种有点酸的。但是由于某种特殊的氛围，现在在X也不能过分看轻中国，这样会有违背美科技圈的某种ZZZQ的嫌疑，容易招致群嘲。有一个例子是Eric Schmidt，半年之前他在斯坦福非公开演讲中曾经透露美国在小于5纳米芯片上的制造领先中国大概10年。此外在大模型领域他之前也认为美国领先2-3年。但最近他开始强调中美的差距只在1年以内。

X上也有不少造谣DeepSeek用了GPT等前沿模型的输出作为训练数据，但基本没有证据。而且大部分人连DeepSeek的技术报告都没看，根本不理解DeepSeek怎么做出来的V3。

这些造谣可能相当程度上是受了Sam Altman的酸twit的影响，他说“it is (relatively) easy to copy something that you know works"。这个copy的字眼很显眼，让人以为是“抄袭”。其实在大模型领域，违反ToS(服务条款)已经是个生米煮成熟饭的事实了，OpenAI被一些国家和机构起诉索赔版权费的事情都还没落幕呢。

当然简中自嗨也是很令人无语的。比如之前看到有人说阑夕一条讲宇树和DeepSeek的长微博令英伟达市值一夜掉了1000亿美元。

回到在本文中我想探讨的话题，为什么说V3的低训练成本是一种幻觉。

DeepSeek之所以“实现了低训练成本”的根源，是媒体传播了一个由评估框架固化导致的认知偏差（framing bias)。

今天我们讨论LLM的训练成本，已经不再是2023年一开始的时候——彼时我们讲一个LLM的训练成本，其实指的是从0到1手搓一个大模型的成本。

在已知大模型参数规模，GPU的总浮点运算能力，训练精度等假设基础上，我们完全可以算出训练一个LLM的大致时间。因此，对于开源模型，可以横向对比它们的训练成本。

但是DeepSeek V3并不是一个从0到1训练的大模型，DeepSeek针对在硬件约束条件下做了一些工程创新，但它的训练时间少最主要的原因还是因为它利用了“知识蒸馏”。

知识蒸馏由Hinton在2015年正式提出来，它的基本思想是利用一个专门优化过的性能高的教师模型（大模型）输出的模型权重概率分布作为训练学生模型（小模型）的目标。

R1模型是那个教师模型，也是DeepSeek的真正王炸，发布在11月，这个模型对标的是OpenAI o1，即具备思维链推理能力的模型。DeepSeek采用了强化学习将R1的长链推理能力蒸馏到V3模型上，只是主要集中在数学和编程领域上。

这意味着，某种意义上V3是对R1的继承，它省略了一些超参数调优过程，这种对推理母模型的推理能力的直接继承，意味着有相当多的参数权重不需要重复训练。

所以如果真正要对比训练成本，V3应当被看作是至少是R1+V3的两个版本的集合。而目前为止，DeepSeek也未曾公布它们对R1的训练情况。但是他们宣称未来会开源，那我们就只好等待来看看R1的端倪了。但用一篇技术报告宣传自己只用了多少时间完成训练，而不提教师模型R1的真实训练成本，在我眼里，确实是有目的性的营销嫌疑的。也许是为了商业推广，也许是为了融资。

从V1, V2到R1, V3，DeepSeek的主要工程创新是自创的MLA多头潜在注意力机制，通过对键值缓存的低秩压缩，在推理中显著减少缓存占用。其次是引入MoE混合专家机制，分为细粒度专家以及共享专家，并建立动态路由机制来分配数据输入到不同的专家模型中。另外，他们还选择了低精度训练但同时维持了模型稳定性，这也大大减少了内存占用。

DeepSeek最棒的地方还是它是开源的，尽管是基于LLaMA做的革新，这种做法也比OpenAI自GPT 2之后不再开源的小心眼做法值得人们不吝啬赞美。

来源：风格之旅

标签：幻觉 deepseek deepseekv3

本文地址：https://news.43u.com.cn/a/390120.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!