DeepSeek V3的低训练成本只是一种幻觉

360影视 2025-01-08 09:19 3

摘要:虽然外网有贬有褒,还有Sam Altman这种有点酸的。但是由于某种特殊的氛围,现在在X也不能过分看轻中国,这样会有违背美科技圈的某种ZZZQ的嫌疑,容易招致群嘲。有一个例子是Eric Schmidt,半年之前他在斯坦福非公开演讲中曾经透露美国在小于5纳米芯片

看了几天的简中互联网,感觉普遍来说网友对DeepSeek V3是很兴奋的。

虽然外网有贬有褒,还有Sam Altman这种有点酸的。但是由于某种特殊的氛围,现在在X也不能过分看轻中国,这样会有违背美科技圈的某种ZZZQ的嫌疑,容易招致群嘲。有一个例子是Eric Schmidt,半年之前他在斯坦福非公开演讲中曾经透露美国在小于5纳米芯片上的制造领先中国大概10年。此外在大模型领域他之前也认为美国领先2-3年。但最近他开始强调中美的差距只在1年以内。

X上也有不少造谣DeepSeek用了GPT等前沿模型的输出作为训练数据,但基本没有证据。而且大部分人连DeepSeek的技术报告都没看,根本不理解DeepSeek怎么做出来的V3。

这些造谣可能相当程度上是受了Sam Altman的酸twit的影响,他说“it is (relatively) easy to copy something that you know works"。这个copy的字眼很显眼,让人以为是“抄袭”。其实在大模型领域,违反ToS(服务条款)已经是个生米煮成熟饭的事实了,OpenAI被一些国家和机构起诉索赔版权费的事情都还没落幕呢。

当然简中自嗨也是很令人无语的。比如之前看到有人说阑夕一条讲宇树和DeepSeek的长微博令英伟达市值一夜掉了1000亿美元。

回到在本文中我想探讨的话题,为什么说V3的低训练成本是一种幻觉。

DeepSeek之所以“实现了低训练成本”的根源,是媒体传播了一个由评估框架固化导致的认知偏差(framing bias)。

今天我们讨论LLM的训练成本,已经不再是2023年一开始的时候——彼时我们讲一个LLM的训练成本,其实指的是从0到1手搓一个大模型的成本。

在已知大模型参数规模,GPU的总浮点运算能力,训练精度等假设基础上,我们完全可以算出训练一个LLM的大致时间。因此,对于开源模型,可以横向对比它们的训练成本。

但是DeepSeek V3并不是一个从0到1训练的大模型,DeepSeek针对在硬件约束条件下做了一些工程创新,但它的训练时间少最主要的原因还是因为它利用了“知识蒸馏”。

知识蒸馏由Hinton在2015年正式提出来,它的基本思想是利用一个专门优化过的性能高的教师模型(大模型)输出的模型权重概率分布作为训练学生模型(小模型)的目标。

R1模型是那个教师模型,也是DeepSeek的真正王炸,发布在11月,这个模型对标的是OpenAI o1,即具备思维链推理能力的模型。DeepSeek采用了强化学习将R1的长链推理能力蒸馏到V3模型上,只是主要集中在数学和编程领域上。

这意味着,某种意义上V3是对R1的继承,它省略了一些超参数调优过程,这种对推理母模型的推理能力的直接继承,意味着有相当多的参数权重不需要重复训练。

所以如果真正要对比训练成本,V3应当被看作是至少是R1+V3的两个版本的集合。而目前为止,DeepSeek也未曾公布它们对R1的训练情况。但是他们宣称未来会开源,那我们就只好等待来看看R1的端倪了。但用一篇技术报告宣传自己只用了多少时间完成训练,而不提教师模型R1的真实训练成本,在我眼里,确实是有目的性的营销嫌疑的。也许是为了商业推广,也许是为了融资。

从V1, V2到R1, V3,DeepSeek的主要工程创新是自创的MLA多头潜在注意力机制,通过对键值缓存的低秩压缩,在推理中显著减少缓存占用。其次是引入MoE混合专家机制,分为细粒度专家以及共享专家,并建立动态路由机制来分配数据输入到不同的专家模型中。另外,他们还选择了低精度训练但同时维持了模型稳定性,这也大大减少了内存占用。

DeepSeek最棒的地方还是它是开源的,尽管是基于LLaMA做的革新,这种做法也比OpenAI自GPT 2之后不再开源的小心眼做法值得人们不吝啬赞美。

来源:风格之旅

相关推荐