网上关于DeepSeek的说法,哪些是错误的?

360影视 2025-02-07 21:39 3

摘要:实际上,DeepSeek这么干的初衷,是为了解决H800 GPU被阉割的互联带宽,不得不下沉到更低一层,用“PTX手搓”来提升跨芯片通信能力。

DeepSeek成功绕过了NVIDIA CUDA?

错误!

这是个流传很广的说法,意指DeepSeek通过绕过CUDA,彻底摆脱了NVIDIA的依赖。

听起来确实很提气,但这个言论的依据是DeepSeek采用了PTX编程替代了CUDA C/C++编程。

实际上,DeepSeek这么干的初衷,是为了解决H800 GPU被阉割的互联带宽,不得不下沉到更低一层,用“PTX手搓”来提升跨芯片通信能力。

(如果换成H100,完全不需要这么做,因为互联带宽足够)。

那么用了PTX就是绕过了CUDA吗?完全不是。

PTX(Parallel Thread Execution)是NVIDIA CUDA编程模型的一部分,它是 CUDA 编译器将源代码(如 CUDA C/C++)转换为低级别、硬件相关的机器指令之前的一个中间阶段。

PTX在运行时会进一步被编译成在NVIDIA GPU上运行的最终机器码(SASS),然后交给GPU完成最终执行。

整个流程可以参考下图↓

实际上,DeepSeek就是跳过了第一个环节,直接用更为复杂的PTX来编写程序。

这样虽然编程复杂度高,但是既解决了前面说所的跨芯片通信瓶颈,又可以降低开销、提升执行效率(把第一部分编译过程省了)。

老司机都懂的,这相当于我们以前不用C这样的高级语言,直接拿汇编来写程序,门槛高但是效率也高。

不得不说,DeepSeek这招确实确实挺高,但是直接采用PTX编程并不等于摆脱了CUDA生态依赖。

首先PTX本身就是CUDA生态的一部分,同时PTX代码只能在N家GPU上运行,且依赖N记驱动、工具链和库,并不提供跨平台、跨厂商支持,另外PTX的编写和调试,仍然需要依靠CUDA提供的工具。

总的来说,虽然DeepSeek通过直接编写PTX获得了更低级的控制,提升代码执行效率,解决跨芯片通信瓶颈。

但这并不算绕开CUDA,因为PTX代码仍然需要CUDA的编译、运行和管理机制来执行。

DeepSeek仅用600万美元完成训练?

既对又不对!

数字是正确的,而且真实的数字比这个还少,只有557.6万美元。

但是我们需要理性的看待这个数字。

首先说这个数据哪里来的,它来源于DeepSeek V3的技术报告。(https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf)

在报告中明确指出,DeepSeek-V3 的完整训练(含预训练、上下文扩展和后训练)仅需278.8万H800GPU小时,总成本约 557.6 万美元。(按2美元/H800GPU小时计算)

而单看预训练,每训练1万亿个Tokens,需消耗18万H800GPU小时,折合36万美元。

玩过大模型训练的都明白,这个花费确实太低了,比如Meta Llama3 405B的训练成本约3930万H100 GPU小时,是DeepSeek的14倍,而后者的671B的参数量更大。

(花血本砸钱的6小虎和巨头们肯定哭晕在厕所,迎接他们的将是投资人的“拷打”)

但是,需要特别说明的是:大模型训练成本≠大模型开发成本。

557.6万美元,这仅仅是训练消耗的GPU算力成本,不包括整体软硬件投入、数据采集与处理、软件和系统开发、人力等等综合成本。

那么具体多少钱?官方没有披露,我们不妨问问DeepSeek自己,看它怎么说↓

而semianalysis.com也给出了DeepSeek的AI TCO分析,这张表很有参考价值,当然,这张表也只是按照自己囤卡来计算的GPU服务总成本+集群运营成本。

光这部分的成本算下来就超过了25亿美元。

所以,一开始,大家被600万美元的模型成本给敲懵了,甚至开始恐慌,GPU被做空。

但细细推敲下来,600万只是冰山一角,所以你看,这几天N家的股票开始慢慢回调了。

U1S1,557.6万美元的净算力成本,已经足够震撼了。

DeepSeek依靠创新的算法和架构做到了这一点,用更低的成本来训练和推理模型。

这也给广大创业公司打来了一扇窗,大家不再需要汗牛充栋囤卡堆算力,只要算法好,完全可以借鸡下蛋,租用GPU机时来搞定模型。

同时,也给广大AI创业公司关上了一扇门,跟投资人要钱买铲子、囤算力没那么容易了。

更深远的影响还在后面,比如低算力需求,可以让不怎么强的国产算力卡真正走上台面,既然大家不需要卷算力,确实可以卷卷自足可控了。

以及,我们可以考虑在自己笔记本上,运行一个性能相当不错的模型啦。

美国5大巨头全部接入DeepSeek?

这确实是真的,英伟达、微软、英特尔、AMD、AWS五大巨头确实先后宣布上架或者集成了DeepSeek。

英伟达,DeepSeek-R1正式登陆NVIDIA NIM;
亚马逊,DeepSeek-R1在Amazon Bedrock和SageMaker AI上线;
微软,DeepSeek-R1在云服务Azure上部署;
英特尔公布,DeepSeek目前能够在英特尔产品上运行;
AMD,DeepSeek-V3集成到Instinct MI300X GPU上。

这事儿确实“振奋人心”,但这件事,并不是像某些媒体说的那样,“老外被DeepSeek打服了,集体认怂”。

只能说老外蹭起流量来比我们还猛呀,大家只是觉得DeepSeek还是个不错的模型,有资格跟我在一个桌吃饭了。

而且这种所谓上架也不是第一次,举个例子,英伟达NVIDIA NIM其实上架了大量开源模型,比如Llama系列,StableDiffusion系列。

还包括阿里系的qwen系列,百度的飞桨OCR,以及零一万物和百川智能的模型。

所以,此番上架个DeepSeek也没啥稀奇的,既然卖铲子,所有的矿主和矿工都是我的生态,只有其他卖铲子的才是我的敌人。(相信英特尔和AMD也是这个思路)。

再看AWS和Azure,作为“云化铲子”,他们早就看到了云化算力、托管式模型服务是云计算的下一个增长点,此刻下场也理所当然,毫不意外。

当然,他们的套路也不是给了DeepSeek专宠,而是一只羊也是赶,一群羊也是赶。

比如AWS的Bedrock,其实已经网罗了170多个形形色色的模型,还差你这一个么?

不过,AWS还是给了DeepSeek足够的面子:一个独立的Provider分类。

不像很多模型,只能挤在HuggingFace大目录下。

但也仅限于这点小面子,因为DeepSeek在Bedrock上的部署模式还是基于Marketplace自助式,而并非像AWS亲儿子Nova和干儿子Claude那样,是全托管Serverless模式。

还有一点很有意思,跟国外巨头相比,可能因为春节假期原因,国内巨头铲子商们蹭热度明显慢了半拍,虽迟但到,赶在今天开工前,他们也都齐刷刷的上架了DeepSeek。

嘿嘿,嘿嘿这个节奏,很像去年大家集体卷帕鲁,年中集体卷黑神话一样呀。

不管怎么说,这波流量让大家都赚到了。

DeepSeek遭受攻击,国内“复仇者联盟”集体救场?

DeepSeek被攻击时真的,这个提示目前还挂在官方注册页面。

人红是非多,何况是红遍全球,遭人嫉妒被攻击并不奇怪。

但是令人啼笑皆非的是接下来的剧情,相信类似的文字大家过年期间在某些文章或者短视频里都刷到过——

这鬼扯的剧情还真有人相信了,我真无了个大语。

我就不解释了,能信这条的,你怎么跟他解释没有用。

2023年春节,GPT让很多圈里人,开始重新认识AI的价值,2025年春节,DeepSeek彻底破圈,让更多普通人,也认识到了AI的价值。

你能想象在一个偏远的渔村小岛上,你的初中同学会跟你聊DeepSeek吗?

我这几天也小试了一下DeepSeek,总体感觉还可以,尤其作为“嘴替”,它输出的内容不“八股”,更像个人,你会被某些回答惊艳到。

但同样的,幻觉问题还是很多,比如仍然答不对“9.9和9.11哪个大”,比如联网搜索后,对多个搜索结果的归纳和提取不够好。

幻觉多可能是因为训练语料库不够的原因,而被大家津津乐道的“嘴替/更像人”,我觉得恰恰可能是DeepSeek对输出内容安全的力度不够,尚未遭受“社会毒打”。

另外,今天开工估计有更多的人涌向了DeepSeek,这种人肉DDoS充分考验DeepSeek的资源量和推理架构,反正整个下午,我打开DeepSeek,都是这样的。

不过,不管是昙花一现还是变身巨头,DeepSeek的意义都是深远的,其核心价值是走了一条与各大巨头、AI独角兽都不一样的道路,而且还走通了。

我年前还说:创业公司再难出巨头。现在这句话可以暂时收回了。

也许,在中国正有一批DeepSeek们,他们就像哪吒,打破所有偏见,挑战各大巨头,只因“我命由我不由天”。

来源:特大号

相关推荐