摘要:提问:前几天,不管在中国还是在美国,你有没有刷到过一家中国公司,做AI的,叫DeepSeek?
提问:前几天,不管在中国还是在美国,你有没有刷到过一家中国公司,做AI的,叫DeepSeek?
昨天刚开完会,公司一个小伙伴突然来精神了,说:
“欸,那个前几天很火的DeepSeek居然出APP了。”
一搜,还真有。
真低调。
可低调的背后,是一口气刷了中国的屏,还刷了美国的屏的爆火。
2025刚开始那几天,国内突然出了个热搜:
“雷军千万年薪,挖角DeepSeek的核心研究员,95后AI天才少女罗福莉”。
很多人在这句话里,看到了“雷军”,看到了“千万年薪”,看到了“95后AI天才少女”。但其中很多关注AI的人,还看到了:“DeepSeek”。
因为,在更早的圣诞期间,这家中国的,做AI的,甚至不是大厂的公司,突然刷了美国的屏。
2024年12月26日,中国的AI公司DeepSeek(中文名叫“深度求索”),发布了一个最新AI大模型DeepSeek-V3,并同步开源。
很快,无论是中国的AI圈,还是硅谷的大佬,美国的新闻,都开始谈论它。
国内很多媒体喊它“中国AI界拼多多”,“国货之光”。说,它证明了“就算算力被封锁,中国也有可能搞出很好用的大模型”。
而在国外,在硅谷,更多人喊它“来自东方的神秘力量”。说,这下“美国从0到1,中国从1到N”的说法,可能要被破了......
这个突然横空出世的中国AI公司,真那么厉害吗?厉害在哪?怎么做到的?到底什么来头?
我也很好奇。这几天看了一些资料,也问了一些行业里的朋友。越了解,我越有一种感觉:
刷屏美国的DeepSeek,不一定“神秘”,但确实有点聪明。
“来自东方的神秘力量”
提问:当美国在刷屏聊这家公司的时候,都在聊什么?
抛开各种一会儿“震惊”,一会儿“难以置信”的那些情绪不说,事实说来说去,大概就是4件事。
首先,性能,吓人的好。
DeepSeek的大模型,很多科目在跑分测试中,都一举超越了很多头部的开源模型。
如果单看“理科”,比如代码编写和数学运算方面,更是直接可以上手,和全球顶尖的闭源模型掰手腕。
比如OpenAI的GPT-4o,Meta的LLama-3.1-405B,阿里Qwen2.5-72B......
这么强,价格,还吓人的低。
人家美国的大模型扛把子,比如Claude 3.5 Sonnet,API价格是每百万输入token3美元。国产的DeepSeek-V3呢?优惠狠起来,只要0.1元人民币。
这么恐怖的性价比,怎么做到的?
梁文锋曾在暗涌的采访中说:“我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”
吓人的性价比背后,是低得更吓人的成本。
先大概看个账单:
DeepSeek-V3的预训练过程,花了557.6万美元,耗费了280万GPU小时,2048块GPU,并且还是英伟达针对中国市场的低配版:H800 GPU。
那别人呢?很多财经新闻指出,OpenAI,谷歌,Meta,都花了数亿,甚至数十亿美元。
而OpenAI的早期成员Andrej Karpathy在社交平台上说:“要做到这种水平,通常需要3080万GPU小时,和16000块GPU。”
280万,2048块,几百万美元。
3080万。16000块。几亿甚至几十亿美元。
直接差出1个零,甚至几个零。
难怪Meta AI研究科学家田渊栋发文说:“对DeepSeek-V3'极有限的预算'和'强劲的表现'深感惊喜。”
然而,到这里,依然还不是让他们最“惊”的。
美国的CNBC主播在新闻里说:“这家公司的大模型,在很多方面都不输于Meta的LLaMa 3.1和OpenAI的GPT 4o,顺便说一下,这些都是最新最强的模型......并且,朋友们,别忘了这个事实:这家公司来自中国。”
超高性能,超低价格,超低成本,还是来自中国的AI公司。
很快,在硅谷,DeepSeek开始被这么提起:
“来自东方的神秘力量”。
“小院高墙”
这个突然横空出世的中国AI公司,到底,什么来头?
是不是,背后有高人?
OpenAI的前政策主管Jack Clark就曾说:DeepSeek“雇佣了一批高深莫测的奇才”。
而DeepSeek创始人梁文锋在一次采访里对此的回应是:“并没有什么高深莫测的奇才。都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。”
那,是不是,背后有资本?
毕竟,做大模型,从来都是少数人的游戏。
有新闻披露,在很多普通人都还没听说过AI的2019年,DeepSeek就已经囤了超过1万张的英伟达显卡,用于算力基建了。
真厉害。但是,有超过1万张,就足以让DeepSeek有优势吗?光看2024年一年,拥有的等效H100GPU数量,Meta,是55万-65万,微软,是75万-90万。谷歌,更是100万-150万......
人,钱,都没有什么特别的。那,东方,还有什么西方没有的?
“小院高墙。”
这个2018年由美国智库提出的科技防御策略,衍生出来的新闻,关键词基本都长这样:
管制,禁运,封锁,实体清单......
在美国CNBC的一个采访中,一位连线专家在聊起DeepSeek时说:
“显然,他们没有使用最新的芯片,也没有那么大的算力,他们甚至在这方面没怎么花钱,但他们却建立了一个可以和OpenAI和Meta的模型竞争的模型。”
“他们是在哪个地方做得这么好呢?”
很多人,开始连夜翻技术文档。
是的。被称为“来自东方的神秘力量”的DeepSeek,在最核心的技术上,却一点都没有玩神秘:
他发布的大模型,都是开源的。
每一步,怎么做的,什么原理,甚至代码,都写在公开的技术文档里。
所有人,随便看。
“技术文档”
DeepSeek的技术文档,一共53页。
翻开,不是长这样:
就是长这样:
啊?这怎么看?
我明白。我理解。这样一份文档,对于大多数普通人来说,确实难啃。
好在,很多技术大牛,已经连夜划了重点。
比如,最常见的这段:
这得益于采用了 Multi-head Latent Attention ( MLA ) 和DeepSeek MoE架构,实现了高效的推理和经济高效的训练。又引入了辅助损失自由负载平衡策略和多 token 预测训练目标,提升了模型性能。同时,在14.8万亿个高质量 token上进行了预训练时,通过监督微调和强化学习阶段充分挖掘了其潜力。
看着还是太干?没事儿,再划成3个关键词:
MoE,MLA,无辅助损失的负载平衡策略和多令牌预测训练目标。
这,就是要看懂DeepSeek的“神秘力量”,至少,需要看懂这3个词。
我争取,用普通话,帮你把它们从头说一遍。
我猜,听完你会觉得很眼熟。
从哪里说起呢?
就从,你对大模型的要求说起吧。
“神秘力量”
提问:这两年,你有没有用过什么AI大模型?
比如,美国的ChatGPT?中国的文心一言?通义千问?......
你用它的时候,都对它有什么期待?
至少,我问它个什么,它的回答得靠谱吧?靠谱之外,一个回答不能让我等上1分钟吧?......
又快,又好。
这,就是一个好的大模型产品,至少要做到的2件事。
而这2件事,传到做大模型产品的技术专家的耳朵里,就会自动被翻译成另外2个词:
大模型的复杂度,大模型的推理效率。
什么是复杂度?至少,这个大模型的脑子得足够聪明,能应对足够多,足够复杂的问题。
脑子要聪明,要多几根“筋”。大模型要聪明,就得多几亿个“参数”。
这次发布的DeepSeek-V3大模型,参数就有6710亿个。
真多。可是,这么多“脑筋”一起动,得多费劲啊?
确实费劲。所以,得烧钱,买卡,堆算力......
但是,你都看见了。DeepSeek没这么干。它们干了很多其它的。
其中,最常被人提到的,是这3件:
第一,把一堆“专家”给分开。
想象一下,大模型,就像一个专家大本营。为了能尽可能地帮你干各种活儿,里面驻扎了各种领域的专家。
每次你一派活儿,就要呼啦啦地召唤这个专家大本营。很是劳师动众。
DeepSeek,做了一点优化:把专家们分门别类,每次有活儿,只喊其中一组相应的专家团出来就好。
这,就是MoE架构,也叫混合专家技术。
这么分,本来每次有活儿,得惊动6710亿个参数,现在只要37亿个参数就可以了。多省力。
真聪明。可是,一个大模型,就算调的专家少了,每天要干的活儿还是超级多。有没有办法更省力?
DeepSeek又想到了个办法:把要干的活儿,压少一些。
比如,搞个东西,让模型可以在干活儿时,学会“抓大放小”。精确到“元”就够的,就绝不精确到“毛”。大不了算完再派个专家,统一验算一遍。
这个东西,就叫MLA,也叫信息过滤器。能让模型只关注信息中的重要部分,不会被不重要的细节分散注意力。
有意思。这么一来,对算力的依赖肯定又能少好多。
可DeepSeek依然没满足。“专家”和“活儿”都盘了,那中间的“派活”呢?
我能不能再搞个机制,让每个专家,都能被合理分工。不至于要么给我闲着,要么忙到爆炸?
于是,就有了:无辅助损失的负载平衡策略和多令牌预测训练目标。
现在,再看回这3个词,你什么感觉:
MoE,MLA,无辅助损失的负载平衡策略和多令牌预测训练目标。
分专家,压活儿,合理分工。
嗯,很聪明。可是,不是在说“神秘力量“吗?
这算什么神秘力量?
“工程”
提问:怎么才算“神秘力量”?
能突破“小院高墙”?能打破“国外从0到1,中国从1到N”的观念,带来颠覆性创新?
如果是这个标准,那OpenAI创始人奥特曼,可能觉得,不算。
在DeepSeek大模型发布后,他曾说:
“DeepSeek-V3,只是在复制已知有效的东西。但当你不知道某件新奇、有风险且困难的事情是否会成功时,去做他是极其困难的。”
为什么这么说?是不是在酸?是不是在内涵?
这样,不如我们先简单倒个带:
你说,“把一堆‘专家’给分开”,算不算创新?
你说,“把要干的活儿,压少一些”,算不算创新?
你说:“把活儿分派得合理些”,算不算创新?
或者更直接一点:“用几百万的成本,做到人家花几十亿才做到的事”,算不算创新?
看另一个技术大佬,知名AI博主Tim Dettmers,对DeepSeek的评价。
他说:“这是资源限制下的工程。”
他还说:“这一切看起来都那么优雅:没有花哨的‘学术’解决方案,只有纯粹的,扎实的工程。尊重。”
工程,工程。
什么是工程?
直接搜“工程”,你会看到这个定义:
“工程是一个具有规定开始和结束时间的任务,需要使用一种或多种资源,并由多个互相独立、互相联系、互相依赖的活动组合。”
但如果,当你收到客户投诉“收到的薯片有包装是空的”时,别人会和你说:
“装监控”,“做视频识别”,或者,“花100万,研发一条新的流水线”......
但工程师,可能会和你说:
“花100块,在现在的流水线最后,装个大吹风机,吹出刚好能吹跑空包装的就行。”
工程,就是就算在有限资源下,也一定要把事做成,并且还要把效率做到最高。
回看DeepSeek的创新,有些,确实是独创。比如,无辅助损失负载均衡,就来自DeepSeek八月的论文。
也有些,是“在已有的流水线上装上吹风机”。比如,优化前就已经存在的MoE,MLA......
花100万做个新流水线,花100块加个大吹风机。
从0到1,从1到N。
刷屏美国的DeepSeek,不一定神秘,但确实聪明。
恭喜。
也祝福,2025年,更多的“从1到N”,和,“从0到1”。
*个人观点,仅供参考。
主笔/ 尤安 编辑 / 二蔓 版面 / 黄静
来源:刘润商学