摘要:短短30天,中国初创企业深度求索(DeepSeek)先后发布了两款性能比肩GPT-4o的大模型。它们的训练成本只有GPT-4o的1/18,团队规模只有其1/10,但模型性能却毫不逊色,这让硅谷都大为震撼。
短短30天,中国初创企业深度求索(DeepSeek)先后发布了两款性能比肩GPT-4o的大模型。它们的训练成本只有GPT-4o的1/18,团队规模只有其1/10,但模型性能却毫不逊色,这让硅谷都大为震撼。
其实,DeepSeek的厉害之处绝不仅仅是“低成本”。它不仅重新定义了大模型的生产方式,还可能改变我们对计算的认知。不管未来开源还是闭源谁更有优势,DeepSeek的出现都给全球科技界带来了巨大冲击,让我们不得不重新思考:当“规模定律”和“生态壁垒”不再那么绝对时,AI竞争的核心到底是什么?或许我们可以从DeepSeek身上找到一些启示。
1月下旬,DeepSeek在中区、美区苹果App Store下载榜单中登顶,超越了ChatGPT、谷歌Gemini等全球顶尖科技巨头研发的模型产品。那它是怎么做到的呢?
DeepSeek的第一个优势就是价格实惠。DeepSeek-R1的API服务定价非常亲民。比如,每百万输入tokens,缓存命中时只要1元,缓存未命中也只要4元;每百万输出tokens只要16元。相比之下,o1模型的定价就高得多,分别是55元、110元和438元。
用过几款大模型的用户很快就能发现,DeepSeek的推理能力丝毫不逊色于OpenAI的o1、Meta的Llama-3等一流模型。而且,DeepSeek在回答问题之前,还会给出它的推理过程和思考链路。AI投资机构Menlo Ventures的负责人Deedy对比了谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1不仅更便宜,上下文处理能力更强,推理性能也更好。这种低成本但性能强大的特点,让硅谷那种“烧钱模式”受到了猛烈质疑。
在过去,大模型服务一直是“一分钱一分货”。想要用性能更好的产品,就得支付更高的费用,以覆盖模型训练过程中高昂的算力成本。但DeepSeek打破了这种模式。
当硅谷还在为GPU万卡集群豪掷千亿资金时,DeepSeek却用557.6万美元就证明了:AI大模型的比拼并不只靠规模,实际效果更重要。有句话形象地概括了DeepSeek的优势:“不是GPT用不起,而是DeepSeek更具性价比。”
传统模型训练时,需要在性能、成本、速度之间权衡。想要高性能,就得投入更高的成本和更长的计算时间。但DeepSeek重构了大模型的“成本-性能”曲线,同时压缩了计算周期。
根据DeepSeek的技术报告,DeepSeek-V3模型的训练成本为557.6万美元,训练使用的是算力受限的英伟达H800 GPU集群。相比之下,同样是开源模型的Meta旗下Llama-3.1模型的训练成本超过6000万美元,而OpenAI的GPT-4o模型的训练成本更是高达1亿美元,且使用的是性能更加优异的英伟达H100 GPU集群。在使用过程中,DeepSeek给出反馈的时长大部分控制在5秒至35秒之间。通过算法轻量化、计算效率最大化、资源利用率优化,DeepSeek成功压缩了计算时间,降低了延迟。
自从ChatGPT横空出世后,全球人工智能巨头都走上了一条“大力出奇迹”的“暴力美学”路线,参数越“炼”越大,给算力、数据、能耗带来了极大压力。很长一段时间,参数几乎成为大模型厂商比拼的最大焦点。
但DeepSeek却另辟蹊径。它并不盲目追求参数之大,而是选择了一条通过探索更高效训练方法以实现性能提升的“小而精”路线,打破了“参数膨胀”的惯性。
例如,DeepSeek-R1(4B参数)在数学推理、代码生成等任务上,具有比肩70B参数模型(如Llama-2)的能力。通过算法优化和数据质量提升,小参数模型一样能实现高性能,甚至能够“四两拨千斤”。
“DeepSeek出圈,很好地证明了我们的竞争优势:通过有限资源的极致高效利用,实现以少胜多。中国与美国在AI领域的差距正在缩小。”面壁智能首席科学家刘知远说。在算力封锁的情况下,DeepSeek通过技术架构、数据策略、工程实践三方面的关键突破,实现了逆袭。
大模型的千亿参数不应是冰冷的数字堆砌,而应是巧夺天工般地重组整合。
传统大模型Transformer架构好比一条承载车辆的高速公路。当车辆数量足够多的时候,每辆车必须和前后所有车沟通完成才能继续行驶(计算),这就导致了堵车(计算慢、能耗高)。而DeepSeek创新的架构则把一条串行的高速路,变成了一个辐射状的快递分拣中心。先把货物按类型分类打包,再分不同路线同时出发开往不同目的地,每辆货车(计算)只需选择最短路径。这样既能提高速度,又能节约能耗。
DeepSeek研发团队相信,用“炼数据”取代“堆数据”,能使训练更具效率。
传统的数据策略好比去农场随便采捡,常会捡到一些价值不高的烂菜叶(低质量数据)。而DeepSeek创新的数据蒸馏技术,有针对性地筛选掉质量不高的烂菜叶。一方面,它能自动识别高价值数据片段(如代码逻辑推理链),相比随机采样,训练效率提升了3.2倍;另一方面,通过对抗训练生成合成数据,将高质量代码数据获取成本从每100个tokens的0.8元降低至0.12元。
大模型传统的训练方式好比手工造车,一次只能装配一台,效率低下。而DeepSeek的3D并行相当于把造车流程拆分为10个步骤,同时组装10辆车(数据分块处理),并且把发动机拆成零件,分给10个工厂同时生产(模型分片计算)。
至于推理过程,传统模型好比现点现做的餐厅,客户等菜时间长,推理过程慢。而DeepSeek采用的INT4量化,能把复杂菜品提前做成预制菜,加热(计算)时间减半,口味损失不到5%,实现了大模型的低成本工业化。
拆解DeepSeek的成功公式不难发现,通过底层架构创新降低AGI成本,同时以开源策略构建生态护城河,为中小型机构突破算力限制提供了可行路径。此外,我们还能从中得到一些超越技术的启示。
一直以来,驱动DeepSeek的目标并非利润,而是使命。“探索未至之境”的愿景也指向一种与之匹配的极简且清爽的组织架构。
一名人工智能科学家表示,在人工智能大模型领域,大厂、高校、传统科研机构、初创公司在资源禀赋上各有优势,但结构性的局限很难扭转。DeepSeek这种类型的初创公司能很好地弥补其中的一个缺位——具有大工程能力、不受制于短视商业逻辑的创新定力、创业团队扁平化组织机制带来的丝滑流畅的协作度。
据不具名人士透露,其V3模型的关键训练架构MLA就源于一位年轻研究员的个人兴趣。经过研判后,DeepSeek组建了专项团队开展大规模验证与攻关。而R1模型果断调整强化学习路线,领先于其他机构实现了近似o1的推理能力,核心原因之一也归功于其青年团队对前沿技术的敏锐嗅觉与大胆尝试。
“我们创新缺少的不是资本,而是信心,以及组织高密度人才的能力,调动他们高效地进行创造力与好奇心驱动的创新。”DeepSeek创始人梁文锋说。
在DeepSeek身上,我们看到了皮克斯动画工作室的影子。这个年轻的中国初创企业与那个创作了27部长片、其中19部获得奥斯卡最佳动画的组织一样,都有着不谋而合的组织机制与范式选择,以及由此带来的高企的创新成功率与人才留存率。
不同于先发者略显封锁的护城堡垒,DeepSeek赢得赞誉的还有它的开源路线。将代码、模型权重和训练日志全部公开,不仅需要格局,更需要勇气与实力。
“在颠覆性技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”梁文锋这样解释选择开源的原因,“开源、发论文,其实并不会失去什么。对于技术人员来说,被follow(追随模仿)是很有成就感的事。”
从技术到愿景,DeepSeek坚定选择的始终是一条难且正确的路。这也是为什么,即便别国在人工智能领域已坐享先发优势,后发者依然有机会凭借技术创新、成本革命打破大模型竞争的传统逻辑,打破人工智能行业竞争格局,打破“他国更擅长从0到1的原始创新,而中国更擅长从1到
来源:好品推荐