嘉宾商学创办人吴婷：国产AI大模型，一夜火爆海外

摘要：美国AI独角兽Scale AI的CEO说：“它的出现让人惊叹。它的性能可媲美OpenAI的GPT-4o ，和刚刚得到40亿美金投资的Claude 3.5 Sonnet。而它训练所消耗的算力，仅仅是它们的十分之一。这反映出的‘残酷真相’是，当美国休息时，中国在努

你知道吗？就在2024年最后几天，一个来自中国的AI大模型，竟然霸榜了美国各大社交平台，而且收获了一片好评。

美国AI独角兽Scale AI的CEO说：“它的出现让人惊叹。它的性能可媲美OpenAI的GPT-4o ，和刚刚得到40亿美金投资的Claude 3.5 Sonnet。而它训练所消耗的算力，仅仅是它们的十分之一。这反映出的‘残酷真相’是，当美国休息时，中国在努力工作，并以更低的成本、更快的速度和更强的实力实现追赶。”

美国AI教育专家Nate Jones说：“过去，大模型训练成本是以亿来计算的。但它的出现，让这个成本平均下降了十几倍。最夸张的对比是，Meta的大模型训练投资超过了5亿美金。而它仅花费了约500多万美金。”

在美国，被对手下场称赞的情况，还是比较少见的。除非这个产品，真的很强。

这个大模型就是由中国AI公司“深度求索”推出的：DeepSeek-V3，我们简称V3。

海外有很多AI工程师对V3做了专业数据测评，测试结果显示：

在AI圈里非常权威的“Aider多语言编程测试排行榜”中，V3仅输给了OpenAI的最强版本ChatGPT-o1，在全部AI大模型里排第二名。

在测试编程和编码能力的LiveCodeBench测试中，DeepSeek-V3超越了迄今为止所有开源模型。有程序员小哥表示：我感觉机器里住了个能够读懂人心的幽灵。

问题来了，V3为什么这么厉害呢？

我翻阅了大量报告后发现，答案集中在了四个字——“投入模式”。

其实，围绕AI发展的3个关键词是：算法、算力和数据。

受贸易战限制，国内大模型公司可以使用的芯片非常有限。所以，我们在算力和数据上，一直都处于劣势。

我们只能集中力量解决算法，通过优化算法，来降低对算力的依赖；通过提升算法的水平，来降低对算力的消耗，间接减少对钱的消耗。

也就是说，V3的阶段性胜出，本质上就是算法的胜出。

V3的母公司公开了长达53页的技术报告，通篇写的都是算法创新。

过去的算法叫：Scaling law。它的优势是：模型性能会随着参数量的增加而增强。

但它的问题也很明显。有测算数据显示，训练一个5000亿参数规模的Dense模型，基础算力设施投入约为10亿美金，如果无故障运行21个月，电费约为5.3亿美金。这样的算力投入，现阶段也只有极少数大企业能承担。

而DeepSeek-V3用的是自研的MoE模型。

怎么理解这个模型呢？

简单讲就是，一个机构有不同的部门，比如市场、人力、技术、财务等等；而每个部门都有擅长各个方向的专家，每个专家都有自己精通的领域，但他们不需要处理所有工作。

也就是说，在MoE模型支配下的V3，里面有各个领域中的专家，他们专门处理特定类型的任务，遇上任务时，能够智能地调动最合适的专家来解决特定问题。

这就是V3高效、精准、省钱的原因。公开资料显示：V3的正式服务价格是：每百万输入tokens 0.5元-2元，每百万输出tokens 8元。这个价格只有GPT-4o的十分之一，性能却不相上下。这也让DeepSeek收获了“AI界拼多多”和“大模型价格屠夫”的称号。

我认为，DeepSeek-V3的出现，对我们来说，至少有三点启示。

首先，它的出现，让已经跑在前面的AI公司不敢偷懒。不管是国外的，还是国内的AI公司，它们都要时刻准备来自新玩家的挑战，它们要意识到一个问题：

AI领域，算法始终要在算力前面。AI研究，并不是规模越大，性能就越好；投入的钱越多，质量就越高。只有不断研发，持续做到技术创新，才能在AI时代站稳脚跟。

其次，高性价比AI产品的诞生，可以真正做到技术普惠。其实，早在今年5月，DeepSeek发布的V2开源模型，就因其史无前例的低定价，让各个AI大厂纷纷降价。只是说当时V2的性能还不够突出。而V3这一波，同等性能里，它价格最低，同等价格里，它性能最强，大概率又会引发一波AI“降价潮”。受惠的是广大用户。

最后，DeepSeek这家公司非常值得我们学习。他们的幕后团队，在低配硬件的基础上，用远低于AI巨头的成本，通过算法创新开发出了一个性能过硬的开源AI大模型。这种在不利条件下，努力找出路的创新精神，非常值得我们每个人学习。

关于国产大模型，你有什么思考呢，咱们评论区聊聊吧。