摘要:美国AI独角兽Scale AI的CEO说:“它的出现让人惊叹。它的性能可媲美OpenAI的GPT-4o ,和刚刚得到40亿美金投资的Claude 3.5 Sonnet。而它训练所消耗的算力,仅仅是它们的十分之一。这反映出的‘残酷真相’是,当美国休息时,中国在努
你知道吗?就在2024年最后几天,一个来自中国的AI大模型,竟然霸榜了美国各大社交平台,而且收获了一片好评。
美国AI独角兽Scale AI的CEO说:“它的出现让人惊叹。它的性能可媲美OpenAI的GPT-4o ,和刚刚得到40亿美金投资的Claude 3.5 Sonnet。而它训练所消耗的算力,仅仅是它们的十分之一。这反映出的‘残酷真相’是,当美国休息时,中国在努力工作,并以更低的成本、更快的速度和更强的实力实现追赶。”
美国AI教育专家Nate Jones说:“过去,大模型训练成本是以亿来计算的。但它的出现,让这个成本平均下降了十几倍。最夸张的对比是,Meta的大模型训练投资超过了5亿美金。而它仅花费了约500多万美金。”
在美国,被对手下场称赞的情况,还是比较少见的。除非这个产品,真的很强。
这个大模型就是由中国AI公司“深度求索”推出的:DeepSeek-V3,我们简称V3。
海外有很多AI工程师对V3做了专业数据测评,测试结果显示:
在AI圈里非常权威的“Aider多语言编程测试排行榜”中,V3仅输给了OpenAI的最强版本ChatGPT-o1,在全部AI大模型里排第二名。
在测试编程和编码能力的LiveCodeBench测试中,DeepSeek-V3超越了迄今为止所有开源模型。有程序员小哥表示:我感觉机器里住了个能够读懂人心的幽灵。
问题来了,V3为什么这么厉害呢?
我翻阅了大量报告后发现,答案集中在了四个字——“投入模式”。
其实,围绕AI发展的3个关键词是:算法、算力和数据。
受贸易战限制,国内大模型公司可以使用的芯片非常有限。所以,我们在算力和数据上,一直都处于劣势。
我们只能集中力量解决算法,通过优化算法,来降低对算力的依赖;通过提升算法的水平,来降低对算力的消耗,间接减少对钱的消耗。
也就是说,V3的阶段性胜出,本质上就是算法的胜出。
V3的母公司公开了长达53页的技术报告,通篇写的都是算法创新。
过去的算法叫:Scaling law。它的优势是:模型性能会随着参数量的增加而增强。
但它的问题也很明显。有测算数据显示,训练一个5000亿参数规模的Dense模型,基础算力设施投入约为10亿美金,如果无故障运行21个月,电费约为5.3亿美金。这样的算力投入,现阶段也只有极少数大企业能承担。
而DeepSeek-V3用的是自研的MoE模型。
怎么理解这个模型呢?
简单讲就是,一个机构有不同的部门,比如市场、人力、技术、财务等等;而每个部门都有擅长各个方向的专家,每个专家都有自己精通的领域,但他们不需要处理所有工作。
也就是说,在MoE模型支配下的V3,里面有各个领域中的专家,他们专门处理特定类型的任务,遇上任务时,能够智能地调动最合适的专家来解决特定问题。
这就是V3高效、精准、省钱的原因。公开资料显示:V3的正式服务价格是:每百万输入tokens 0.5元-2元,每百万输出tokens 8元。这个价格只有GPT-4o的十分之一,性能却不相上下。这也让DeepSeek收获了“AI界拼多多”和“大模型价格屠夫”的称号。
我认为,DeepSeek-V3的出现,对我们来说,至少有三点启示。
首先,它的出现,让已经跑在前面的AI公司不敢偷懒。不管是国外的,还是国内的AI公司,它们都要时刻准备来自新玩家的挑战,它们要意识到一个问题:
AI领域,算法始终要在算力前面。AI研究,并不是规模越大,性能就越好;投入的钱越多,质量就越高。只有不断研发,持续做到技术创新,才能在AI时代站稳脚跟。
其次,高性价比AI产品的诞生,可以真正做到技术普惠。其实,早在今年5月,DeepSeek发布的V2开源模型,就因其史无前例的低定价,让各个AI大厂纷纷降价。只是说当时V2的性能还不够突出。而V3这一波,同等性能里,它价格最低,同等价格里,它性能最强,大概率又会引发一波AI“降价潮”。受惠的是广大用户。
最后,DeepSeek这家公司非常值得我们学习。他们的幕后团队,在低配硬件的基础上,用远低于AI巨头的成本,通过算法创新开发出了一个性能过硬的开源AI大模型。这种在不利条件下,努力找出路的创新精神,非常值得我们每个人学习。
关于国产大模型,你有什么思考呢,咱们评论区聊聊吧。
嘉宾商学创办人吴婷校长
参考资料:
[1]深度求索. DeepSeek-V3 正式发布.DeepSeek.2024
[2]屠敏.重磅!“AI界拼多多”再发力,国产大模型DeepSeek-V3开源后刷屏,总训练成本557万美元,性能比肩GPT-4o.CSDN.2024
[3]都保杰.国产之光刷屏AI圈!DeepSeek-V3成当前最强开源大模型.头部科技.2024
[4]周春媚.95后AI“天才少女”刷屏!雷军千万年薪挖角!.证券时报.2024
[5]王智远.爆火的DeepSeek-V3强在哪. 王智远.2024
[6]机器之心编辑部.国产大模型DeepSeek-V3一夜火爆全球,《DeepSeek-V3技术报告》,53页pdf.机器之心编辑部.2024
来源:嘉宾商学