摘要:相信连DeepSeek的创始人梁文锋自己都没有想到,春节前的一次发布,让全球AI圈都陷入了“冰与火”之中,一方面大洋两岸都在惊叹:一家出自浙江的非“六小龙”公司能欧这么短时间就能用开源的方式,推出性能堪比甚至赶超OpenAI o1的模型,成本却更是出奇的低。
相信连DeepSeek的创始人梁文锋自己都没有想到,春节前的一次发布,让全球AI圈都陷入了“冰与火”之中,一方面大洋两岸都在惊叹:一家出自浙江的非“六小龙”公司能欧这么短时间就能用开源的方式,推出性能堪比甚至赶超OpenAI o1的模型,成本却更是出奇的低。
一时间,全球AI玩家纷纷快速推出自己的“DeepSeek-R1”复刻版。抱抱脸、伯克利、港科大很快就用实力证明了:DeepSeek R1 是名副其实的国产推理模型的巨大胜利!
不过甚至有传言说大洋彼岸的Meta都被R1打了个措手不及,内部都在“恨铁不成钢”:为什么Llama3被超越了?
甚至受R1爆火影响,日本半导体市场的股市行情也迎来了大跌:软银集团股价一度下跌5.4%,创下11月1日以来的最大跌幅;东京电子和Disco均跌超3%。
当然,不止国外的半导体厂商,国内的寒武纪也迎来了一波暴跌,10.7%。
这次火得有点不同,sora也火,但没有实际推出。而DeepSeek真正做到了大洋两岸都开花。
从OpenAI奥特曼对DeepSeek的“阴阳”开始,硅谷对DeepSeek的讨论和警惕就正式拉开了序幕。
Scale AI创始人Alexandr Wang提到,他们发布了“人类最后一次考试”,这是一个评估或基准测试人工智能模型的新方法,我们通过邀请数学、生物学和化学教授提供他们能够想象到的最难的问题来制定这些测试。Deep Sea,作为领先的中国人工智能实验室,其模型实际上在性能上与美国最好的模型相当,甚至更胜一筹。
值得一提的是,Alexandr Wang不相信DeepSeek R1是低端GPU创造出来的“奇迹”,他公开表示:“DeepSeek大约有5万张H100计算卡,他们显然不能谈论这件事,因为这违反了美国实施的出口管制。我认为这是真的,我认为他们的筹码比其他人预期的要多。他们将受到芯片控制和出口管制的限制。”
微软CEO萨蒂亚·纳德拉也公开表示,“他们(DeepSeek)切实有效地开发出了一款开源模型,在推理计算方面表现出色,且超级计算效率极高。”纳德拉还强调,“我们必须非常、非常认真地对待中国的这些进展”。
甚至,连OpenAI安全研究员也来关心了一把DeepSeek的AI安全问题:DeepSeek有任何安全方面的研究人员吗?梁文锋(DeepSeek CEO)怎么看待AI安全?
同时,DeepSeek的火爆远不止于AI圈大佬们的公开讨论,其应用版惊人的下载量验证了DeepSeek的“出圈”程度。1 月 27 日,DeepSeek 登顶中国区应用商店免费应用排行榜,同时也在美区苹果 App Store 免费榜升至第一位。
上图:左美区苹果 App Store免费榜,右为中国区
为什么火?
一个是证明了一众小模型(低至1.5B)也可以实现深度推理模型,这也就意味着没有显卡储备的普通的学生也可以在自己电脑上做实验。
一台Mac就可以跑出o1mini的模型,试问哪个理工科的学生不会手痒尝试下?只需要从抱抱脸或Github上下载下模型,就可以在自己电脑上运行、微调和训练了。
其次,对于企业而言,价格低到几乎可以忽略不计的使用成本,完全可以打消投入产出比的顾虑。
DeepSeek 同步上线的 R1 模型的 API,价格一直都非常良心,只有 o1 模型的 5%。
输入百万tokens缓存命中只需要1块钱,不命中需要4块钱。而输出方面,百万tokens只需要16块钱,对比o1模型的价格——百万缓存命中输入Token $7.50,百万输入缓存不命中Tokens $15.00,每百万输出Tokens $60.00,可以说,企业的成本将是后者的50/1。
奥特曼甚至都似乎被R1推出带来的价格风暴震惊到了,表示之后会“大甩卖”:ChatGPT Plus会员可以每天获得100条o3-mini查询,下一个智能体Plus会员首发就能用。
第三,重要的是,推理模型的开源,代码流程公开透明,使得不管是普通开发者还是企业部署,都有了灵活可定制自身推理模型的潜力。
第四,当然,不得不提。DeepSeek-R1的爆火,已经冲击了全球的算力的逻辑。分析师Holger Zschaepitz表示:“中国的DeepSeek可能代表了对美国股市最大的威胁,因为该公司似乎以极低的价格建立了一个突破性的人工智能模型,而无需依赖最先进的芯片,这引发了对数百亿美元资本支出是否有用的质疑,这些资金正被投入到这个行业中。”
Sumitomo Life Insurance Co.的平衡组合投资总经理Masayuki Murata表示,DeepSeek可能引发科技股下跌:
“大型科技公司在AI上投入了大量资金,几乎达到了一国政府预算的规模,但一直存在一个问题,即产生的回报能否与其投资规模相匹配。“
据报道,DeepSeek实验室只花了560万美元来建造DeepSeek V3。相比之下,OpenAI每年花费50亿美元,而谷歌预计2024年的资本支出将飙升至超过500亿美元。还有微软,仅投资OpenAI就花费了超过130亿美元。
然而,这也并不意味着高端芯片从此失去市场。Perplexity AI CEO Aravind Srinivas在采访中说:我想从快速行动的角度出发,你肯定想用高端芯片,而且你会想比你的竞争对手更快地推进。我认为最优秀的人才仍然想加入那个最先实现这一目标的团队。你知道,总会有人觉得谁做到了这件事,谁是真正的先驱,谁是跟随者。
当然,即便算力高端市场大概率不会变天,但在大模型撞墙的质疑声不断的语境中,为什么不学习DeepSeek,从工程的角度使用更少的算力达到同样的效果呢?
所以总结来看,R1的爆火在于解决了以o1为代表的大模型现存的几大问题:太贵、部署门槛高、不透明、灵活性差(不可定制)。R1 解决了所有问题。
企业角度看,公司可以购买自己的GPU,运行这些模型,而不必担心额外成本或缓慢/无响应的 OpenAI 服务器”;个人爱好者或开发者可以快速通过开源的模型或工具在自己的电脑上微调自己的模型、甚至很快开发一个“智能体”出来硬刚OpenAI的“Operator”。这已经是事实。
前两天,Twitter上就有不少极客晒出了自己的“Operator”:无需向OpenAI支付 200 美元,就可以自己用100%开源的工具创建一个使用 Web 浏览器的代理,而无需手动编写一行代码,只需要结合 DeepSeek R1 和“BrowserUse”。
投资市场的角度看,DeepSeek-R1拉低了大模型应用的门槛,所以大模型公司降低硬成本的时机或许已经到来,单纯看谁存卡多的逻辑已经受到了严重挑战,甚至有人开始怀疑未来大家需要那么多英伟达的GPU吗?
不过,很多AI从业者认为在短期波动后,从长远看对英伟达依旧是利好的,随着AI“盘子”的扩大,需求总体将是稳步提升的趋势。
不管是从企业还是个人还是创投层面看,DeepSeek都是一个游戏规则改变者。
说到底这次火,根由上还是因为大家对于开源追上闭源的速度相当迅猛,这种迅猛更是叠加了:低技术门槛和几乎忽略不计的费用两大标签。
昨日,AI教父杨立昆说,那些解读“中国在人工智能方面正在超越美国”的人错了。
其实是“开源模型正在超越专有模型”。
他表示,DeepSeek从开放研究和开源(例如 Meta的 PyTorch 和 Llama)中获利他们提出了新的想法,并将其建立在其他人的工作之上。因为他们的工作是已发布的和开源的,所以每个人都可以从中受益。
外媒CNBC专题报告《中国的新AI模型DeepSeek如何威胁美国领先地位》,给出了一个相同的结论:(DeepSeek的成功)这可能意味着全球AI领域的主流模式将是开源。因为各国和组织逐渐认识到,协作和去中心化可以比封闭的专有生态系统更快速、更高效地推动创新。中国提供的一个更便宜、更高效、广泛采用的开源模型,可能会导致动态发生重大变化。
说到底这次火,根由上还是因为大家对于开源追上闭源的速度,相当迅猛,这种迅猛附加了:低技术门槛和几乎忽略不计的费用两大标签。
但这并不意味着,开源就是“无国界”的。
即使杨立昆出来给开源阵营拉大旗,也掩盖不了Meta的工程师们正在焦头烂额地分析DeepSeek的AI恐慌。根据一线员工的匿名爆料,管理层正在担心如何证明庞大的AI组织的成本是合理的,因为Meta的生成式AI部门里的每位“领导”的薪资都超过了DeepSeek-V3的训练成本。
Perplexity AI CEO Aravind Srinivas 更直说 “这样(开源领先)更危险”。他表示:“因为这样他们(DeepSeek)就能掌控市场份额和生态系统。开源也总有一天可能不再是开源,对吗?目前这些许可证很有用,但它们可以随着时间改变许可。重要的是,我们得有美国人在这里建设,所以Meta是如此重要。
CNBC总结称,采用中国的开源模型规模化使用,可能会削弱美国的领导地位,同时让中国更加深入地融入全球科技基础设施。
在复杂的地缘因素之下,竞争对手们的集体恐慌再次验证了一个事实:中国是一股重要的AI力量。
Perplexity AI CEO Aravind Srinivas说,很多人(错误地)认为中国只是模仿者,所以如果我们停止在美国写研究论文,如果我们停止描述我们基础设施或架构的细节,停止开源,他们就无法赶上。但现实情况是,DeepSeek V3中的一些细节非常好,我不会很惊讶如果Meta看过它并将一些内容融入Llama 4中。我不会说这是抄袭,这完全是分享科学、工程技术。但关键是,情况在变化,中国不仅仅是模仿者,他们也在创新。
现代管理学之父德鲁克对于创新有个很容易理解的解释:一是让昂贵的东西变得便宜,老百姓能用;二是让高门槛东西变得低门槛,普通人可用。
Deepseek R1的推出和开源,很显然,这两点都做到了。
参考链接:
1.https://zhuanlan.zhihu.com/p/709867165。
2.https://www.zhihu.com/question/10152040622/answer/84383440957。
3.https://www.youtube.com/watch?v=WEBiebbeNCA。
来源:51CTO