摘要:中国人工智能公司 DeepSeek本周震惊了市场,该公司声称其新的人工智能模型性能优于 OpenAI,但构建成本仅为 OpenAI 的一小部分。
鞭牛士报道,1月30日消息,据CNBC报道,中国人工智能公司 DeepSeek本周震惊了市场,该公司声称其新的人工智能模型性能优于 OpenAI,但构建成本仅为 OpenAI 的一小部分。
这些断言——特别是 DeepSeek 的大型语言模型的训练成本仅为 560 万美元——引发了人们对科技巨头目前在训练和运行高级 AI 工作负载所需的计算基础设施上花费的巨额资金的担忧。
由于投资者担心 DeepSeek 的颠覆性影响,周一英伟达的市值蒸发近 6000 亿美元——这是美国历史上公司单日最大跌幅。
但并非所有人都相信DeepSeek 的说法。
CNBC 询问了业内专家对 DeepSeek 的看法,以及它与引发人工智能革命的病毒式聊天机器人 ChatGPT 的创造者 OpenAI 相比如何。
什么是 DeepSeek?
上周,DeepSeek 发布了其新的推理模型R1,可与 OpenAI 的 o1 相媲美。推理模型是一种大型语言模型,它将提示分解为较小的部分,并在生成响应之前考虑多种方法。它旨在以类似于人类的方式处理复杂问题。
DeepSeek 由专注于人工智能的量化对冲基金 High-Flyer 联合创始人梁文锋于 2023 年创立,专注于大型语言模型和实现通用人工智能(AGI)。
AGI 作为一个概念,大致指的是人工智能在广泛的任务上能够等同于或超越人类智力。
R1 背后的大部分技术并不新鲜。但值得注意的是,DeepSeek 是第一个将其部署到高性能 AI 模型中的公司,据该公司称,其功耗要求大大降低。
欧亚集团地缘技术业务总监陆晓萌表示:关键在于,发展这一行业的可能性很大。高端芯片/资本密集型方式是一种技术方法。
「但 DeepSeek 证明我们仍处于人工智能发展的初期阶段,OpenAI 建立的道路可能不是通往高性能人工智能的唯一途径。」
它与OpenAI有何不同?
DeepSeek 有两个主要系统引起了 AI 社区的关注:V3(解锁其产品的大型语言模型)和 R1(其推理模型)。
这两种模型都是开源的,这意味着它们的底层代码是免费的,并且可以公开供其他开发人员定制和重新分发。
DeepSeek 的模型比许多其他大型语言模型小得多。V3 总共有 6710 亿个参数,即模型在训练过程中学习的变量。虽然 OpenAI 没有披露参数,但专家估计其最新模型至少有 1 万亿个参数。
性能方面,DeepSeek表示其 R1 模型在推理任务上实现了与 OpenAI 的 o1 相当的性能,并引用了包括 AIME 2024、Codeforces、GPQA Diamond、MATH-500、MMLU 和 SWE-bench Verified 在内的基准测试。
该公司在一份技术报告中表示,其 V3 模型的训练成本仅为 560 万美元,与 OpenAI 和 Anthropic 等著名西方人工智能实验室在训练和运行其基础人工智能模型上花费的数十亿美元相比,这只是一小部分。不过,目前尚不清楚 DeepSeek 的运行成本是多少。
不过,如果训练成本准确的话,这意味着该模型的开发成本仅为 OpenAI、Anthropic、谷歌等竞争对手模型的一小部分。
和其他。
科技洞察公司 The Futurum Group 的首席执行官丹尼尔·纽曼表示,这些发展表明这是一个巨大的突破,尽管他对具体数字表示怀疑。
「我相信 DeepSeek 的突破表明缩放定律发生了重大转变,而且确实有必要。」他说。「话虽如此,但 DeepSeek 开发的成本总体情况仍存在很多问题和不确定性。」
与此同时,咨询公司 DGA Group 中国区高级副总裁兼技术政策负责人 Paul Triolio 指出,很难直接比较 DeepSeek 的模型成本和美国主要开发商的模型成本。
「DeepSeek V3 的 560 万数字只是一次训练运行,公司强调这并不代表开发该模型的总体研发成本。」他说。「总体成本可能要高得多,但仍低于美国主要 AI 公司花费的金额。」
当 CNBC 联系 DeepSeek 时,该公司尚未对此发表评论。
DeepSeek 与 OpenAI 的价格比较
DeepSeek 和 OpenAI 都在其网站上披露了其模型计算的定价。
DeepSeek 表示,R1 每 100 万个输入标记的成本为 55 美分(标记指的是模型处理的每个单独的文本单元),每 100 万个输出标记的成本为 2.19 美元。
相比之下,OpenAI 的 o1 定价页面显示,该公司对每 100 万个输入令牌收取 15 美元,对每 100 万个输出令牌收取 60 美元。对于 GPT-4o mini(OpenAI 规模较小、成本较低的语言模型),该公司对每 100 万个输入令牌收取 15 美分。
对芯片的怀疑
DeepSeek 对 R1 的披露已经引发了公众对其声明真实性的激烈争论——尤其是因为其模型是在美国限制向中国使用先进 AI 芯片的出口管制下建立的。
DeepSeek 声称,它是使用成熟的 Nvidia 芯片取得突破的,包括 H800 和 A100 芯片,这些芯片不如该芯片制造商的尖端 H100 先进,而且无法出口到中国。
然而, Scale AI 首席执行官 Alexandr Wang上周在接受 CNBC 采访时表示,他相信 DeepSeek 使用了被禁的芯片——但 DeepSeek 否认了这一说法。
Nvidia 随后表示,DeepSeek 使用的 GPU 完全符合出口要求。
是真是假?
业内专家似乎普遍认为DeepSeek 所取得的成就令人印象深刻,尽管一些人对这家中国公司的一些说法表示怀疑。
Oculus 和 Anduril 的创始人、美国企业家帕尔默·卢基 (Palmer Luckey) 在 X 上写道:DeepSeek 确实令人印象深刻,但其歇斯底里的程度却对很多人提出了控诉。
「500 万美元这个数字是假的。这是由一家中国对冲基金推动的,目的是减缓对美国人工智能初创企业的投资,为 Nvidia 等美国巨头提供空头支持,并掩盖逃避制裁的行为。」
NetMind 是一家总部位于伦敦的初创公司,通过分布式 GPU 网络提供对 DeepSeek 的 AI 模型的访问,该公司首席商务官 Seena Rejal 表示,他没有理由不相信 DeepSeek。
「即使存在一定的误差,其效率仍然很高。」雷贾尔在本周早些时候接受 CNBC 电话采访时表示。「他们所解释的逻辑非常合理。」
然而,一些人声称 DeepSeek 的技术可能不是从零开始构建的。
亿万富翁投资者维诺德·科斯拉 (Vinod Khosla) 在 X 上表示:DeepSeek 犯了与 O1 相同的错误,这强烈表明该技术是被盗版的。
但他没有透露更多细节。
OpenAI 自己也曾暗示过这一说法,其在周三的一份声明中告诉 CNBC,它正在审查有关 DeepSeek 可能不当使用其模型的输出数据来开发其 AI 模型的报告,这种方法被称为蒸馏。
OpenAI 发言人向 CNBC 表示:我们采取积极主动的对策来保护我们的技术,并将继续与美国政府密切合作,以保护在这里建造的最强大的模型。
人工智能的商品化
无论围绕 DeepSeek 的审查结果如何,人工智能科学家普遍认为这标志着该行业的积极一步。
Meta首席人工智能科学家 Yann LeCun表示,DeepSeek 的成功代表了开源 AI 模型的胜利,而不一定代表中国战胜美国。Meta 是流行开源 AI 模型 Llama 的幕后推手。
他在 LinkedIn 上的一篇帖子中表示:对于那些看到 DeepSeek 的表现并认为‘中国在人工智能领域正在超越美国’的人来说,你们理解错了。正确的理解是:开源模型正在超越专有模型。
「DeepSeek 受益于开放研究和开源(例如 Meta 的 PyTorch 和 Llama)。他们提出了新的想法,并在其他人的工作基础上构建了这些想法。由于他们的工作已发表并开源,因此每个人都可以从中受益。这就是开放研究和开源的力量。」
来源:鞭牛士