摘要:一家一度默默无名的中国科技公司通过低成本硬件开发出的人工智能大语言模型DeepSeek在性能上和美国最领先的AI模型旗鼓相当,这在过去几天里震撼了西方科技界。
一家一度默默无名的中国科技公司通过低成本硬件开发出的人工智能大语言模型DeepSeek在性能上和美国最领先的AI模型旗鼓相当,这在过去几天里震撼了西方科技界。
DeepSeek的成功显示美国对中国的芯片禁令并非预料之中的那么有效,但华盛顿不太可能仅仅因此就从根本上更改这一政策。另有分析人士指出,鉴于DeepSeek对敏感议题审查严格,这可能会让该AI模型走向国际市场面临阻力。
DeepSeek是中国科技公司幻方量化旗下的子公司深度求索打造的一系列人工智能大型语言模型。尽管深度求索2023年7月才成立,但其在AI领域的发展迅速。
2024年12月,深度求索发布了开源模型DeepSeek-V3, 不少测评称该模型的成绩不输美国人工智能工作室OpenAI的GPT-4o等西方公司的类似闭源模型。
1月20日,深度求索又发布了专门适用于数学、编码和逻辑等任务的DeepSeek-R1。
根据深度求索发布的数据,DeepSeek的训练使用的是英伟达的H800型GPU,开发耗资仅不到558万美元,远低于其西方竞争对手的投入。由于美国的出口管制,H800是英伟达专门针对中国市场发售的性能较低的“阉割版”芯片。
新美国安全中心(CNAS)的助理研究员卢比·斯坎伦(Ruby Scanlon)说,DeepSeek之所以可以用较低端的硬件和成本打造出一流的产品,其秘诀之一是模型蒸馏(Modell Distillation)。
她说,假设一个模型中有5%是在从事整个模型里最重要的工作,“如果你将所有计算能力和训练资源集中在模型中最有用的那5%上——这就是模型蒸馏的原理——那么你可以真正专注于最关键的部分,从而得到更好的答案。”
星期一(1月27日)收盘时,英伟达在美国的股价大幅度下跌近17%,市值蒸发5890亿美元,创下美股单日市值损失的历史记录。
“我认为硅谷和华尔街在某种程度上反应过度,”美国乔治·梅森大学莫卡特斯研究所(Mercatus Institute)的研究员迪安·鲍尔(Dean W. Ball)说,不过,他也指出,DeepSeek-R1的问世“表明美中之间的竞争可能会持续激烈,我们需要认真对待这一点”。
在美国,科技界专家和社媒用户讨论起了美国对中国的芯片禁令的有效性和正当性。奥尔布赖特石桥集团(Albright Stone Group)负责中国与技术政策的合伙人保罗·特廖洛(Paul Triolo)表示,DeepSeek通过优化并非顶尖的GPU训练出顶尖水平的模型,表明美国政府过去几年来“将出口管制的重点放在最先进的硬件和模型上可能是错置的”。
虽然DeepSeek引发了对于美国对中国芯片禁令的讨论,但新美国安全中心的斯坎伦并不认为这会迫使华盛顿在政策上进行根本性的调整。
“将先进芯片技术限制出口到中国是美国用来扩大美国前沿技术与中国前沿技术之间差距的一种手段,”她说,“而且这种做法对美国来说成本并不高,因此没有真正的理由放弃这一政策。”
虽然DeepSeek是少数冲出国门的中国AI模型,但美国之音的测试发现,DeepSeek在遇到敏感问题时,依然展现出了严格的自我审查。在被问到美国总统(President)是谁时,DeepSeek回答称是拜登——因为DeepSeek的数据库只更新到2024年7月,因此并不知道后来特朗普的当选。
而当被询问“台湾总统”是谁时,DeepSeek回答称台湾是中国不可分割的一部分,因此“台湾总统”是一个不存在的职位。
《新闻联播》播出了梁文锋的画面
深度求索虽然规模不大且成立才不到两年,但已经受到了中国中央政府的重视。1月20日,深度求索的创始人梁文锋参加了由中国总理李强展开的一场座谈会。当天的《新闻联播》播出了梁文锋坐在会议中的画面。
过去几天里,中国媒体将报道的重点之一放在了深度求索团队的中国背景。创始人梁文锋毕业于浙江大学,并没有海外留学和工作的经历,他的公司里的大多数人也都是普通的应届毕业生。
在2023年深度求索刚成立时,梁文锋对媒体表示:“如果追求短期⽬标,找现成有经验的人是对的。但如果看⻓远,经验就没那么重要,基础能力、创造性、热爱等更重要。从这个⻆度看,国内合适的候选人就不少。”
尽管西方科技界都为一家中国公司在芯片出口禁令之下依然能生产出DeepSeek这样高性能的模型感到震撼,但专家们也指出,DeepSeek的成功其实少不了来自西方AI发展的贡献,未来也不排除西方科技巨头也可以找出降低开发AI成本的可能。
来源:司马平邦