扎克伯格:DeepSeek很厉害,会威胁到美国科技行业领先地位

360影视 2025-01-25 19:37 2

摘要:日前,一则来自Meta员工在匿名社区Teamblind的爆料,如同投入AI行业的深水炸弹,将中国AI公司DeepSeek又一次推向了全球聚光灯下。

作者|Jimmy

日前,一则来自Meta员工在匿名社区Teamblind的爆料,如同投入AI行业的深水炸弹,将中国AI公司DeepSeek又一次推向了全球聚光灯下。

爆料帖写到:“目前,工程师们正在疯狂拆解 DeepSeek,试图复制其中的一切。我不是在夸张,事情就是这么紧迫”

但技术文档显示,DeepSeek-R1采用的大规模强化学习架构和分布式训练优化,可能已形成代际差距。

正如网友所言:"当美国人开始抄中国作业时,这场竞赛已进入新纪元"。

爆料帖还直指硅谷大厂的结构性顽疾:DeepSeek-V3总训练成本仅相当于Meta一位AI高管的年薪,而这样的高管在GenAI部门有"数十位",“管理层正在为如何向董事会解释巨额预算焦头烂额”。

内部人士透露,原本定位为精英团队的生成式AI部门,因各方势力争抢资源导致人员膨胀,"每个想分蛋糕的人都成了输家"。

当Meta工程师们正在实验室里用3930万H100 GPU小时打磨Llama 3时——

DeepSeek-R1以仅266.4万H800 GPU小时的训练量(相当于Meta预算的1/15),在2025 年1月20日交出了6710亿参数的超级模型。

这个数字背后是令人窒息的性价比——其数学推理能力超越Qwen2.5-72B,代码生成碾压Llama-3.1-405B,甚至在多项基准测试中与GPT-4o、Claude-3.5-Sonnet战成平手。

这种对比撕开了科技巨头的遮羞布。

按Meta的Llama 3计算预算,足够训练15个DeepSeek-V3;而R1的API成本仅是同性能o1模型的十分之一。

《纽约时报》援引UC伯克利教授Alex Dimakis评价道,DeepSeek的技术路线揭示了一个残酷事实——达到顶尖性能未必需要天文数字投入,“这对硅谷的烧钱竞赛无异于釜底抽薪"。

《经济学人》惊呼,"中国AI企业正在用精密的工程能力改写游戏规则"。

而且,DeepSeek-R1完全开源且无需监督微调(SFT),仅通过强化学习就实现了与OpenAI o1正式版匹敌的推理性能。

《纽约时报》报道称,当OpenAI将搜索功能局限于低端模型时,DeepSeek-R1直接开源了与搜索引擎深度整合的顶级模型权重,Hugging Face下载量瞬间爆表。这种"技术自信"让开发者可以自由微调,形成类Android的开源生态。

"这相当于在OpenAI、Meta、谷歌的堡垒下点燃了革命火种。"AI研究者Matt Bruenig体验后感叹。

更令硅谷不安的是,DeepSeek母公司幻方量化主业竟是金融投资,大模型仅是"副项目",这种举重若轻的姿态彻底颠覆了"AI必须All in"的认知

对此,扎克伯格日前在一档播客节目中讲到,DeepSeek技术真的很不错,非常先进。

他由此上升到中美科技竞争话题,称中国正在全力冲刺,担心这个开源模型会被被全世界广泛使用,影响到美国科技行业的领先地位

“实际上,这是一场差距很小的竞争。”扎克伯格说。

《纽约时报》对此的报道中,援引美国专家评论指出,如果最好的开源技术来自中国,美国开发人员将在这些技术之上构建他们的系统,“从长远来看,这可能会使中国处于人工智能的核心”。

来源:湖北电视台-说科技

相关推荐