摘要:好家伙,最新发布的 R1 在 AIME2024 数学基准测试中 79.8% 直接踢走OpenAI 的 o1 ,在标准化编码测试中,DeepSeek-R1 也展现出“专家级”水平,在 Codeforces 平台上取得了 2029 Elo 评级,超越了 96.3%
大数据文摘受权转载自夕小瑶科技说
最近 DeepSeek 真的是全网刷屏!
前几天发布的 V3 给我们的大震撼还没消散呢!DeepSeek-R1 一来,又引爆了全球的 AI 社区!
Deepseek v3 实测来了!智商牛逼,情商不存在,自信退出价格战
好家伙,最新发布的 R1 在 AIME2024 数学基准测试中 79.8% 直接踢走OpenAI 的 o1 ,在标准化编码测试中,DeepSeek-R1 也展现出“专家级”水平,在 Codeforces 平台上取得了 2029 Elo 评级,超越了 96.3% 的人类竞争者。
R1 不仅以 MIT 许可(最宽松的规格)完全开源,而且,成本优势非常大,每百万 token 的查询成本仅为 0.14 美元,相较于 OpenAI 的 7.50 美元,成本骤降 98%。
真的是太牛了!
DeepSeek 的横空出世,如同在平静的硅谷投下了一枚震撼弹。
美国焦虑着其人工智能领域的霸主地位是否岌岌可危,这会 DeepSeek 的大成功,在全球掀起了一股“复现”浪潮不说,更将硅谷的焦虑推向顶峰。 这份焦虑,并非仅仅是对技术失利的担忧,而是对自身模式和未来战略的深刻反思与重新审视。
与此同时,Meta 的员工在美国匿名职场社区 teamblind 发布了一个公开的帖子,称 Meta 生成式 AI 团队对 低成本和高性能的 DeepSeek V3 的出现感到非常非常“担忧”:
DeepSeek-V3 的出现是这一切的导火索,它在性能基准测试中已领先于 Llama 4。 更令人不安的是,这款模型竟来自一家“训练预算仅 550 万美元的中国公司”。
工程师们正全力以赴地分析 DeepSeek,试图从中找到突破口。
这绝非虚言。
管理层正面临如何证明高昂的生成式 AI 部门成本的难题。 当部门内众多“领导”的薪资总和远超 DeepSeek-V3 的训练预算时,他们将如何向上级交代?DeepSeek-R1 的出现更令局势雪上加霜,具体情况虽不便透露,但很快将公开。
本部门原本应是一个精干的工程团队,但由于过度扩张,导致效率低下,最终所有人皆受其害。
这个帖子引发了非常激烈的讨论,有的人担心英伟达的卡卖不出去了,有人担心 Meta 今年将推出的 Llama4 打不过V3,而就昨天,Meta 的首席科学家下场了!
LeCun在 X(推特)上发帖称目前的焦虑的方向是错的,与其关注其霸主地位,不如关心开源与闭源的胜负:
给那些看到 DeepSeek 的表现后,觉得「中国在 AI 方面正在超越美国」的人:
你们的解读是错的。
正确的解读应该是:「开源模型正在超越专有模型。」
DeepSeek 得益于开源研究和开源项目(例如 PyTorch 和来自 Meta 的 Llama)。
他们在他人工作的基础上提出了新想法并进行了构建。
因为他们的工作是公开且开源的,所以每个人都能从中受益。
这就是开放研究与开源的力量。
小鹿看到 LeCun 的评论区中被点赞比较高的评论,还是在一直讨论究竟美国和中国谁先达到 AGI:
甚至还有美国网友阴阳中国是鹈鹕,是靠吃掉了美国的 AI 模型才变强的:
甚至 Meta 的 CEO 扎克伯格也还在关注这场战怎么打才能赢,在 LeCun 发言不久他就在 Facebook 上宣布:
加速研发 Llama 4,计划投资 650 亿美元扩建数据中心,并部署 130 万枚 GPU 以确保 2025 年 Meta AI 成为全球领先模型。
在 DeepSeek V2 模型发布之际,“暗涌”采访了 DeepSeek CEO 梁文锋时,梁老师当时也提到了这个问题,直接驳斥了美国的偏见:
暗涌提问:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。
梁文锋答:
我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年 IT 浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。Scaling Law 也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
暗涌提问:为什么 DeepSeek V2 会让硅谷的很多人惊讶?
梁文锋答:
在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯 follow,而不是创新。
硅谷这次的震惊,恰恰印证了他们长期以来对中国科技创新抱有的偏见,这种偏见大到盖过了关键问题的本质。
他们戴着“有色眼镜”,先入为主地否定中国创新能力,却完全没有意识到,真正值得他们关注的,根本不是什么“国家超越”,而是开源模式的崛起及其对全球 AI 发展的深远意义。
DeepSeek 就像一个厨师,他做菜做得特别好吃 ~
但他不是凭空变出来的,他用了别人公开的菜谱(开源研究),用了别人免费提供的工具(开源项目,比如 PyTorch 和 Llama),用了别人免费的面粉、免费的烤箱,再融合自己的关键的创新小配方,然后做出了美味的面包。
更棒的是,这个厨师做完面包,也把自己的新菜谱公开了! 这样一来,其他厨师也能学,也能在它的基础改进,也能做出更好吃的面包。
这样的力量是无穷无尽不会枯竭而且非常巨大的!
因此,如果硅谷对 DeepSeek 成功的解读仅仅停留在“中国 AI 突飞猛进,超越美国 AI”的层面,那无疑是一种格局狭隘的认知。
真正值得深思的是 DeepSeek 背后所代表的 AI 研究开源模式。 正是这种开放共享的模式,让全球的研究者得以站在巨人的肩膀上,互相借鉴,共同精进,最终推动 AI 技术朝着更健康、更普惠的方向发展。
这才是 DeepSeek 的成功为硅谷,乃至整个 AI 领域带来的更深远、也更值得关注的启示 ~
参考文献
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒级计费,平均节省开支30%以上!
来源:大数据文摘