DeepSeek 全球爆火,到底火在哪

360影视 2025-01-27 17:12 2

摘要:近日中国AI大模型创业公司DeepSeek(深度求索)正式发布DeepSeek-R1大模型1月27日苹果App Store中国区免费榜显示DeepSeek站上首位同时其在美区苹果App Store免费榜从26日的第六位飚升至第一位超越ChatGPT、Meta旗

近日

中国AI大模型创业公司

DeepSeek(深度求索)

正式发布DeepSeek-R1大模型

1月27日

苹果App Store中国区免费榜显示

DeepSeek站上首位

同时其在美区苹果App Store免费榜

从26日的第六位飚升至第一位

超越ChatGPT、

Meta旗下社交媒体平台Threads、

Google Gemini、Microsoft Copilot等

美国科技公司的生成式AI产品

DeepSeek表示

DeepSeek-R1在数学、代码

自然语言推理等任务上

性能比肩OpenAI o1正式版

这一消息震动了全球AI圈

迅速引起国际社会

广泛关注与讨论

“高性价比”引发AI圈震动

DeepSeek-R1大模型发布之前

DeepSeek公司就已经因为“性价比高”

而引发AI圈震动

公开资料显示

DeepSeek

成立于2023年7月17日

是一家创新型科技公司

专注于开发先进的

大语言模型(LLM)和相关技术

2023年11月2日

DeeSeek推出

首个模型DeepSeek Coder

该模型免费供商业使用

且完全开源

2023年11月29日

DeepSeek LLM上线

其参数规模达到67B

性能接近GPT-4

同时还发布了

该模型聊天版本DeepSeek Chat

2024年5月

DeepSeek-V2发布

该模型在性能上

比肩GPT-4 Turbo

价格却只有GPT-4的百分之一

2024年12月底

DeepSeek-V3发布

其性能与GPT-4o和Claude Sonnet 3.5等

顶尖模型相近

但训练成本极低

整个训练在2048块

英伟达H800 GPU集群上完成

仅花费约557.6万美元

相比之下

GPT-4o等模型至少要在

万个GPU量级的计算集群上训练

且使用的是性能更为优越的H100 GPU

训练成本约1亿美元

DeepSeek-V3发布后

英伟达高级研究科学家Jim Fan

在社交媒体上表示

DeepSeek是2024年度

开源大语言模型领域的“最大黑马”

近期推出的DeepSeek-R1模型

在数学能力基准测试中

达到了77.5%的准确率

与OpenAI的o1不相上下

在编程领域的Codeforces评测中

达到了2441分的水平

高于96.3%的人类参与者

开源实现“弯道超车”

DeepSeek R1被讨论的焦点

集中在两方面

低训练与使用成本

以及开源

区别于OpenAI

“海量数据投喂”的方式

DeepSeek利用算法

把数据进行总结分类

经过选择性处理之后

输送给大模型

在提高训练效率的同时

也降低了DeepSeek的成本

在DeepSeek的高性价比模型发布后

OpenAI创始成员

Andrej Karpathy表示

未来或许不需要

超大规模的GPU集群了

除了极致性价比

让DeepSeek大模型

脱颖而出的还有

其代码和训练方法完全开源

目前

DeepSeek-R1已经一跃成为

开源社区Hugging Face上

下载量最高的大模型

达10.9万次

这意味着全球的开发人员

正在试图了解这一模型

以辅助他们自己的AI开发

DeepSeek创始人梁文锋表示

开源更像一个文化行为

而非商业行为

在颠覆性的技术面前

闭源形成的护城河是短暂的

即使OpenAI闭源

也无法阻止被别人赶超

加州大学伯克利分校AI政策研究员

Ritwik Gupta表示

DeepSeek-R1的出现证明了

“AI能力没有技术护城河”

并称中国的系统工程师

人才库比美国大得多

他们懂得如何充分利用计算资源

来更高效地训练和运行模型

Meta首席人工智能科学家杨立昆

也在社交媒体表示

DeepSeek成功的最大收获

不是来自中国竞争对手的加剧威胁

而是保持人工智能模型开源的价值

以便任何人都能受益

这就是开放研究和开源的力量

为AI领域带来更多可能

DeepSeek本次“刷屏”

起因是1月20日

其正式发布推理大模型DeepSeek-R1

该模型在数学、编程和推理

等关键领域的表现

能与OpenAI的最强推理模型o1“掰手腕”

但其API调用成本却低了90%-95%

DeepSeek公布的信息显示

DeepSeek-R1在后训练阶段

大规模使用了强化学习技术

在仅有极少标注数据的情况下

极大提升了模型推理能力

1月22日

美国《福布斯》杂志网站表示

DeepSeek R1模型

应用强化学习等先进技术

不仅已跻身世界最强大模型序列

而且完全开源

可供世界上任何人

检查、修改和进一步研发

1月23日

英国《金融时报》网站

刊发评论文章称

DeepSeek的成功标志着

中国在人工智能领域

日益强大的自主创新能力

美国计算机科学家

吴恩达表示

DeepSeek的进展令人印象深刻

他们能够

以非常经济的方式训练模型

最新发布的推理模型

表现非常出色

微软CEO萨蒂亚·纳德拉

公开表示

DeepSeek切实有效地

开发出了一款开源模型

在推理计算方面表现出色

且超级计算效率极高

业内人士表示

通过低成本、高性能

开源共享的模式

DeepSeek正在为全球

科研人员和企业提供更多可能性

撰文:刘昊、王恺 编辑:李飞 排版:李汶键 统筹:李政葳

参考:第一财经、每日经济新闻、澎湃新闻、上观新闻、财联社

光明网出品

来源:光明网

相关推荐