AI生态圈的天都塌了,DeepSeek牛在哪里?

360影视 2025-01-28 19:25 2

摘要:这一天,OpenAI仓促发布了该公司落后一代的大型语音AI模型,用于垂直打击市场上同类聊天AI产品,这就是在GPT-3基础上微调而成的:

无尽的算力战争

1965年6月的一个深夜,决定成为一名伟大的小说家的史努比,在一台沉重的老式打印机上,敲下了引人入胜的名著开头:

在一个漆黑的、风雨交加的夜晚…

据说,史努比构思的一切精彩小说,都是从这个艮古不变的开头写起的。

也就在这一年,史努比战胜了肯尼迪、赫鲁晓夫、披头士等强大对手,登上了《时代》杂志的封面。它觉得它当之无愧。

然鹅,一个美丽童话的终结,总是意味着另一个天方夜谭的开始。

2022年12月,年仅8岁的伊萨克·亚当斯命令一个冰冷的程序,写一个类似于史努比的小说开头。很快,他得到了它:

那是一个凄凉的大雾之夜,是那种让最勇敢的人也感到战栗的夜晚…

看到这个远超史努比的小说开头,亚当斯睁大了眼睛,怯生生地缩回手指,以为看到了神迹。

事实上,为人们写诗、写小说,仅仅是这个软件最粗陋的应用。而一切故事的开始,都发生于2022年11月30日。

这一天,OpenAI仓促发布了该公司落后一代的大型语音AI模型,用于垂直打击市场上同类聊天AI产品,这就是在GPT-3基础上微调而成的:

ChatGPT。

市面上的同类营销产品应声倒地,整个世界为之彻底改变。

北密歇根大学的学术委员会激烈地抨击了ChatGPT,因为它撰写的论文通过了盲审第一轮;硅谷高科技公司的HR叫苦不迭,因为有中学生通过ChatGPT答题,顺利通过了年薪50万美元的工程师笔试。

ChatGPT不仅能够以自然语言与人类进行互动问答、撰写小说剧本,还能生成可用的编程代码、学术论文…它似乎无所不能。

那么古尔丹,代价是什么呢?

答案就矗立在距离美国首都华盛顿仅有数十英里的微软云数据中心。

被称之为北弗吉尼亚州数据中心的大楼里层层叠叠地堆满了服务器,粗壮的同轴电缆把来自世界各地的指令导入其中,代码总量达350G的ChatGPT通过高性能的GPU处理数据,在输出结果的同时,也消耗了天量的电力,产生了大量的热能。

国际能源署(IEA)发布的白皮书指出:

ChatGPT每响应一个请求需要消耗2.9瓦时,这相当于一个5瓦的LED灯泡亮35分钟。

尽管北弗吉尼亚州数据中心拥有275个数据中心和超过2600兆瓦的配套电力,尽管在这里电价已经低至0.07美元/千瓦时,但这依然是一个沉重的负担:

ChatGPT每天都需要响应90亿次问题指令,每年消耗的电力是9太瓦时(1太瓦时=10^9千瓦时,1千瓦时即为1度电),接近一个中等核电站的全年满负荷发电量。

AI大模型能源消耗的疯狂飙升,源于支持AI运行的芯片组,后者被广泛应用于“更高、更快、更强”的算力战争。

一方面,高算力要求高性能的芯片集成,对应着功耗的增加;另一方面,高功耗又会增加芯片的发热量。

IEA报告指出,数据中心的电力需求主要来自计算和冷却两个方面,两者各占总电力需求的40%。而它们又反过来推高了ChatGPT的运营成本。

目前,ChatGPT API的价格是0.002美元/千token。相当于每输出100万个英文单词支付2.7美元,也相当于输出50万个中文需支付18元人民币。

IEA报告估算,如果全球60%的AI算力需求可以经算法优化后由中端芯片承载,由此节约的成本将以万亿美元计。

但事实上,算力战争从未停止,高性能芯片的需求一再被拉升——近年来,英伟达昇腾芯片的出货量,每年增速都接近300%,还供不应求。

对此,硅谷的高科技公司似乎并不在乎。在投资人的慷慨解囊下,它们不用在乎“烧钱”,也不用在乎被讽刺为“大力出奇迹”,只要成为最终活下来的胜利者,这些都不是事。

只是,AI应用必然要因为追逐算力,而被卡在高成本的怪圈中吗?

一家来自中国的初创公司决定说“不”。

2025年1月20日,一家名为DeepSeek的中国人工智能公司发布了DeepSeek-R1 模型,其性能可比肩OpenAI o1正式版,但由于采用强化学习,其成本已经降到了不可思议的地步。

综合36氪等媒体报道,GPT-4o模型训练成本约为1亿美元,而DeepSeek仅用了2048块GPU,训练了不到2个月,共花费550多万美元。其成本只有GPT-4o的1/20。

低廉的成本成为DeepSeek“免费商用、完全开源”策略的底气所在,由此形成的冲击,超乎了几乎所有人的想象。

最先被震惊的是华尔街的投资人,他们惊呼DeepSeek是“来自神秘东方的魔法”。无数投资人忙着订飞往杭州的机票,哪怕是所谓的红眼航班也不要紧,哪怕大洋彼岸正忙着过年…也不要紧。

投资吗,就要拿出三顾茅庐的诚意来啊,混蛋!

然后感受到威胁的是硅谷的科技精英。毕竟550万美元的训练成本过于寒碜,它甚至于不及一名资深AI工程师的年薪。

现在,这么低成本的AI模型登陆应用商店,硅谷的AI工程师能怎么办?他们也很绝望啊,难不成要自愿降薪到1/20?

而美国网友则乐疯了。1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。

一时间,从太平洋西岸的洛杉矶到太平洋东岸的上海,DeepSeek的名字无人不知无人不晓,而从寂寂无闻的发布到席卷全球的追捧,它仅用了不到一周的时间。

DeepSeek强在哪里?

美国著名财经频道CNBC在最新访谈节目中表示,DeepSeek 的出现,对以 OpenAI 为代表的主流AI巨头构成了实质性威胁。

但我们都知道,人们都已经习惯于夸大竞争对手的强大,以此索要更高的投入。

那么,DeepSeek究竟好在哪里?

让我们从一篇16页的论文谈起。

2025年1月22日,DeepSeek AI在GitHub公开了一篇学术论文,介绍了DeepSeek系列模型的技术逻辑,从中说明了如何在Open AI的基础上进行蒸馏优化。

在论文的引言部分中,作者指出一个反直觉的结论:

Open AI的o1模型之所以取得成功,是因为它没有像传统大模型一样,把算力集中在模型的预训练上,而是把更多资源分配给模型的推理,赋予后者更多的算力,以实现性能的大幅提升。

打个比方,一个好的教师,好就好在没有让参加考试的小朋友把时间和精力集中在“刷题”之上,而是让他们集中思考怎么把问题分解,转化为已知问题。

传统的AI大数据模型中,预训练是很重要的一环,它限定了AI“学什么”

不过,因为Open AI的o1模型没有开源,DeepSeek的开发者也不知道具体的逻辑原理,相当于试卷中只有标准答案,但没有解题过程。

因此,开发者就通过“大范围强化学习”( large-scale reinforcement learning)的策略,让模型在缺少“外部监管”的环境中,自己根据标准答案,在试卷上进行反复推理,做错了修改,做对了予以价值评判,给予正反馈。这就是DeepSeek R1-zero模型的基本原理。

当然,除了强化学习的技术,开发者还加入了GRPO优化和正则化奖励。

GRPO优化(Group Relative Policy Optimization)是采用分组,对同一个问题生成多条候选输出,并以组内相互比较的方式来估计相对奖励的方法。

打个比方,GRPO更接近于“小组竞争学习法”,也就是把全班同学分为若干个小组,组员合作完成解答成果,然后做好PPT,派代表上台讲解解题过程,而授课教师全程评判,选取“最符合答案”的解题思路,然后把它作为下一轮的标尺(benchmark),发放给所有的小组,让各小组继续学习,开始第二轮的答题…如此反复,逼近最满意解。

采用GRPO的AI模型,计算资源的消耗量下降了约40%,训练速度提升了两倍以上。

所谓正则化奖励(Regularizer Reward),是指在得出的完整答案中,根据经验风险最小化的原则,加上一个规则化项(regularizer)或罚项(penalty term),调整答案的权重。

这就相当于小朋友完成答题后,除了要求答案正确,还要求解题过程必须完整(程式化)、字迹清晰(标准化),绝不能和数学大神一样思维跳脱,动不动就写出“由上易得”、“显然有”…之类的虎狼之词。

正则化奖励的优势,不仅仅是便于溯源,而且还能遏制机器学习过程中拼凑答案的不良苗头——毕竟问题是已知的,结论也是已知的,中间蒙一下瞎写一个答题过程,也是人/机器之常情。

经由正则化奖励获得的实验结果,可以让GRPO的迭代学习更有效率,更加优化。

总之,感谢即时翻译工具,让我这个门外汉也能囫囵吞枣地了解DeepSeek的基本学习策略。

而这三大策略的“组合技”威力也是巨大的。

例如强化学习策略减少了监督微调过程;奖励机制便于筛选出更优质的语料,指导模型改进推理;GRPO则提高了训练效率,减少了功耗。更重要的是,在没有预设代码的背景下,DeepSeek在迭代强化学习的过程中拥有了“顿悟”的感觉,非常接近“一力降十会”的Open AI模型。

此外,DeepSeek R1的蒸馏技术也非常出彩。所谓蒸馏技术,就是把大模型的推理能力迁移到小模型中,从而实现计算效率与性能结果的动态平衡。

打个比方,就是先用R1大模型生成数十万条高质量的推理样本,然后以这些样本作为监督微调的范式,去训练小模型,从而让小模型在某些方面达到接近于大模型的性能。

论文中列举了一个有趣的例子,在解答一道国际数学奥赛题的过程中,经过蒸馏技术训练的千问模型(拥有7B的参数,也就是70亿个参数),在性能上已经接近了此前的32B模型(拥有320亿个参数)。

论文发布后,有研究人员经过测试,基本复现了图表中的统计结论,由此引发业界轰动

但这并不意味着DeepSeek甫一出世,就能取代其他AI产品,就能终结AI行业对算力的依赖(例如有人狂言,DeepSeek R1发布后,英伟达的芯片滞销,穿皮衣的黄教主赶紧来访问中国了…)

Open AI的前代教父卡帕西一再表示:

(DeepSeek R1的成功)并不意味着大模型不再需要GPU的大规模集成,因为我们必须确保模型不浪费现有资源。

作为圈内大佬,卡帕西的话比较含蓄。他其实是说:

DeepSeek R1模型很可能是把ChatGPT的模型的知识蒸馏到了新模型之中,以之前存在的海量高质量模型提取出少量的高质量数据,以此作为新模型的训练数据,进而得到接近于原始数据的训练效果。

也就是说,Deepseek是一个善于从知识的汪洋里采摘明珠的孩子,这当然是极好的。但不能因此认为,为知识的海洋添加活水的其他孩子就不重要了——传统的大数据模型(例如Open AI)就是“其他的孩子”,而它们使用的工具,就是GPU集群。

你不能因为学生模型有着出色表现,就否认教师模型的作用。

这里我需要强调一点,DeepSeek并不是Open AI的换皮产品,但它在应用部署过程中使用了蒸馏技术,并将ChatGPT作为教师模型,这一点是大概率的事。

例如某媒体报道。一位科技圈知名评测研究员曾报告一个早期DeepSeek版本的bug:当你问“你是什么模型”的时候,DeepSeek说它是:

ChatGPT。

所以Open AI的CEO山姆·奥特曼在近期发文称:

复制你知道有效的东西是相对容易的,而尝试一些新的、有风险且你不知道效果如何的事情,是极其困难的,但那也是最酷的事…

凹凸曼教主的发言,没有一个字提及DeepSeek,但没有一句话不在暗示DeepSeek,其中纠结,用心良苦

但我们并不能因此否认DeepSeek R1的伟大。

在某种程度上,高质量的蒸馏才是DeepSeek R1模型的最突出贡献。这意味着“分布式AI”成为一种可能。换而言之,我们可以把算力较低的机器(例如家用计算机,小型服务器,甚至手机)接入大模型,经过蒸馏训练后,得到与大模型接近的性能。

而如果把眼界放得更长远一点,高质量的蒸馏技术,可以缓解算力紧张的危机。对于GPU进口大门被限制、相关资源有限的国家来说,更是具有重大的工程意义。

因此,像Deepseek这样的AI是藏不住的。

就算它有诸多不如意之处,它的口碑也会从每一次免费对话中流出来,拦不住,也断不掉。

哪怕很少有人能够说出它的原理,但也已经不重要了。

那些开发了DeepSeek的年轻人

掌声如潮水般涌起,涌向仅有140名员工的DeepSeek公司。

美国硅谷的同行称之为“神秘的东方力量”,诚邀团队人员参加最前沿的会议;而在国内,各路同行公司挥舞支票,盼望着DeepSeek开发团队人员的加盟。

最新的消息是,雷军成功地以千万年薪挖角“天才AI少女”罗福莉。对此,DeepSeek称,研究员罗福莉确实已经离职,但不清楚是否加入了其他公司。

如彗星般崛起的罗福莉,其实是一名“95后”。她在攻读北京大学计算语言学硕士期间,因在国际计算语言学协会(ACL)上发表多篇论文而声名鹊起,然后毕业后加入阿里巴巴达摩院,再在2022年进入幻方量化,参与DeepSeek大模型项目。

作为一名自信的95后,罗福莉在社交媒体上回答了网友的提问,并公布了自己的照片

而整个DeepSeek团队,甚至它的母公司幻方量化,基本由年轻人构成。

例如在2023年5月,DeepSeek发布V2模型时,在主页上重点介绍了作出卓著贡献,但又最为年轻的两位成员。

第一位是2013年被保送到北京大学物理系的广东人高华佐,第二位是2017年考入北京邮电大学的湖南新化人曾旺丁。

他们是那么的年轻,但在二十多岁的年纪时,就已经为改变这个世界尽了一份自己的努力。

而几乎每一个DeepSeek团队的成员,都对公司创始人梁文锋表达了敬意。

在接受腾讯“暗涌”的专访时,梁文锋表达了他选人、用人的标准。他说,过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。例如过去三十多年 IT 浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。

因此,梁文锋选人的第一个原则,就是好奇心和创造欲。

例如他说,团队成员在午歇期间聊天,聊起人工智能的本质是不是语言。因为人类的思维最终是以语言表达出来的,你以为你在思考,其实是在脑子中组织语言,它们看上去是一回事。

梁文锋认为这个想法很有意思,愿意提供资源,鼓励成员去了解语言学相关知识,去验证这个猜想——这个猜想的答案也许无用,也许会成为催生人工智能的关键。

除此以外,梁文锋喜欢从国内的TOP高校招募应届生。

他认为,也许行业中前50名顶尖人才可能不在中国,但我们能利用本土人才打造这样的人。因为本土大学的应届生,往往有着敢爱敢做的创新精神。

梁文锋说,应届生有一个好,就是认为所有的套路都是上一代的产物,未来不一定成立,这对创新是非常重要的。

因为如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要了。例如做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。

因此幻方量化有个招人的原则,就是核心技术岗位,基本以应届和毕业一两年的人为主。

其实,就连梁文锋创立幻方量化时,他本人都没有任何量化经验。

2002年,梁文锋以广东省吴川市第一中学“高考状元”的成绩考上浙江大学电子信息工程专业,后来又攻读该校硕士,因为做课题才积累了市场行情数据和探索全自动量化交易。

2010年,硕士毕业后的梁文锋与同校好友徐进一起创业,并在2015年共同创办了幻方量化。幻方很快就成为国内四大量化公司之一,2021年管理的基金规模炒股了千亿元大关,并获得基金界的最高荣誉金牛奖。

2019年,为了解决算力瓶颈,梁文锋创办了幻方AI公司,投资2亿元研发深度学习训练平台“萤火一号”,为此搭载了1100块GPU显卡。

在GPU卡脖子事件汇总,梁文锋成为幸运加成的幸运儿。对此,他谦虚地表示:

并不是我在2021年有了什么先见之明,也没有一个不为人知的商业逻辑,因为如果单纯只做量化投资,很少的卡也能达到目的…我主要就是好奇心驱动。

同样是因为兴趣,梁文锋在2023年创办DeepSeek公司,宣布要做通用人工智能(AGI)。他说:

一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。

2022年,幻方量化的一位员工以“一只平凡的小猪”的名义,向慈善机构捐款1.38亿元,其中的扶持项目涵盖白血病救助、乡村工匠、中学生资助、听障儿童支持、关爱老兵等。有人说,这位员工就是梁文锋。

2024年10月,梁文锋的幻方量化发布一份“告投资者公告”,称未来会逐步将对冲产品投资仓位降低至零。

2025年1月,国务院总理主持召开专家、企业家和教科文卫体等领域代表座谈会,梁文锋在会上发言。

在农历2024年的最后一天,我们看过了太多灰败的塌房事件,但AI圈被DeepSeek这条鲶鱼搅了个天翻地覆,显然是一个难得的、振奋人心的好消息。

有人说,当经济开始进入下行期,资本也进入了冷周期,这可能对生活、工作、创新产生不利。

但我们欣喜地看到,在中国,有这么一批年轻人认为,中国产业结构的调整,让人们发现过去靠时代红利赚快钱的机会消失了,而更愿意俯身去做真正的创新。

中国的希望,就在于有这样的年轻人。

王尔德说:

We are all in the gutter,but some of us are looking at the stars.

来源:将军箭

相关推荐