回顾DeepSeek的4篇重要论文,聊聊R1登顶全球榜一这事

360影视 2025-01-30 08:21 2

摘要:乘着路上的时光,我和大家聊聊这几天最热闹的事情——中国AI大模型DeepSeek R1,分享一下我眼中R1对AI产业究竟意味着什么,结尾还会附上创新地图小伙伴整理的DeepSeek技术路线历程。

大家好,我是王煜全。

今天是大年初二,不少朋友要么在走亲访友,要么已经开始出门旅游。

乘着路上的时光,我和大家聊聊这几天最热闹的事情——中国AI大模型DeepSeek R1,分享一下我眼中R1对AI产业究竟意味着什么,结尾还会附上创新地图小伙伴整理的DeepSeek技术路线历程。

分析之前,我们照例回顾下R1火出圈的整个过程。

DeepSeek-R1其实1月20日已经发布,当时就开源了R1-Zero、R1在内的6款模型。

不过,当时最热的AI话题是美国投资千亿的“星际之门”,只有学术、产业界人士注意到R1的价值,大家都在好奇这家中国公司如何让AI模型的成本降低这么多。

24日,随着开发者社区、投资人的持续关注,R1在X(原推特)上炸出了圈,夸张点说我看到的90%信息都和DeepSeek有关。

1月27日,随着DeepSeek的APP登顶美国在内的多国下载榜第一,这款中国AI大模型真正火遍国内外。

一时间,“中国AI反超美国”“OpenAI模式过时”“开源AI迎来重大突破”的讨论层出不穷,甚至有科技媒体认为“R1宣告AI算力需求就此消失”。

咱们先别急着站队,也别被中美媒体的叙事带节奏,还是回到科技产业的视角,更能看清R1的价值。

首先,R1再次印证科技产业最重要的创新是规模量产。

历史上的案例我以前跟大家讲过很多,瓦特并没有发明蒸汽机,但是他让蒸汽机性能大幅提升,开始规模化应用,所以他被人们铭记。

R1作为一款推理模型,用专业术语说就是模型会自己通过思维链(Chain-of-Thought, CoT)逐步分解复杂问题,一步步反思得到相对准确并且富有洞察的结果。

思维链推理这条路并不是DeepSeek首发,OpenAI之前推出的o1模型才是这条路径的开创者。

但是,这有个非常重要的但是,R1的出现第一次让推理模型能被大多数人用上。

虽然由于这几天新增用户太多经常出现宕机,相较于OpenAI花200美元订阅费才能随意使用O1,DeepSeek这次确实是领先了非常大的一步。

其次,R1让我们看到AI大模型工程调优更加巨大的潜力。

回顾2024年DeepSeek团队发布的4篇重要论文,从中能看到一个清晰的技术演进路线:从数据、算法和工程框架的底层入手,通过不断优化模型架构和训练方法,在降低成本的同时提升性能。

DeepSeek开源的第一款AI模型并没有引发太多关注,但当时他们就已经在探索模型参数量、数据量和算力的最优配比,通过分阶段的方式提升训练效率,开发思路已经聚焦在最底层的效率优化上。

V2版本在MoE也就是多专家架构上做了优化,还对Transformer架构最关键的注意力机制做了改进,推出了Multi-head Latent Attention,结合上数据工程的优化,大幅降低了训练和推理成本,同时提升了模型性能,也由此开启了2024年的模型价格战。

2024年5月前哨PPT报告,现在加入即刻获取

年底的V3版本可以说是一次集大成之作,训练上优化了不同专家模型的训练负载,验证了FP8混合精度下数据训练的有效性,同时让AI模型不是单独预测下一个Token,而是多个token同时预测,大幅提高了模型性能,也降低了向用户提供服务的成本。

最新的DeepSeek R1,在如何让AI能持续思考这件事上,探索了纯强化学习训练推理能力的可能,并且把这条路走通了。

说的夸张一点,相当于Alpha Go到Alpha Zero的进步,AI不再依赖人类数据学会推理,自己探索政策的推理策略,所以才有他们论文中提到的“啊哈时刻”,AI在某个时间点自己“顿悟”做推理的方法。

我也不是AI工程技术的专家,更多细节就不逐一列举了,DeepSeek的4篇论文链接已经在文末附上,欢迎大家分享你的解读。

当全世界都在卷算力、堆GPU的时候,DeepSeek通过精细的工程优化让我们看到工程优化也能实现性能的十倍提升,也变相回答了“Scaling Law是否失效,AI的发展会不会停止”这个问题:

之前的算力、数据使用方法太过粗糙,Scaling Law还有巨大的增长空间。

最后,R1并不是终点,但它正在成为产业格局变动的重要信号。

以前,AI大模型领域一直是OpenAI、谷歌、微软这些巨头玩家的天下,它们凭借雄厚的资金和技术实力,牢牢把控着产业的话语权。

在这种产业路线下,才会有星际之门这样的超级基建项目,也导致芯片封锁等等贸易冲突。

现在,DeepSeek不但告诉大家在堆芯片之外还有一片巨大的空间等待探索,它还将这条路径的实现过程开源出来,打破了AI技术的垄断格局,让更多中小企业和开发者,也有机会参与到AI大模型的研发和应用中来。

所以才会有许多网友调侃,相比于O1推理过程都要隐藏的起来的OpenAI,整个模型都开源的DeepSeek更像OpenAI。

当然,R1的出现,也引发了一些新的讨论,其中最热门的就是“R1是不是AI算力需求暴跌的开始?”。

英伟达这几天股价下跌,不少人已经将它看成是市场的回答。

对此我还是想提醒一下大家,股价短期波动我不懂,但长期看AI算力只会增长,不会下降。

这就是「杰文斯悖论」的又一次重演。

1865年,英国经济学家威廉·斯坦利·杰文斯在他的《煤炭问题》(The Coal Question)一书中提到:每一次蒸汽机的成功改进都进一步加速了煤炭的消费,煤炭利用的效率越高,越经济,都导致生产规模的扩大和煤炭需求的增长。

原因很简单,蒸汽机让更多工厂摆脱水的限制,建在任何地方,生产效率也大大提高,这反而让英国对煤炭的需求变得更多。

今天AI大模型也是一样,R1虽然降低了训练成本,但它让更多人、更多企业能够用上AI大模型,这反而会让AI的算力需求进一步增加。

所以R1不会是AI变革的终点,断言胜负之类的宏大叙事都还太过虚无飘渺,我们可以必然预见的是在我们的这个时代,AI的应用场景将更加广泛,AI产业的格局也将发生深刻的变革。

至于会有哪些变革发生,这次春节结束我就会带来专题直播,和大家继续分析AI产业的未来发展趋势,更多内容就留待节后详细解读吧。

前哨特训营春节大促正在进行中,现在长按文末海报加入特训营,即可获取全年最大优惠!

DeepSeek 4篇重要论文及工程优化要点:

1.DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

这篇论文奠定了 DeepSeek 大模型的基础,提出模型参数规模并非越大越好,而是要找到模型参数量、数据量和算力的最优配比,通过分阶段的 Multi-step 学习率下降的方式,在不损失性能的情况下,可以更便捷地进行持续训练。

2.DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Multi-Head Latent Attention (MLA):通过对 Key 和 Value 进行低秩压缩,极大地减少了推理时的 KV cache,提高了推理效率,同时性能又比 MHA 更好。

DeepSeekMoE:通过精细化的专家划分和共享专家的隔离,DeepSeekMoE 能够在更低成本下训练更强大的模型。

Device-Limited Routing: 在训练过程中对 MoE 架构进行了改进,实现了训练效率的提升,并在跨节点通信时加入了平衡负载策略。

低成本训练:V2 在性能超越 DeepSeek 67B 的同时,训练成本却降低了 42.5%。

3.DeepSeek V3 Technical Report

辅助损失函数 (Auxiliary Loss) 新策略: 解决了在 MOE 模型训练中,为了平衡负载而引入的辅助损失带来的模型性能损失问题。

Multi-Token Prediction: V3 不再采用传统的单 Token 预测,而是采用多个 token 同时预测,从而提高了模型的整体性能,同时也有利于在推理阶段使用 speculative decoding 来提升推理速度。

FP8 混合精度训练:使用 FP8 混合精度框架训练,并在大规模模型上验证了其可行性和有效性。通过 FP8 计算和存储,训练得到了显著的加速,并减少了 GPU 内存的使用。

DualPipe:通过 DualPipe 算法,显著减少了 pipeline 过程中存在的 bubble,并使得通信过程和计算过程能够高度重叠,大幅提升了训练效率。

高效的跨节点通信: 使用高效的跨节点 all-to-all 通信内核,充分利用 IB 和 NVLink 的带宽,减少训练时的通信开销。

4.DeepSeek R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

不依赖监督微调的 RL:DeepSeek-R1-Zero 直接在 base 模型上运用 RL (强化学习)训练,证明AI大模型可以通过 RL 训练出更强的推理能力,不需要预先经过监督微调的训练。

多阶段强化学习:为了克服 RL 产生的不稳定性,DeepSeek-R1 先使用少量数据进行监督学习,再进行面向推理的强化学习。之后,再通过拒绝采样的方式来做监督微调,并结合全场景的 RL,最终形成了 DeepSeek-R1 模型。

小模型蒸馏:DeepSeek 团队探索了如何把 R1 模型的推理能力迁移到小模型中。他们使用 蒸馏的方法训练了基于 Qwen 和 Llama 的系列小模型。

【科技特训营】看懂科技产业,离不开长期观察。线上书院模式,与王老师深度链接!为未来五年做好准备,先人一步,看清未来!

先人一步,看清未来

前哨2025全年直播规划

来源:王煜全

相关推荐