摘要:Deepseek发布深度推理能力模型。R1-Zero采用纯粹的强化学习训练,证明了大语言模型仅通过强化学习也可以有强大的推理能力,DeepSeek-R1经历微调和强化学习取得了与OpenAI-o1-1217相媲美甚至超越的成绩。DeepSeek R1训练和推理
Deepseek发布深度推理能力模型。R1-Zero采用纯粹的强化学习训练,证明了大语言模型仅通过强化学习也可以有强大的推理能力,DeepSeek-R1经历微调和强化学习取得了与OpenAI-o1-1217相媲美甚至超越的成绩。DeepSeek R1训练和推理算力需求较低,主要原因是DeepSeek R1实现算法、框架和硬件的优化协同。过去的预训练侧的scaling law正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。
Deepseek发布深度推理能力模型,性能和成本方面表现出色。Deepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1。R1-Zero采用纯粹的强化学习训练,模型效果逼近OpenAI o1模型,证明了大语言模型仅通过RL,无SFT,大模型也可以有强大的推理能力。但是R1-Zero也存在可读性差和语言混合的问题,在进一步的优化过程中,DeepSeek-V3-Base经历两次微调和两次强化学习得到R1模型,主要包括冷启动阶段、面向推理的强化学习、拒绝采样与监督微调、面向全场景的强化学习四个阶段,R1在推理任务上表现出色,特别是在AIME 2024、MATH-500和Codeforces等任务上,取得了与OpenAI-o1-1217相媲美甚至超越的成绩。
国产模型迈向深度推理,策略创新百花齐放。在Deepseek R1-Zero模型中,采用的强化学习策略是GRPO策略,取消价值网络,采用分组相对奖励,专门优化数学推理任务,减少计算资源消耗;KIMI 1.5采用Partial rollout的强化学习策略,同时采用模型合并、最短拒绝采样、DPO 和long2short RL策略实现短链推理;Qwen2.5扩大监督微调数据范围以及两阶段强化学习,增强模型处理能力。
DeepSeek R1通过较少算力实现高性能模型表现,主要原因是DeepSeek R1实现算法、框架和硬件的优化协同。DeepSeek R1在诸多维度上进行了大量优化,算法层面引入专家混合模型、多头隐式注意力、多token预测,框架层面实现FP8混合精度训练,硬件层面采用优化的流水线并行策略,同时高效配置专家分发与跨节点通信,实现最优效率配置。当前阶段大模型行业正处于从传统的生成式模型向深度推理模型过渡阶段,算力的整体需求也从预训练阶段逐步过渡向后训练和推理侧,通过大量协同优化,DeepSeek R1在特定发展阶段通过较少算力实现高性能模型表现,算力行业的长期增长逻辑并未受到挑战。过去的预训练侧的scaling law正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。
大模型技术发展不及预期:大模型属于先进AI算法,若后续大模型算法更新迭代效果不及预期,则会影响大模型演进及拓展,进而会影响其商业化落地等;
商业化落地不及预期:大模型的商业落地模式在业界中普遍处于探索阶段,用户对于大模型的接受程度和商业化变现能力可能不及预期;
算力基础设施支持不及预期:美国制裁中国高科技企业,对中国形成芯片、算力的封锁,大语言模型训练过程中需要大量算力资源,需要关注中美关系带来的算力的压力;
政策监管力度不及预期:大语言模型带来新的网络生态商业,尚属于前期成长阶段,政策监管难度加大,相关法律法规尚不完善,政策监管力度可能不及预期;
数据数量与数据质量不及预期:大型语言模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影响大语言模型效果。
于芳博:中信建投人工智能组首席分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖人工智能等方向,下游重点包括智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。
庞佳军:电子行业联席首席分析师、人工智能组联席首席分析师,东南大学硕士,7年半导体行业经验,曾在Marvell、Nvidia、平头哥半导体、乐鑫科技等公司从事芯片研发和管理,2022年加入中信建投电子团队,专注研究CPU、GPU、EDA等领域。
辛侠平:中信建投证券人工智能行业分析师,中央财经大学硕士,2022年加入中信建投人工智能团队,重点覆盖人工智能、AI芯片、智能驾驶等领域。
证券研究报告名称:《DeepSeek R1深度解析及算力影响几何》
对外发布时间:2025年2月3日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
研究助理:孟龙飞
来源:点滴财学