摘要:Deepseek在全球的爆火证明了通过蒸馏等手段,小模型仍能展现强大的推理能力,未来端侧模型应用的潜力巨大。1月31日,英伟达表示DeepSeek-R1模型现已作为英伟达NIM微服务预览版在build.nvidia.com上发布,DeepSeek的成功不仅推动
Deepseek在全球的爆火证明了通过蒸馏等手段,小模型仍能展现强大的推理能力,未来端侧模型应用的潜力巨大。1月31日,英伟达表示DeepSeek-R1模型现已作为英伟达NIM微服务预览版在build.nvidia.com上发布,DeepSeek的成功不仅推动了中国AI企业国际化进程,也为全球Al产业发展提供了新思路,加之支持性政策不断助力,中国AI行业有望在全球竞争中实现从“跟跑”到“领跑”的转变。DeepSeek性能上比肩甚至超越了部分世界主流开源模型,同时还兼具了成本开发端的优势,显著推动了创新效率。
算法上, DeepSeek核心技术亮点在于:
1)延续v2/3,使用MLA+MOE,大幅提升模型效率;MLA、MOE自V2开始就被deepseek使用,此前V2以236B总参数、21B激活,大致达到70B~110B Dense的模型能力。
2)推理上,放弃SFT而全部转向RL,同时对RL算法进行创新,使得推理能力再上一台阶;24H2后,随着预训练Scaling Laws迭代放缓,OpenAI发布o1模型标志着大模型迭代重心从预训练转向推理端。2024年12月OpenAI发布o3,其推理能力进一步提升。但由于o1和o3均未开源,业界难以复现这一推理提升过程。
3)算力使用上,微调PTX,算子层面提升效率。
Deepseek微调PTX,算子层面提升效率。
1)post-training、Reasoning Scaling law崛起,推理算力需求提升,但预训练阶段的Scaling law仍不会放弃,最先进模型的参数量、数据量和算力投入仍有提升空间;
2)工程优化+蒸馏技术,将带动价格下降,加速AI技术普惠,从而使用户推理需求飙升,带动整体算力消耗量的提升;
3)推理算力芯片百花齐放,国产算力芯片有望获得更多增量;
4)Deepseek团队自行编写PTX代码,代表着CUDA标准库壁垒的弱化,新模型架构和算子需求下,非英伟达算力芯片软件迎来追赶窗口期。R1开源模型API服务定价显著低于OpenAIo1,上线20天DeepSeekAPP日活已达2000万,成全球用户增速最快的AI大模型。
Deepseek的高效架构与创新技术:
1)MoE架构的共享专家策略,减少知识冗余,提高参数效率;
2)DeepSeek-V3引入了FP8混合精度训练框架,占用空间更小,计算速度更快;
3)多头潜在注意力(MLA例如,在AIME2024数学基准测试中,DeepSeek-R1的得分率为79.8%,略高于o1的79.2%;在MATH-500基准测试中,DeepSeek-R1的得分率为97.3%,也优于o1的96.4%。
DeepSeek推测总数约6万颗:根据半导体研究机构Semi Analysis的分析,DeepSeek及其关联公司High-Flyer共同拥有约50,000颗NVIDIAGPU,包括:
1万颗H800:针对中国市场定制的版本,计算能力与H100相同,但网络带宽较低。
1万颗H100:高性能GPU,主要用于训练和推理。
3万颗H20:为符合美国出口管制而设计的“缩水版”GPU,性能低于H100,但成本更低。
1万颗A100(早期采购的型号)
DeepSeekV3多方面创新带来对标GPT-4o的性能+远低于4o的训练/推理成本:DeepSeekV3整个训练过程不到600万美金的成本,模型效果对标亿美金级成本的GPT-4o;推理成本也是4o的1/10以内。大幅降本的缘由是其在算法架构、训练环节、通信/计算优化/PTX层优化等多方面做出的创新.
大幅降低训练成本:Pre-Training,仅花费557.5万美元(不包括与架构、算法或数据的先前研究、消融实验相关的成本);4o的训练成本预计是亿美金级别。
大幅降低推理成本:DS V3针对重复问题(不需要重新计算,可直接调用结果)输入成本为0.014$/1M tokens,非重复任务为0.14$/1M tokens;output价格为0.28$/1Mtokens(以上成本GPT-4o分别为1.25$/2.5$/10$),推理成本是4o的1/10以内。
一、算法架构:引入MLA(机器学习算法)、MOE(专家混合模型)、MTP(模型训练过程相关方法)等多种方式可以有效压降训练/推理成本,提高模型推理能力。
1.不同MLA(机器学习算法)压降成本,MLA通过降秩KV矩阵,减少显存消耗。
1)选择合适的基础算法:不同的机器学习算法在计算复杂度、数据需求和性能上有差异。对于简单线性可分问题,选择逻辑回归算法,其计算复杂度相对较低,训练和推理速度快,降低计算资源成本和时间成本;对于复杂图像识别等问题,简单算法难以达到精度要求,权衡使用更复杂但更有效的卷积神经网络(CNN)等算法,在满足精度的前提下尽量优化模型结构以降低成本。
2)采用集成学习算法:集成学习将多个弱学习器组合成一个强学习器,如随机森林算法,它由多个决策树组成。通过对训练数据进行有放回抽样构建多个子数据集,分别训练决策树然后综合决策树的结果进行预测。这种方式在提高模型性能的同时,由于每个决策树的训练相对简单,整体计算成本相对可控,且能有效防止过拟合,减少因模型过拟合导致的反复训练调整成本。
3)应用强化学习进行资源管理:在训练和推理过程中,利用强化学习算法动态管理计算资源。根据模型的训练进度和当前资源使用情况,强化学习智能体可以决定是否需要增加或减少计算节点,或者调整模型的训练参数以适应资源变化,从而在保证模型性能的前提下,最大限度地利用资源,降低资源浪费带来的成本。
2.借助MOE(专家混合模型)降低成本
1)减少模型参数数量:传统单一模型需要大量参数拟合复杂数据分布,导致训练和推理过程计算量巨大。MOE(专家混合模型)将模型分解为多个专家模型和一个门控网络,每个专家模型只需要处理一部分数据分布,因此可用相对较少的参数来达到与大型单一模型相似性能。在自然语言处理的语言模型任务中,使用MOE(专家混合模型)结构可保持语言生成质量并显著减少模型参数数量,从而降低训练和推理时的内存占用和计算量。
2)提高模型的并行性:MOE(专家混合模型)中多个专家模型可并行训练和推理,计算资源充足的情况下,能充分利用并行计算能力,大大提高训练和推理速度。在分布式训练环境中,可以将不同的专家模型分配到不同的计算节点上进行并行训练,加快整体训练进程,减少训练时间成本。
3)自适应数据处理:MOE(专家混合模型)的门控网络可以根据输入数据的特点,自适应地选择合适的专家模型来处理数据。在推理过程中,对于不同类型数据,可只激活少数相关专家模型,避免对所有模型进行计算,降低推理成本。比如在图像分类任务中,对于不同类型的图像,门控网络可以将其分配到擅长处理该类图像的专家模型进行分类,提高分类效率并降低计算量。
3.通过MTP(模型训练过程相关方法)相关方法控制成本
1)优化训练超参数:通过合理调整训练超参数来降低成本。使用学习率退火策略,在训练初期设置较大的学习率以加快收敛速度,在训练后期逐渐减小学习率以避免模型振荡并提高收敛精度,这样可以在保证模型性能的前提下减少训练时间和计算资源消耗。同时,合理调整正则化参数可以防止模型过拟合,减少因过拟合导致的重新训练成本。
2)模型压缩与量化:在模型训练完成后,对模型进行压缩和量化处理。模型压缩技术如剪枝,可去除模型中对性能影响较小的连接或参数,减少模型的存储空间和计算量。量化将模型参数从高精度数据类型转换为低精度数据类型,如将32位浮点数转换为16位浮点数甚至更低精度的整数类型,在几乎不损失模型性能的情况下,大大降低计算量和存储需求,从而降低推理成本。
3)采用增量学习和在线学习:对于不断更新的数据,采用增量学习或在线学习方法。增量学习允许模型在已有模型的基础上,逐步学习新的数据,而不需要每次都重新训练整个模型,减少了训练成本。在线学习则是模型可以实时处理新到来的数据,不断更新模型参数,适用于数据实时性要求高的场景,避免了大量数据累积后一次性处理带来的计算压力和成本。
二、Training阶段:通过SFT(有监督微调)与RL(Reinforcement Learning强化学习)显著提升post-training(后训练)的成效,其中RL过程通过原创的GRPO算法实现(与PPO效果接近,大幅降低训练开销)。
1.RL(Reinforcement Learning强化学习)主要算法
1)基于价值的算法:如Q学习(Q-learning)和深度Q网络(Deep Q Network,DQN)。这类算法通过学习状态-动作值函数(Q函数)来评估在某个状态下执行某个动作的长期价值,智能体选择具有最大Q值的动作。DQN则是将深度学习与Q学习相结合,利用深度神经网络来逼近Q函数,能够处理高维状态空间和大规模动作空间的问题。
2)基于策略的算法:包括策略梯度算法(Policy Gradient)及其扩展,如 A2C(Advantage Actor-Critic)、A3C(Asynchronous Advantage Actor-Critic)和 PPO(Proximal Policy Optimization)等。基于策略的算法直接学习策略网络,通过优化策略网络的参数来最大化累计奖励,它们可以学习到随机策略,在一些连续动作空间和复杂环境中表现更好。
3)基于模型的算法:尝试学习环境的模型,即状态转移概率和奖励函数,然后利用这个模型来规划最优策略。例如,动态规划(Dynamic Programming)方法在已知环境模型的情况下,可以通过贝尔曼方程(Bellman Equation)求解最优策略。
2.post-training(后训练),即在预训练基座模型的基础上,如何进行进一步的训练,让LLM真正在实际场景中发挥作用,真正成为人类的帮手。post-training(后训练)涵盖一系列在模型完成初始训练后执行的操作,目的是提升模型性能、适应性或满足特定需求。
1)post-training(后训练)模型评估:
2)评估指标计算:在训练完成后,首要任务是使用独立的测试数据集对模型进行评估post-training(后训练)技术方法。例如在分类任务中,常用准确率、精确率、召回率、F1值等指标衡量模型分类的正确性和可靠性;回归任务里,一般通过均方误差(MSE)、平均绝对误差(MAE)等指标评估模型预测值与真实值的接近程度。
3)性能可视化:将评估结果以可视化的形式呈现,如绘制混淆矩阵直观展示分类模型在各个类别上的预测情况,或绘制学习曲线观察模型在训练集和验证集上的性能随训练轮数的变化,帮助研究者更好地理解模型行为,发现潜在问题,如过拟合或欠拟合现象。
4)后续还需要完成模型调整与优化;5)超参数微调、模型正则化调整;6)模型压缩与量化;7)模型融合与集成;8)特定场景下的领域适应与迁移学习。
post-training(后训练)技术方法
知识蒸馏:后训练阶段常用技术,通常用于将一个大型教师模型的知识迁移到一个小型学生模型中。教师模型具有较高的性能,但可能计算成本高或难以部署。通过让学生模型学习教师模型的输出分布或中间层特征等知识,学生模型可以在保持较高性能的同时,具有更小的模型规模和更低的计算成本,从而更易于部署和推理。
对抗训练:在post-training中也可以引入对抗训练机制。针对生成对抗网络(GAN)中的生成器或鉴别器模型,在初步训练完成后,进一步通过对抗训练来提高模型的鲁棒性和生成能力。生成器尝试生成更逼真的数据以欺骗鉴别器,而鉴别器则努力区分真实数据和生成数据,通过这种对抗过程不断优化模型。
多模态融合:对于涉及多模态数据(如图像和文本)的任务,在模型分别对各模态数据进行训练后,在post-training阶段可以进行多模态融合操作。通过设计合适的融合策略,如早期融合、晚期融合或混合融合等方式,将不同模态的特征进行整合,以充分利用多模态信息,提升模型对复杂任务的理解和处理能力。
三、DeepSeekR1除了与V3同质的系列创新外,对行业影响最大的点在于论证了SFT过程可能不是刚需/蒸馏头部大模型比训练自有模型更高效(SupervisedFine-Tuning,有监督微调,在预训练模型基础上,使用有标注数据进行进一步微调的过程,以适应特定任务或领域):
R1-Zero不依赖任何监督数据也可以涌现:R1-Zero在经过数千次的RL过程后,展现出了极强的推理能力(出现了aha-moment,涌现出超脱数据集的能力),说明不需要SFT过程,模型的推理能力也可以提升(高质量的监督数据不再是模型进化的门槛)——击碎数据崇拜。
直接蒸馏成熟模型比依靠先进范式重训练自有模型更高效:基于R1蒸馏多个开源模型,效果均明显好于原模型;基于R1直接进行蒸馏得到的模型效果要好于将原模型基于R1训练框架进行重训练;对于绝大多数公司来说自研可能意义不大,蒸馏是捷径;这是除了成本因素外,冲击到云端算力叙事逻辑的核心。
四、通信优化&计算优化&PTX层优化:DualPipe/FP8混合精度训练/定制PTX指令协同优化下,模型训练的通信效率/内存效率均明显提升。
五、训练/推理/高质量数据都不再是门槛且蒸馏领先模型就是捷径:
后发者将迅速收敛与行业领先者的差距:LLM发力相对晚些的互联网大厂(例如小米、京东、快手等)将快速收敛与LLM头部大厂之间的差距(阿里、字节、OpenAI、Meta、Google等);映射到智联汽车领域,传统车企或许也有可能加速收敛与特斯拉、华为、小鹏等头部智驾厂商的差距。
主业的垄断程度又变得重要:“数据平权+技术平权”背景下,商业竞争的核心可能又会从AI切换为公司主业的过往竞争力,传统非AI公司估值可能重塑;
AI应用&端侧确定性受益:训练/推理成本指数级下降,且大模型蒸馏出的小模型效果提升显著;AI应用的迭代成本明显下降&端侧模型的可用性明显提高,泛AI应用&包括手机、PC、智能车、机器人在内的泛端侧AI及其底层芯片/模组全面受益。
To-C可能比To-B更受益:B端普遍在讲基于调用token分润的叙事,当有个开源产品提供的推理价格已经收敛到接近推理成本的时候,to-B token分润的收入不见得能cover为定制化付出的实施/交付成本。
ASIC VS 通用GPU:“算法+硬件+系统架构”协同优化确实能大幅提升硬件利用率,这说明通用GPU/CPU头部厂商垄断地位并不稳固,国产GPU/CPU随着市占提升/生态改善,将会更加繁荣。
六、相关产业链:
AI应用端侧确定性受益:训练/推理成本指数级下降,且大模型蒸馏出的小模型效果提升显著;AI应用的迭代成本下降端侧模型可用性明显提高,泛AI应用/端侧AI全面受益(to-C可能略好于to-B)。
1)AIGC应用:金山办公、道通科技、虹软科技、新致软件、星环科技、中科创达、润达医疗(医药+计算机)、福昕软件、萤石网络、汉得信息、焦点科技、科大讯飞、万兴科技、用友软件。
2)数字经济领军:海康威视、金山办公、恒生电子、中控技术、德赛西威、启明星辰、科大讯飞、华大九天、同花顺、大华股份、新大陆。
3)信创&数据:海光信息、软通动力、索辰科技、博思软件、能科科技、纳思达、太极股份。
4)AIGC算力:华为“昇腾链”、浪潮信息、海光信息、神州数码、中科曙光等。
5)端侧:机器人、智联汽车(德赛西威、均胜电子等)、手机(中科创达、虹软科技)、AIPC、AI玩具模组芯片厂商(乐鑫科技、移远通信、广和通、美格智能、瑞芯微、全志科技等)。
后发者将迅速收敛与行业领先者的差距:LLM发力相对晚的互联网大厂将收敛与LLM头部大厂之间的差距;映射到智联汽车领域,传统车企或许也有可能加速收敛与特斯拉、华为、小鹏等头部智驾厂商的差距。
小米系(金山办公)等;传统自主品牌车企(比亚迪)。
ASIC国产芯片生态:“算法+硬件+系统架构”协同优化确实能大幅提升硬件利用率,这说明通用GPU/CPU头部厂商垄断地位并不稳固,国产GPU/CPU随着市占提升/生态改善,将会更加繁荣。
传统非AI公司:“数据平权+技术平权”背景下,商业竞争的核心可能又会从AI切换为公司主业的过往竞争力,传统非AI公司估值可能重塑;各行业头部公司。
AIPC:华勤技术、光大同创、春秋电子、隆扬电子、亿道信息、雷神科技、欣旺达。
Deepseek开源模型的硬件适配成本更低且推理表现优异。蒸馏后的模型可以通过 AnythingLLM和Ollama等实现PC本地部署,不仅保护数据隐私而且可以根据需求进行定制优化。
蒸馏后的模型参数涵盖1.5B/7B/8B/14B/32B/70B,据测评表现,参数规模在32B及以上的模型具有显著更好的性能。
相较于其他终端,PC具备生产力工具属性,用户更加追求性能体验,是承载更大规模本地模型的首选终端。本地部署对 PC 硬件提出了较高要求,尤其是32B及以上参数规模的模型,需要24GB及以上的GPU配置,以及更大的内存、更高的散热/电磁屏蔽等要求。伴随着更高规格的本地模型部署需求爆发, AIPC换机将成为必然趋势。
AIPC出货量有望快速增长,带动整体PC产业向中高端升级。据 Canalys数据,其预计 2025 年AIPC出货有望达1亿台,占比40%;到2028 年AIPC出货有望达到2.05 亿台,占比70%,2024-2028 年 CAGR高达 44%。根据IDC数据,消费级 AI 笔记本电脑平均单价约在 5500-6500 元之间,AI 台式电脑平均单价在 4000 元左右;AIPC出货加快将带动整体PC产业向中高端升级。
终端厂商话语权加强,核心零部件量价齐升。
核心零部件:AIPC本地模型部署进一步提升对大容量高速显存、高带宽内存DDR5的需求。同时由于CPU和GPU的升级,所配套的IC载板与PCB等也将量价齐升。AIPC高算力带来更高功耗与电磁干扰,散热材料、散热系统及电磁屏蔽材料也将进一步升级。结构件方面,预计镁合金和碳纤维等轻量化材料的应用将进一步扩大。
IC 载板和 PCB:由于CPU和GPU的升级,所配套的 IC 载板与 PCB 等也将量价齐升。
PCB:为了满足显卡内部复杂电路和高速信号传输的需求,个人电脑所用的PCB 将采用更精细的线路和更小的过孔,实现更高的布线密度。PC 上主板通孔板,后面有望升级至 HDI。同时远期来看,类比手机中 PCB 的发展方向,任意层互连(Anylayer)技术凭借更灵活的电气连接,避免了传统 HDI技术中对层间顺序的限制,提高布线的自由度和效率,未来也有望更多地应用于高端 AIPC 中,胜宏科技、景旺电子。
IC载板:ABF载板需要具备更高的布线密度,线宽/线距从当前的几十微米降低到十几微米甚至更小;同时需要进一步采用低损耗、低介电常数的材料,并优化布线设计,减少信号传输中的延迟、衰减和失真;此外为保障芯片性能稳定和寿命,ABF 载板需优化散热能力,例如,载板内部设计散热通道、散热层或采用散热过孔等结构,将芯片产生的热量快速传导出去,降低芯片工作温度。国内ABF载板供应商兴森科技、深南电路等有望加速导入和爬坡。
参考资料:
20250205-方正证券-DeepSeekV3:数据平权,开启端侧AI应用的黄金时代
20250205-国泰君安-本地模型部署需求爆发,AIPC换机加速
20250204-申银万国-计算机:Deepseek全解,从算法到算力
投资顾问:王德慧(登记编号:A0740621120003),本报告中的信息或意见不构成交易品种的买卖指令或买卖出价,投资者应自主进行投资决策,据此做出的任何投资决策与本公司或作者无关,自行承担风险,本公司和作者不因此承担任何法律责任。
来源:九方金融研究所