摘要:Deepseek推动大模型平价化,降低开发成本,为下游端侧和应用侧打开市场空间,催生大量推理算力需求。IDC预测2026年中国智能算力规模年复合增长率达52.3%,增长源于推理端需求释放,大模型应用中推理算力需求超训练算力。国内各厂商已积极开展布局适配Deep
Deepseek推动大模型平价化,降低开发成本,为下游端侧和应用侧打开市场空间,催生大量推理算力需求。IDC预测2026年中国智能算力规模年复合增长率达52.3%,增长源于推理端需求释放,大模型应用中推理算力需求超训练算力。国内各厂商已积极开展布局适配DeepSeek的多类型算力芯片的推理框架,实现推理算力效率最大化、提升DeepSeek推理速度、创新业务模式等,增强其在DeepSeek推理方向的市场竞争力。
模型推理简介
模型推理是指利用已训练模型对新输入数据进行预测或决策的计算过程,其核心目标是通过高效、准确、实时的输出解决实际问题。与模型训练不同,模型推理是其后续流程的一环,具体来看:
训练阶段是计算密集型任务,旨在依托大量预处理数据,运用随机梯度下降等方法历经复杂迭代,持续调校模型参数来探寻数据规律,其特点在于需要处理大规模数据集和复杂的梯度计算,通常依赖于高性能GPU的并行计算能力,对显存容量和带宽要求高,需要高速互联保证多卡协同运行,通常要求千卡及万卡级以上。同时模型训练伴随多次梯度迭代,对于数据的精准度通常要求较高,通常计算精度要求FP16及以上。
推理阶段,模型参数固定,更多属于访存密集型任务,更注重低延迟和高吞吐量的前向传播,单次计算量较小,但高并发场景下整体算力需求仍会增加,依据应用场景对于数据精度要求差异,目前场景以FP16、FP8、int8计算精度为主,一些特殊场景如科学计算等需要FP32或FP64。
模型推理过程主要涉及推理算力、推理框架、推理应用。推理框架作为模型推理的“操作系统”,简化推理部署及开发复杂性,屏蔽底层的算力资源差异,支撑上层应用开发。其优化部署技术主要包括KV Cache、服务调度优化技术、显存优化、Offload技术、量化技术、解码优化及其变体等。通过减少计算和内存需求加速推理,满足实时性要求、降低部署成本,如专注于高性能推理和服务的开源框架vLLM、SALang、以及在CPU推理方面表现良好的llama.cpp等推理框架,企业根据实际芯片和模型需求的自研框架。
DeepSeek推理盈利引争议,技术与商业博弈凸显
3 月 1 日,DeepSeek 官方在《DeepSeek-V3 / R1 推理系统概览》中首次披露成本利润率,理论值高达 545%。然而,潞晨科技曾表示DeepSeek R1推理部署有亏损风险并宣布暂停 DeepSeek API 服务模式。一方面是DeepSeek推理的巨大成本利润率545%,另一方面是企业卖DeepSeek API(MaaS)每月亏本4亿元,出现两种相反观点的主要原因在于:在推动推理服务商业化进程中,保障用户体验需被置于首要位置,这要求企业需储备大量冗余智算资源。据浪潮开展的相关调研测算,当前我国智算中心的平均算力使用率维持在 30%上下,为确保推理服务能为用户带来优质体验,需维持近70% 的算力资源冗余,大量冗余需要大量的资金投入。反观DeePSeek则通过算力资源统筹管理、生态合作实现了高盈利。一是“见缝插针”用显卡,即白天高负荷全节点部署推理,夜间低负荷时释放节点用于训练/研究的模式,论测算仅考虑资源的效率。二是DeepSeek推理盈利模式多元,以ToB服务的API调用收费为主,与垂直行业合作,通过生态衍生业务如开发者工具、云服务、数据服务等来盈利,如DeepSeek 与教育、医疗、金融等领域展开合作,将技术转化为针对性解决方案,推出智能教学助手、病例分析系统、客服机器人等产品,业务覆盖超 20 个垂直行业。
DeepSeek推理算力、推理框架、推理应用三方面赋能 AI 产业新生态
DeepSeek 凭借自身在硬件优化、模型创新及自研推理框架等方面的优势,为国内模型推理相关AI产业发展提供新机遇。
(一)推理算力方面,DeepSeek模型推理通过性价比优势推动国产算力在推理侧的渗透。DeepSeek推理通过混合专家模型(MoE)动态选择合适的专家模块处理,减少计算量,保证推理准确的前提下降低成本。如推理定价方面,DeepSeek R1($0.14/百万输入tokens)较OpenAI o3-mini($1.1/百万输入tokens)更便宜。目前华为昇腾、海光信息、摩尔线程、昆仑芯、燧原科技等AI芯片厂商,相继宣布适配或上架 DeepSeek 模型服务,其中昇腾910C芯片针对MoE模型动态路由优化使推理效率提升50%。截至今年2月20日,已有超过30家软硬件企业基于昇腾推出DeepSeek一体机方案2,并超过80家企业基于昇腾上线DeepSeek,服务全国超70%区域。
(二)推理框架方面,DeepSeek利用硬件亲和的工程优化,充分发挥了受限显卡(H800)的性能,为国产芯片厂商发展提供了新范式。DeepSeek用更接近底层硬件的汇编语言PTX,对计算过程进行更细粒度的控制,开发了通信和数据分配模块进行优化,摆脱了部分cuda库,充分发挥底层GPU的计算性能。因此,在硬件受限的情况下,通过算法创新和工程优化可部分弥补芯片性能差距。目前科技厂商已推出自研推理框架(与国产芯片适配)服务于DeepSeek,如澎峰科技已完成基于海光DCU的自研推理框架PerfXLM +,并深度适配、优化 DeepSeek 全系列模型。2月25日智源研究院联合多个芯片厂商开发并开源了 DeepSeek-R1 多芯片版本,其异构并行训推框架 FlagScale可适配多芯片,能够一键部署 DeepSeek-R1 模型服务和自动分布式推理调优能力。
(三)推理应用方面,DeepSeek凭借开源、高效推理能力助推众多行业实现智能化转型,尤其在工业领域实现明显的降本增效。富士康引入DeepSeek优化iPhone主板贴片生产线,节拍时间缩短12%,产能提升至120万台/日。燧原科技基于DeepSeek全量模型在庆阳、无锡、成都等智算中心实现“数万卡”快速落地,硬件成本降低超30%。联想通过DeepSeek多模态模型提升智能质检的缺陷识别准确率至99%以上,并借助时序预测模型优化供应链管理,助力企业降本超20%。
国内AI相关企业模型推理发展建议
(一)建议以混合部署模式构建 DeepSeek 推理算力体系,如将 NVIDIA 硬件与昇腾硬件协同部署。着重强化对运维团队的专业技术培训,确保团队成员能够精通 NVIDIA 与昇腾两种硬件的运维管理。在提升 DeepSeek 推理算力性能表现与运行可靠性的同时,有效规避因过度依赖单一技术路线而可能引发的潜在风险,为相关企业在AI领域的业务拓展筑牢坚实的技术根基。
(二)建议依托 vLLM 等现有的开源推理框架,全力开展自研DeepSeek 推理框架对混合异构算力的适配工作。在推理框架设计中,建议以国产芯片为主导、英伟达 GPU 为补充,充分利用国产芯片的性价比优势和英伟达GPU的高性能特点。确保在充分满足推理性能要求的同时,实现成本的最大化削减,仅在国产芯片难以胜任的复杂计算任务或对性能有极致要求的关键环节合理采用英伟达 GPU,实现性能与成本的最优平衡。
(三)建议积极探寻并挖掘工业领域推理应用场景。组建专业的行业调研团队,深入各类工业企业内部,全面、细致地了解其生产流程、现存痛点问题以及对智能化和安全性的具体需求。基于调研结果,量身定制基于 DeepSeek 的工业解决方案,精准满足工业企业的实际业务诉求,助力其实现智能化转型升级。
来源:飞象网一点号