摘要:DeepSeek是一家中国人工智能公司,成立于2023年7月17日,总部位于浙江杭州。它由量化资管巨头幻方量化创立,专 注于大语言模型(LLM)及相关AI技术的研发。 简单来说,DeepSeek是一款大语言模型(LLM),主打“极致性价比”。它能写代码、解数学
Deepseek:AI生产函数的根本性改变
DeepSeek是一家中国人工智能公司,成立于2023年7月17日,总部位于浙江杭州。它由量化资管巨头幻方量化创立,专 注于大语言模型(LLM)及相关AI技术的研发。 简单来说,DeepSeek是一款大语言模型(LLM),主打“极致性价比”。它能写代码、解数学题、做自然语言推理,性 能比肩OpenAI的顶尖模型o1,但成本却低到离谱——训练费用仅557.6万美元,是GPT-4o的十分之一,API调用成本更 是只有OpenAI的三十分之一。
Deepseek:算法能力被突出( DeepSeek-V3)
对于训练而言,最引人注目的自然是FP8的使用。根据深度学习与NLP公众号,DeepSeek-V3是第一个(至少在开源社区内)成功使用 FP8混合精度训练得到的大号MoE模型。
众所周知,FP8伴随着数值溢出的风险,而MoE的训练又非常不稳定,这导致实际大模型训练中BF16仍旧是主流选择。为了解决以上问题, 1)DeepSeek-V3在训练过程中统一使用E4M3格式,并通过细粒度的per-tile(1x128)和per-group(128x128)量化来降低误差。FP8 的好处还体现在节省显存上(尤其是激活值)。2)此外,DeepSeek-V3使用BF16来保存优化器状态,以及对部分操作进行选择性重计算 (例如RMSNorm, MLA Up-Proj, SwiGLU)。3)在并行策略上,DeepSeek-V3使用64路的专家并行,16路的流水线并行,以及数据并行 (ZeRO1)为了降低通信开销。4)在算法层面,DeepSeek-V3使用分组路由的方式,限制每个token只会激活4个节点上的专家,从而减 半跨节点的通信流量。5)在系统层面,将节点间通信和节点内通信进行流水,最大化使用网络带宽和NVLink带宽。
DeepSeek R1的技术关键在于其创新的训练方法。与OpenAI依赖人工干预的数据训练方式不同,DeepSeek R1采用了 R1-Zero路线,直接将强化学习应用于基础模型,无需依赖监督微调(SFT)和已标注数据。
R1的总体训练过程如下:1)从base模型开始:使用量少、质量高的冷启动数据(cold data)来sft base模型,使得base模 型可以有个良好的初始化;使用RL提升模型的推理能力;在RL阶段接近收敛时,用这个时候的checkpoint生成高质量的数 据,将它们与现有的sft数据混合,创建新的sft数据集;2)再次从base模型开始:使用新创建的sft数据集做finetune;执 行二阶段RL;得到最终的r1。
低成本模型有望引领AI产业“新路径”:开源+MOE
DeepSeek-R1:首个开源、媲美OpenAI o1的推理大模型。DeepSeek-R1展现出了与OpenAI o1相当甚至在某些方面更优的性能。在 MATH基准测试上,R1达到了77.5%的准确率,与o1的77.3%相近;在更具挑战性的AIME 2024上,R1的准确率达到71.3%,超过了o1的 71.0%。在代码领域,R1在Codeforces评测中达到了2441分的水平,高于96.3%的人类参与者。
DeepSeek-R1成功蒸馏出多个小型推理模型,其中 32B & 70B版本 可媲美OpenAI o1-mini。蒸馏后的小模型也取得了优异成绩,如 DeepSeek-R1-Distill-Qwen-7B在AIME 2024上得分55.5%,超过QwQ-32B-Preview。
开源VS闭源:开源重构AI生态,与闭源共同繁荣下游
短期博弈:闭源企业通过垄断获取超额利润,但可能陷入“创新者窘境”;长期博弈:开源通过协作降低技术成本,但需解决商业化难题 (如红帽的订阅模式);混合策略:现代企业常采用“核心闭源+外围开源”(如微软的VS Code)或“开源获客+服务收费”(如 MongoDB)。
开源模型(如DeepSeek):推动技术民主化,适合需要透明性、定制化的场景;闭源模型(如GPT-4):提供“开箱即用”体验,适合追 求快速落地、无技术团队的企业。趋势:两者界限逐渐模糊,部分闭源厂商开源轻量版模型(如Google的Gemma),而DeepSeek等开 源项目通过商业服务扩大影响力,共同推动AI技术普惠。
NV、博通大跌,纯算力路径依赖得到挑战
DeepSeek以极低的价格建立了一个突破性的AI模型,而且没有使用尖端芯片,纯算力路径依赖得到挑战。截止1月27日收盘,AI龙 头英伟达创下载入美国金融史有史以来的惨痛大跌,英伟达周一收跌16.97%,市值蒸发近5900亿美元(相当于略超3个AMD或近18 个寒武纪),刷新崩盘纪录。
除了英伟达外,所有过去两年里与AI芯片关系密切的“卖铲人”们全部遭到严重冲击。据财联社报道,ASIC芯片概念股博通1月27 日收跌17.4%,市值蒸发近2000亿美元。芯片代工厂台积电收跌13.3%,市值蒸发逾1500亿美元。在这轮大跌的上周刚刚因为特朗 普官宣“星际之门”AI项目大涨的甲骨文,周一收跌13.79%。除英伟达和博通外,美满电子跌19.1%、美光科技跌11.71%,均是两 位数跌幅。
国内外科技巨头持续提升capex指引,剑指NV GPU需求高景气
Capex资本支出逻辑已不足以支撑AI故事,急需推理/应用层“接棒”。亚马逊、微软以及谷歌的最新财报显示,上个季度它们在 不动产和设备上的支出,达到了惊人的506亿美元,相比之下上年同期是305亿美元。这其中很大一部分资金,都流向了用于支持 AI的数据中心。并且这三家公司指引,未来几个月它们的支出将继续走高。另外,Meta也是如此,Meta为自家在Instagram、 WhatsApp和Facebook上的AI应用,进行基础设施投资。
新一轮 10 万卡集群竞赛再次证明,AGI 的基建投入仍然如火如荼地进行,AI数据中心成为海外大厂布局重点。根据海外独角兽24 年7月报道,马斯克高调宣布为 xAI 建设 10 万卡集群,OpenAI/Microsoft、Anthropic/AWS、Meta 等大型 AI 公司也在加紧 10 万卡集群建设,每个集群在服务器硬件上的支出已经超过 40 亿美元。还受限于数据中心容量和电力供应能力。一个 10 万 GPU 的集群需要超过 150MW 的数据中心容量,一年的消耗就是 1.59TWh(15.9 亿度电),约等于 15 万个家庭一年的用电量。 按$0.078/Kwh 的单价来计算,一个 10 万卡集群每年光在电力这一项上的支出就高达 1.239 亿美元。
国产Deepseek模型爆火,高端算力/高集群能力并非唯一解
R1模型在技术上实现了重要突破——用纯深度学习的方法让AI自发涌现出推理能力,在数学、代码、自然语言推理等任务上,性 能比肩美国开放人工智能研究中心(OpenAI)的o1模型正式版,该模型同时延续了该公司高性价比的优势。深度求索公司R1模型 训练成本仅为560万美元,远远低于美国开放人工智能研究中心、谷歌、“元”公司等美国科技巨头在人工智能技术上投入的数亿 美元乃至数十亿美元。根据新智元援引外媒报道,他们在短短两个月时间,在2048个H800 GPU集群上,训出6710亿参数的 MoE语言模型,比顶尖AI效率高出10倍。
Deepseek突破不是用CUDA实现的,而是通过大量细粒度优化以及使用英伟达的类汇编级别的PTX(并行线程执行)编程。在训 练V3模型时,DeepSeek对英伟达H800 GPU进行了重新配置:为了最大化性能,DeepSeek还通过额外的细粒度线程/线程束级别 调整,实现了先进的流水线算法。这些优化远超常规CUDA开发水平,但维护难度极高。然而,这种级别的优化恰恰充分展现 DeepSeek团队的卓越技术实力。
国产算力异军突起,充分受益国产模型deepseek崛起
华为于2018年10月发布了AI战略,并于2019年8月在深圳坂田总部正式发布AI处理器昇腾 910、昇腾310和MindSpore全场景AI计算框 架。昇腾系列(HUAWEI Ascend)AI处理器和基础软件构建Atlas人工智能计算解 决方案,包括Atlas系列模块、板卡、小站、服务器、集群 等丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施 方案,覆盖深度学习领域推理和训练全流程。
海光: DCU产品兼容“类 CUDA”环境,性能快速迭代。海光 DCU 主要具有三大技术优势。一是强大的计算能力。二是高速并行数据处理 能力。海光 DCU 集成片上高带宽内存芯片,可以在大规模数据计算过程中提供优异的数 据处理能力,使海光 DCU 可以适用于广泛的应用 场景。三是良好的软件生态环境。海光DCU 采用 GPGPU 架构,兼容“类 CUDA”环境,解决了产品推广过程中的软件生态兼容性问题。 深算二号:已经于2023年第三季度发布,并在大数据处理、人工智能和商业计算等领域实现了商用。该产品具有全精度浮点数据和各种常见 整型数据计算能力,性能相对于深算一号提升了100%以上。
AI智能体加速元年
Deepseek-V3发布后英伟达股价大跌。截至1月27日美股收盘,英伟达下跌近17%,收报118.42美元,单日市值蒸发达5890亿美元,为美国 股市历史新高,打破了去年9月初英伟达单日重挫超9%、市值蒸发2790亿美元的纪录。尽管28日英伟达股价收涨近9%,这仍然在一定程度上 反映了市场对英伟达和大模型发展旧模式的信心不足。与之相对,苹果、Meta、谷歌等应用提供商股价表现明显更好。苹果、Meta分别收涨 约3%和2%。
AI智能体(AI Agent)是指能自主感知环境、做出决策并执行行动的系统,具备自主性、交互性、反应性和适应性等基本特征,能在复杂多变 的环境中独立完成任务,包括记忆、规划、工具、行动四个主要模块。虽然ChatGPT等LLM一直是AI新闻的焦点,但人们逐渐开始意识到其 局限性,如幻觉、记忆力短。根据每日经济新闻,OpenAI于2024年底表示GPT模型的改进速度正在放缓,引发业内对未来发展方向的疑问。 Salesforce首席执行官马克·贝尼奥夫更直言AI的未来发展不在于LLM,而在于开发AI智能体。
在这一背景下,根据钛媒体、科创板日报和DeepTech深科技,谷歌、OpenAI、Anthropic、字节跳动等国内外领先大模型厂商纷纷剑指智能 体开发,发布Project Astra、Operator、Computer Use、UI-TARS等产品,2025年有望成为AI智能体加速元年。根据Research and Mark et、麦肯锡等多份权威报告,在多元化需求驱动下,智能体市场呈爆发式增长态势,2024年全球智能体市场规模约为51亿美元,预计2030年 将飙升至471亿美元,复合年增长率高达44.8%。
端侧硬件落地加速构建商业闭环
智能终端是集成了AI技术,能执行复杂任务、提供智能化服务和交互体验的终端设备,包括智能手机、AI PC、智能穿戴设备、智能家居设备、 车载信息系统等。随着5G商用、AIoT兴起,智能终端从手机扩展到可穿戴设备、智能家居等领域,多样化和专业化趋势愈发明显。2022年 OpenAI推出GPT-3.5引爆行业热潮,随后国内外科技巨头争相布局大模型,AI技术全面融入智能终端方方面面。
伴随AI技术持续迭代和处理器性能进步,AI智能终端市场正处于蓬勃发展期。根据QYR的数据,2023年中国AI智能终端市场销售收入达到344 亿元,预计2030年可以达到14812亿元,年复合增长率约为37.33%;核心厂商包括联想、华为、苹果、荣耀、vivo和小米,2024年合计占有 约67.81%的市场份额。从产品类型方面来看,AI PC占有重要地位,预计2030年份额将达到73.88%。根据雷科技和第一财经,英伟达、AMD、 英特尔等国际巨头纷纷押注AI终端,发布Thor、锐龙AI、Ultra等产品及软件生态支持;根据财联社和量子之声等,瑞芯微、国芯科技、中科 蓝讯等国产厂商也已布局端侧AI芯片,力图抓住机遇追赶英伟达。
相比云端AI,终端AI在成本、能耗、隐私等方面都具有优势。成本方面,将一些处理转移到终端可以减轻日益增加的云基础设施开支。在能耗 方面,端侧AI能耗更低,特别是将处理和数据传输相结合时。在可靠性方面,需求高峰期时云端存在大量排队等待和高时延,端侧可规避该问 题,甚至可在无网络环境下使用。更重要的是,端侧AI在用户隐私保护方面具有无可比拟的优势,因为端侧AI的所有信息都保留在终端上,能 大大消除用户对隐私泄露的顾虑。基于上述优势,端云协同逐渐成为AI部署的主流模式,我们认为AI智能终端将成为大模型用户入口,引领大 模型和AI技术走向商业闭环。
来源:报告研究所