DeepSeek激活创新竞争,AI应用迎来“安卓时刻”

360影视 2025-02-07 04:34 3

摘要:12月底上线V3模型,多项评测成绩接近GPT-4o。V3为开源MoE模型,当前版本暂不支持多模态输入 输出。其多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,知识类、长文本、代 码测试表现超过GPT-4o。但每百万

DeepSeek:低成本+高性能模型,引发全球AI产业的竞争活力

12月底上线V3模型,多项评测成绩接近GPT-4o。V3为开源MoE模型,当前版本暂不支持多模态输入 输出。其多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,知识类、长文本、代 码测试表现超过GPT-4o。但每百万token的输入和输出价格分别为0.27和1.10美元,显著低于GPT-4o 的2.50和10美元。

MLA(多头潜在注意力)创新技术降低模型推理成本。MLA与标准注意力机制相比,每个查询所需 的 KV 缓存量(存储上下文对话)减少约93.3%,从而减少计算量和算力需求。我们认为这是 DeepSeek实现超低API价格的关键一环。

DeepSeek:R1模型低成本、高效率,性能赶超o1模型

Deepseek发布开源模型DeepSeek-R1。数学/编程/推理能力接近OpenAI的o1模型,但API调用成本仅 为其2%。DeepSeek-R1系列包括DeepSeek-R1-Zero和DeepSeek-R1两大模型,核心创新点在于: 传统大模型需要大量人工标注的监督数据进行训练,但DeepSeek-R1-Zero仅通过大规模强化学习训练 ,没有监督微调,便自发涌现出“反思”“多步验证”等复杂推理行为,训练成本较低。 推理能力可以向小模型迁移。使用DeepSeek-R1作为教师模型生成800K数据对小模型微调,提升逻辑 能力,通义千问15亿参数开源模型经过微调后,数学能力超过GPT-4o。

DeepSeek——C端视角:全球破圈, 成为用户规模增速最快的移动端AI应用

DeepseekAI助手成为今年春节爆款应用。 看国内:2021-2024年春节中国区iOS应用榜Top10,字 节系普遍占5个以上,今年DeepSeek稳居榜首,成为首 个在春节期间持续霸榜的AI应用。 看全球:春节期间Deepseek登顶中国、美国、德国等全 球超100个国家和地区的iOS应用总榜第1,下载量超越 ChatGPT。用户从早期的开发者+编成IT群体,拓宽到 了目前的泛C端用户。

Deepseek成为全球用户规模增速最快的移动端AI应用。 日活(全球):据AI产品榜,DeepSeek移动端上线第20天 (1月30日)全球日活2161万,为同期ChatGPT移动端日 活 14.8 倍。若对比海外移动端用户数(SensorTower口径 ),1月31日DeepSeek为1203万,环比增加4%。 下载量(全球):据点点数据,截至2月1日DeepSeek App 全球累计下载量2261万创新高,环比前一天增加16%。

全球主流的公有云公司均在旗下的AI应用开发平台中接入DeepSeek模型,包括微软、亚马逊、腾讯 、华为、案例、百度等。应用端,秘塔AI搜索成为首个接入DeepSeek模型的国产应用之一,弥补了 当前DeepSeek AI助手未开放联网搜索功能的问题。

DeepSeek——大厂视角:看好DeepSeek提升AI应用渗透率

多个海外AI应用公司高管认为DeepSeek提升大模型效率、降低推理成本。当前大模型性能已满足绝 大部分应用场景,DeepSeek提升大模型训练和推理效率、降低API成本,有望提升AI应用在各个场景 的渗透率。苹果、微软和SAP的CEO均对DeepSeek在大模型效率和成本方面的贡献给予积极评价, Meta作为海外头部开源模型研发厂商,CEO表示将吸收DeepSeek的模型开发经验。

DeepSeek——大厂视角:微软、Meta未下调资本开支预期,对推理需求保持乐观

微软和Meta并未下调25财年资本开支计划,我们认为这是对推理侧需求的积极预判。 微软:四季度(FY2Q25)资本开支226亿美元,公司指引未来两个季度与四季度相近,则25财年合计 约800亿美元,与1月初的指引相近。CEO纳德拉提到DeepSeek反映了创新周期中的成本下降趋势,有 望带来更多AI需求,利好微软这种AI服务提供商;微软未来资本开支会根据需求决定。 Meta:公司重申25财年资本支出600-650亿美元,CEO扎克伯格提到重金投入AI基础设施是长期战略。

DeepSeek——开发者视角:适合本地化部署的大参数高性能模型

Hugging Face数据反映DeepSeek V3和R1均为适合本地化部署的大参数高性能模型。Hugging Face是全 球主流的开源模型社区之一,该社区的模型下载量虽然不能直接反映基于各模型开发的AI应用数量, 但也侧面反映了开发者对不同模型的偏好。 小参数模型:性能较弱,但推理算力和存储需求较小,适合本地化微调和部署,因此Llama 3.1 8B等小 参数模型下载量断层式领先。据Synaptic的统计,24年6月下载量前10的模型,参数量普遍低于100亿; 中大参数模型:性能较强,但对推理算力、部署设备均有较高要求。V3和R1性能处于第一梯队,同 时推理算力需求相对较低,适合本地化部署和蒸馏,近一个月下载量显著高于Llama和通义千问2.5。

GitHub的Stars是项目在社区中受欢迎程度的直接指标,Fork则表示项目累计被用户拷贝的数量,两个 指标均代表项目上线至今的关注度和用户喜爱度。DeepSeek V3和R1两个项目上线至今均不足2个月, 但它们的累计Star和Fork均与上线时间更早的Llama接近,显著高于24年4月发布的Llama3,直接反映 了开发者对DeepSeek开源模型的高认可度。

DeepSeek——开发者视角:模型运行成本低,降低AI应用开发门槛

开发者展示了R1模型进行本地化部署的案例。V3和R1模型均采用稀疏MoE架构,推理过程中激活 的参数较少,算力和设备要求也相应较低。我们通过GitHub、Hugging Face两大开发者社区,以及 Youtube相关内容梳理本地化部署和调用R1模型的实测体验,Youtube博主Deep Charts和Digital Spaceport的实测结果显示,671B大模型可以在较低成本的服务器中部署(满足特定配置要求),经 过微调的80亿参数小模型则可以在普通的M1 Macbook Pro中赋能多Agent工作流。作为对比,Llama 3.1 405B需要在两台H100服务器中运行,年租金合计30万美元以上(SemiAnalysis测算)。

DeepSeek——行情视角:港股AI公司涨幅显著,国产应用有望加速落地

国产模型全面赶超海外,市场看好国产应用长期受益。DeepSeek V3和R1模型是国产模型快速赶超海 外的典型代表。国产模型追平海外的时间不断缩短,4o发布半年之后,国产豆包、Minimax就发布对 标模型;Sora的demo4个月后,国产AI视频可用度与性价比更高;o系列模型发布4个月后,R1等国产 o系列模型涌现。国产应用有望受益于国产模型能力跃升,春节后首个交易日港股AI公司涨幅明显, 恰恰反映之一市场预期。

阿里:Qwen2.5-Max综合性能对标DeepSeek V3,国产开源模型再添重磅新品

Qwen Max是通义千问系列效果最好的模型,春节期间更新了2.5版本。新版本同样为超大规模MoE 模型,在大学水平知识测试MMLU-Pro、编程能力测试LiveCodeBench,综合能力测试LiveBench中, 新版本结果均略高于DeepSeek V3,与GPT-4o的水平接近。当前已推出AI助手和API服务。新版本使 用了超过20万亿token的预训练数据,显著超过Llama3的15万亿,是超大规模模型训练的典型案例。

OpenAI:o3-mini和Deep Research相继发布,将发力端侧AI硬件

o3-mini模型上线ChatGPT,物理模拟能力较强。目前Pro会员用户可以无限制使用,其他用户限量体 验,API服务也已经同步推出,价格约为o1的1/15、R1的两倍。完整版o3模型将在4-6周内发布,将支 持文件附件功能、更长的上下文窗口和记忆功能。 从基准测试看:在综合能力测试LiveBench中,o3-mini整体水平为73.94,介于R1的71.38和o1的75.67之 间。o3-mini幻觉率从GPT-4o的52.4%大幅降至14.8%。 从实际体验看:根据University of Washington、Every公司的测试,o3-mini的代码能力和物理模拟效果 优于R1,但在部分体验中,视觉艺术效果不及Sonnet 3.5。

Deep Research在短时间内完成深度研究任务,o3模型+联网搜索构成专业研究Agent。该功能在5-30分 钟内围绕特定的主题完成深度研究,并输出研究报告。它可以运用推理能力,在互联网上搜索、解 读和分析大量文本、图像和PDF文件,转为金融、科学、工程领域从事知识工作、需要深度研究的用 户设计。Humanity’s Last Exam(HLE)由3000多道语言学、火箭科学等超100个学科的题目组成, 用于评估模型的学术能力,Deep Research准确率为26.6%创新高,显著高于o1和R1的9.1%、9.4%。

OpenAI近期发布会透露后续计划:1)将开始开发专用于生成式AI的设备,以取代智能手机,引发自 2007年iPhone推出以来的下一轮数字设备革命;2)Plus订阅目前不会涨价,希望在未来可以降价;3 ) 正在考虑更积极的开源策略,但这并非眼下的首要任务。

对照移动互联网,AI应用有望迎来“安卓时刻”

安卓系统开源成为移动互联网应用爆发的关键一环。 2007年11月Google与84家硬件制造商、软件开发商及电 信营运商组建开放手机联盟共同研发改良Android系统 ,随后发布源代码。安卓系统使用简单易上手的Java语 言,驱动基于该系统的应用和手机数量快速增长, Google Play上的应用数量从2010年的9万个快速增值2017 年的350万个。 DeepSeek同样免费开源,便于本地化部署和模型能力迁 移,实质性降低AI应用开发成本,意义类似于移动互联 网的安卓时刻。

对标手游发展初期,看新一代应用爆发的节点

手游1.0:2009年手游数量快速增长,但未见破圈产品。App Store于2008年7月发布,发布首日 App数量仅约500个,此后出现爆发性增长,游戏是IOS App的主要类型之一(数量占比约25% ),手游时代开启。我们认为2008-2009年是手游1.0时代,这一时期手游数量快速增长,根据 AppStare,2008年底App Store上线手游5136个,2009年底该数字变为2.94万个;2010年以后是手 游2.0时代,《神庙逃亡》《水果忍者》等爆款产品出现,题材与玩法延续了1.0时代的特点。

手游2.0破圈:玩家创新+免费助推破圈。以《神庙逃亡》为例,1)收费模式转变:公司将游 戏改为免费下载,增加IAP弥补收入,在App Store免费榜上的排名也逐步提高,于2011年12月 28日登上IOS免费榜第一,2012年1月登上IOS畅销榜第一。2)玩法创新、简便:充分利用触屏 和重力感应的功能,创新性地采取玩家控制镜头转动,成为3D跑酷游戏的开创者。

四大类应用有望受益——端侧AI

DeepSeek小参数版本端侧表现较好,R1推理能力可 以迁移至其他小模型。根据技术报告,DeepSeekLite(2.1B)在端侧延迟、内存占用、常见任务精 准度表现优于Llama-3(8B-Instruct)和Phi-3-mini( 3.8B)。使用R1生成的800K数据,对Qwen和Llama 系列的多个小模型(1.5B、7B、8B、14B、32B、70B) 进行了微调。经过R1蒸馏的小模型,推理能力显著 提升,部分模型的数学测试结果优于o1-mini。看好DeepSeek提升端侧AI能力,除了AI手机、AI电 脑以外,兼具实用性与时尚性的AI眼镜也有望进一 步完善实时翻译与导航功能。

来源:报告研究所

相关推荐