2025年科技行业专题报告:DeepSeek,技术颠覆or创新共赢

360影视 2025-02-07 04:28 3

摘要:DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,由幻方量化的联合创始人梁文峰创立。公司自2023年7月年成立以来,始终专注于大语言模型(LLM)及其相关技术的深度研发。公司坚持技术创新路线,开创性地提出多头潜在注意力机制(MLA)和DeepSe

(一)DeepSeek公司成立背景与发展历程

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,由幻方量化的联合创始人梁文峰创立。公司自2023年7月年成立以来,始终专注于大语言模型(LLM)及其相关技术的深度研发。公司坚持技术创新路线,开创性地提出多头潜在注意力机制(MLA)和DeepSeekMoE等创新架构。凭借这些创新成果,DeepSeek的大模型在多项权威测评中展现出顶尖的性能表现。

DeepSeek的团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,整体呈现出“年轻高学历、注重开源、重视创新”的特点。

根据彭博社报道,DeepSeek的AI助手在140个市场中成为下载量最多的移动应用。根据Appfigures的数据,DeepSeek的推理人工智能聊天机器人在1月26日登上苹果公司AppStore的榜首并保持全球第一,1月 28日起在美国的 AndroidPlayStore中也位居榜首。根据 SensorTowe1的数据,DeepSeek在发布后的前18天内获得了1600万次下载,约为OpenAI的 ChatGPT发布时900万下载量的两倍,印度贡献了所有平台下载量的15.6%。

在用户体验方面,DeepSeek表现不俗。用户普遍认为DeepSeekR1的性能出色,特别是在数学推理、编程能力和自然语言理解等领域。其推理速度和准确度在多个测试场景中达到业界领先水平。此外,DeepSeekR1的“聪明”特性使得用户无需复杂的提示词技巧,即可获得高质量的回答。在实际使用场景中,无论是游戏、视频播放还是日常工作的辅助,其流畅的操作体验都得到了用户的高度评价。用户反馈显示,DeepSeek界面简洁直观、操作简单,在实时数据推送和内容推荐上十分出色,能够有效提升工作效率,减少用户在信息检索上的时间投入。

DeepSeekR1的发布引起了硅谷科技领袖、国际媒体及学术界的广泛关注。其性能和开源策略获得了高度评价,被认为是“非美国公司践行OpenAI初心”的典范。DeepSeekRl的发布引发了全球科技市场的连锁反应。其开源策略、低成本、高性能的特性,对科技巨头形成了压力。其训练成本仅为 600万美元,远低于OpenAI和谷歌等公司的同类模型,《MITTechnologyReview》提到,R1在数学、代码等复杂任务上的表现与OpenAlo1相当,而训练成本仅为其1/70,定价低至 OpenAl的3%。这种成本效益优势使得更多企业和开发者能够以较低的成本使用先进的A技术,将大大加速AI技术的普及和应用。

(二)DeepSeek:从硬件竞赛到算法效率革命的技术颠覆

大模型在AI行业中占据核心地位,是推动技术创新、拓展应用场景及提升行业效率的关键因素。全球范围内的领军企业持续推动大模型性能的提升,随着模型规模的不断扩张,其性能也实现了显著提升。然而,这种规模的扩大也相应地带来了训练和部署成本的急剧增加,成为制约大模型广泛应用的瓶颈。

在机器学习领域,尤其是大型语言模型(LLMS)的应用场景中,模型性能的提升与模型规模数据集的大小以及计算资源之间存在着紧密的关联,这一关系通常被描述为“规模定律”(ScalingLaw)。根据规模定律,模型的性能会随着模型规模的指数级增加而实现线性提升。目前,国际上主流的大模型,诸如 OpenAI的 GPT系列、Anthropic的 Claude 以及谷歌的 Gemini等,其最新版本的规模均已突破千亿参数大关。尽管这些模型在性能上展现出了卓越的表现,但对于众多公司和开发者而言,其高昂的硬件资源使用成本、计算时间等依然构成了巨大的挑战。长期以来,大算力训练一直是基座模型厂商用于融资与构建竞争璧垒的重要手段。

从技术层面来看,GPU等硬件设施效率的提升以及算法的优化等方式,均有望带动大模型成本的显著下降。在全球 GPU 短缺以及美国限制政策的双重压力下,我国的人工智能公司 DeepSeek通过算法优化的创新路径,进一步降低了训练成本,为大模型的大规模应用提供了前所未有的可能性。DeepSeek在1月20日正式发布了其R1模型,并同步开源了模型权重。在第三方的基准测试中,DeepSeek-R1的表现优于OpenAI、Meta和 Anthropic 等美国领先的人工智能公司。在AIME2024数学基准测试中,DeepSeek-R1的成功率高达79.8%,成功超越了OpenAI的 o1推理模型。在标准化编码测试中,DeepSeek-R1更是展现出了“专家级”的性能,在 Codeforces上获得了 2029Elo的评级,并超越了96.3%的人类竞争对手。同时,DeepSeek-R1真正令人瞩目的地方并不仅仅在于其卓越的性能,而在于其极低的成本。它打破了硅谷传统的“堆算力、拼资本”的发展路径,仅用557.6万美元和 2048块英伟达H800GPU便完成了性能对标 GPT-4o的模型训练。成本仅为 OpenAI同类模型的十分之一,推理成本更是低至每百万Token0.14美元,而OpenAI的推理成本则为7.5美元每百万 Token。

与专有模型不同,DeepSeek-R1的代码和训练方法均在MIT许可下完全开源,这意味着任何人都可以无限制地获取、使用和修改该模型。全球开发者对DeepSeek-R1的贡献代码使其推理效率每小时提升 0.3%,这一开放性的举措极大地激发了业界的创新活力。DeepSeek-R1在芯片资源利用、算法复杂性和推理速度上实现了重大突破,为AI行业的发展树立了新的标杆。DeepSeek-R1的崛起和其所展现出的成本优势和开源策略,一度让华尔街对传统的“烧钱”信仰产生了怀疑。

DeepSeek突破的核心在于算法层次和系统软件层次的创新等:1)首先是算法层次的创新。他们采用了新的MoE架构,使用了共享专家和大量细粒度路由专家的架构。通过将通用知识压缩到共享专家中,可以减轻路由专家的参数冗余,提高参数效率;在保持参数总量不变的前提下,划分更多的细粒度路由专家,通过灵活地组合路由专家,有助于更准确和针对性的进行知识表达。同时,通过负载均衡的算法设计,有效地缓解了传统MoE 模型因负载不均衡带来训练效率低下的问题。

2)其次在系统软件层次的创新。DeepSeek采用了大量精细化的系统工程优化。例如,在并行策略方面,采用双向流水的并行机制,通过精细的排布,挖掘了计算和通信的重叠,有效的降低了流水并行带来的气泡影响;在计算方面,采用FP8等混合精度进行计算,降低计算复杂度;在通信方面,采用低精度通信策略以及token路由控制等机制有效降低通信开销。

DeepSeek-R1的成功或许证明,未来的AI竞赛将不再单纯依赖于芯片的纳米级较量,而是算法效率、生态活力与政策弹性的多维度博弈,AI行业的发展将呈现出更加多元化和复杂化的变化趋势,有望带来AI行业的繁荣。

(三)DeepSeek开辟了效率提升新赛道,创新优势明显

更强的性能,更低的训练与推理成本,将加速推动AI应用与硬件的普及和落地。虽然更低的训练与推理成本减少了当前的算力需求,但是并不意味着A的未来发展对半导体整体需求的减少相反由于其模型架构、基础设施数据等方面的优化,以及更低的成本,使得其更加容易布置在端侧.从而加速 AI的普及。AI能力边际的扩张依然需要依赖更大的模型和强大的算力,DeepSeek在算法和架构上的创新给AI的发展增加了一条新的道路。

Scalinglaws指出,模型的性能伴随着三个关键因素的增加而提升,即:模型参数量、训练数据量、计算资源,且性能和资源之间存在对数线性关系,DeepSeek的技术创新表现在很多方面。

模型架构的创新:以DeepSeekV3为例,采用了先进的MoE架构,具备6710亿总参数,但每次仅激活 370亿参数,从而实现了高效的资源利用。与传统的全参数激活模型相比,MoE 动态激活机制显著降低了计算资源的需求,同时保持了高性能。DeepSeek 提出的多头潜注意力(MLA)在不辆牲模型质量的前提下,大幅减少了KV缓存的大小。MLA 的核心思想是将键和值向量的计算分解成两个步骤,并在推理过程中只缓存中间的“潜向量”,而不是完整的键和值向量,大幅提升效率,降低推理成本。其他架构上的创新还包括:多令牌预测,提升训练效率,推测性解

码提高推理速度。使用多token预测(MTP)训练目标,提升数据效率。高效训练:DeepSeekV3在一个配备2048块NVIDIAH800GPU的集群上进行训练,使用FP8混合精度加速训练。设计了DualPipe算法以实现高效的管道并行性,开发了高效的跨节点全对全通信内核,在训练过程中仔细优化了内存占用。完整训练仅需278.8万H800GPU小时,展现高效成本效益。训练成本仅为557万美元。

后续DeepSeek推出的R1,在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAIo1正式版。通过 DeepSeek-R1 的输出,蒸馏了6个小模型开源给社区,其中32B和 70B 模型在多项能力上实现了对标 OpenAo1-mini 的效果

强化学习:在过去的研究中,大型语言模型往往需要先进行监督微调(SFT),再结合强化学习来提升推理性能。然而,DeepSeek-R1-Zero直接用强化学习训练基座模型 DeepSeek-V3-Base,不依赖任何监督数据作为起点,证明了大型语言模型只要具备合适的奖励机制,就能纯粹依靠强化学习自主进化,学会复杂且深度的推理。而DeepSeek-Rl 通过冷启动数据和多阶段训练,使模型同时兼具高水平推理与高质量表达。

蒸馏模型:据 DeepSeek-V3的技术文档,该模型使用数据蒸馏技术生成的高质量数据提升了训练效率。通过已有的高质量模型来合成少量高质量数据,作为新模型的训练数据,从而达到接近于在原始数据上训练的效果。DeepSeek发布了从15亿到700亿参数的R1蒸馏版本。这些模型基于Owen和Llama等架构,表明复杂的推理能力可以被封装在更小、更高效的模型中。蒸馏过程包括使用由完整 DeepSeek-R1 生成的合成推理数据对这些较小的模型进行微调,从而在降低计算成本的同时保持高性能。让规模更大的模型先学到高水平推理模式,再把这些成果移植给更小的模型

以上的创新主要是利用了更好的技术手段,解决很多实际“问题”,在理论应用和工程上打成平衡,体现了对 transformer架构的深度理解,成功降低了对高端硬件的依赖,为 AI的发展打开了一条新的道路。我们认为DeepSeek的创新并没有完全打破scalinglaws,对于计算量,模型参数量和数据集大小,当不受其他两个因素制约时,模型性能依然与每个因素都呈现幂律关系。DeepSeek的创新为大模型的发展提供了新的“基准”,推动大模型发展进入新的阶段,AI大模型的效率革命已经到来,而算力依然是推动人工智能进步核心因素之一。

(四)DeepSeek引领AI成本革命,算法突破有望促进算力需求正向循环

DeepSeek-R1以超越美国顶尖模型的性能、更低的研发成本和较弱的芯片性能要求,引发了美国对其AI全球领先地位的担忧,同时也对科技公司在构建AI模型和数据中心上的巨额投入提出了质疑。在 DeepSeek的冲击下,国内外大模型厂商紧急上线新模型,采取降价、免费等措施以证明自身的领先优势。同时,亚马逊、英伟达、微软等海外AI巨头纷纷上线部署支持用户访问DeepSeek-R1模型。2月1日,OpenAI发布全新推理模型o3-mini并首次向免费用户开放。这是OpenAI推理模型系列中最新、成本效益最高的模型。在定价方面,03-mini每百万token的输入(缓存未命中)/输出价格分别为1.10美元/4.40美元,比完整版01便宜93%。不过,03-mini的性价比或依然不及 DeepSeek。作为对比,DeepSeek的 API提供的 R1模型,每百万token的输入(缓存未命中)/输出价格仅分别为0.55美元/2.19美元。在o3-mini推出后,OpenAICEO表示,中国竞争对手DeepSeek的崛起削弱了OpenAl的技术领先优势,并就开源与闭源的问题回应称,OpenAI过去在开源方面站在“历史错误的一边”,公司曾经开源部分模型,但主要采用闭源的开发模式,未来将重新制定开源战略。与此同时,国产大模型的降价浪潮仍在持续。1月30日阿里云发布百炼 qwen-max系列模型调整通知,qwen-max、qwen-max-2025-01-25、qwen-maxlatest 三款模型输入输出价格调整,qwen-max batch和 cache同步降价,AI大模型行业竞争加剧。

DeepSeek的成本突破不仅是大模型训练的从“硬件驱动”向“算法驱动”的范式拓展,更为普惠化应用打开了新空间,反映AI技术向实用化、低成本化演进。行业对算力的依赖相较之前发生了“结构性”而非“总量性”变化:DeepSeek的技术进步短期内或许能够局部缓解算力压力,但由于算法与算力的“螺旋上升”关系、应用场景的爆发式扩展以及数据增长的不可逆等特性,我们认为算力资源需求会从预训练端逐渐转移到推理端,DeepSeek的兴起不会削弱高端芯片需求,

而会促使大模型发展进入“算法进步→模型复杂化→硬件升级”的正向循环。大模型成本优化与算力需求之间相互成就,高资源使用效率反而可能会增加算力的总消耗量DeepSeek通过降低训练成本,提高训练效率,看似减少算力需求,但同时,大模型成本缩减意味着降低了企业的训练与推理门槛,即每单位成本所能提供的训练和推理服务更多了,算力效率提升有望激活更广泛的用户与应用场景,从而引发对更大参数以及更复杂的大模型迭代需求。算法优化(如模型压缩、蒸馏)确实能提升单次任务效率,但AI能力的边界扩展(如多模态、复杂推理、通用人工智能)仍依赖更大规模模型和更复杂计算。这可能会对均衡下的算力需求产生正面影响,整体算力需求不会减少而是更加旺盛,从而形成对硬件需求的新一轮推升,即步入“算法进步→模型复杂化→硬件升级”的正循环。

微软首席执行官引用了“杰文斯悖论”来解释这一现象:Jevons在《煤炭问题》中发现,随着蒸汽机效率的提升,煤炭消耗量不降反增。其核心观点为:技术进步提高了资源使用效率,效率提高降低了资源使用成本,成本下降刺激了资源需求的增长,需求增长可能超过效率提升带来的节约,最终导致资源总消耗增加。在算力日益成为数字经济“水电煤”的今天,DeepSeek的技术方向与开源定位,恰恰是算力普及化革命的关键参与者。我们认为,大模型成本优化与算力需求并不是直接的此长彼消关系,而是互相搭台、相互成就,高资源使用效率反而可能增加算力的总消耗量。定价的持续走低有望带来更快的商业化落地,进而会衍生出更多的微调及推理等需求,将逐步盘活全球AI应用及算力发展。

(一)推理算力需求持续增长正向影响芯片需求

在Open提供的O1模型后训练阶段的缩放定律显示,随着强化学习时间和推理思考时间的增长,01模型性能得到显著提升。DeepSeekR1系列模型推理过程包含大量反思和验证,思维链长度可达数万字。随着思考长度的增加,模型性能在稳步提升。ScalingLaw已经从预训练向推理层转向。

通过增加模型规模、扩展训练数据、提高计算资源以及合理的任务设计,可以加速模型学习更复杂的推理能力,这一过程遵循scalinglaw。随着模型规模、数据量和计算资源的增加,模型能够更好地进行推理。OpenAI的 01模型,以及其背后所强调的后训练(Post-training)和推理阶段(Inference-time)的计算投入,正在重新定义我们理解 AI模型性能增长的方式。通过模仿人类思考过程,进行多步骤、多路径的推理,最终选择最优的答案。这种“隐式思维链”(Implicit Chain ofThought)的方法,需要在推理阶段投入更多的计算资源进行探索和评估。

谷歌研究发现,当合理分配推理计算资源时,检索增强生成(RAG)的性能能够呈现近乎线性的增长,RAG在长上下文的大语言模型上的性能最高可提升58.9%。这意味着,模型的表现提升和投入的计算量几乎是成正比的,这种现象被称为推理扩展定律。也进一步印证了,在提升推理能力上,算力依然是最为重要的需求之一,无论其模型是开源或者闭源。

未来的AI系统计算开销将更多地集中在推理服务上,而非单纯的预训练计算。这意味着算力基础设施的建设和优化需要重新思考,以满足日益增长的推理需求。在AI技术的实际应用落地过程中,用户感受最直观、最强烈的往往是推理环节的性能表现。虽然过去我们一直在强调大模型训练的重要性,但真正到了企业应用层面,推理的需求规模往往是训练需求的5-10倍。以字节为例,根据 QuestMobile的数据,目前抖音集团旗下豆包 app的月活跃用户达到了7522万,AI原生 APP在24年12月的月活跃用户规模达到了1.2亿,同比增速达到232%。

QuestMobile数据显示,2024年12月,AI原生App整体月人均使用时长达133.0分钟,较1月增加53.4分钟;月人均使用次数从1月的26.1次增加至49.6次。考虑到未来的潜在推理需求,预计将推动国内推理算力需求的持续增长。目前2024年豆包大模型的日均token 调用量布40000亿左右,预估2025年日均token调用量将提升到最高40万亿,将大幅提升对推理算力的需求。国产算力寒武纪、海光信息等厂商有望受益。

(二)后训练增长及国产化需求提升有望带动光芯片需求增长

光芯片是光模块核心器件,应用场景较广。光芯片分为激光器芯片及探测器芯片,当前人工智能相关光模块内光芯片主要以VCSEL及EML芯片为主,高速率光芯片主要以VCSEL芯片为主,该款芯片具备线宽窄,功耗低,调制速率高,合效率高,传输距离短等特点,主要应用于500米内短距离传输,集中在数据中心机柜内布传输,消费电子等领域;EML 芯片则由于其调制频率高。稳定性好,传输距离长等特性,广泛应用于长距离传输,高速率远距离的电信骨干网,城域网和 DCI等领域,但其具备成本较高的特性,虽然可以部署于短距离传输市场中,但不具备性价比优势。

(一)运营商、光模块等细分板块仍旧具备较大投资价值

我们认为DeepSeek对通信行业的推动作用主要体现在两方面:1)强化国产算力产业链:为中国AI发展带来新机遇,为中美科技竞争增添变数。DeepSeek-R1/V3支持华为昇腾平台及MindIE引擎,自研推理加速引警使硅基流动与华为云昇腾服务上的模型效果媲美高端 GPU,同时降低成本。这一突破为AI生态提供自主多元化方案,助力我国本土芯片厂商商业化落地,促进高效能AI的普及。

2)提升中国AI国际影响力:DeepSeek-R1的开源实践标志着开源模式对闭源模式的一次重要胜利,这一开源模式对社区的贡献能够迅速转化为整个开源社区的繁荣。中小企业和个人开发者等长尾市场原本因成本限制无法参与的领域(如小规模模型微调、实验性研究)将被激活,形成分散的算力需求增量,产业或将迎来结构性变化,有望为A技术的多元化创新增添更多可能性。同时,AI加速走向千行百业,智能驾驶、机器人、元宇宙等新兴领域对实时计算和低延迟的高要求将持续助推高算力需求。DeepSeek迅速吸引了全球开发者瞩目,曾短时间内即在苹果中国及美国应用商店免费应用下载榜超越ChatGPT登顶,彰显了中国AI技术以更开放姿态融入全球。未来创新将聚焦于效率、开放性和生产力转化,DeepSeek或成全球AI科技发展转折点。虽然DeepSeek的推出,对降低推理侧成本带来巨大降低,但我们认为推理侧的成本降低,将显著带来训练测迭代的加速,由于推理侧成本的降低,应用场景落地或将进一步加速,推动推理侧模型效率的进一步提升,从而带动通信行业相关方向的持续性繁荣。故而我们维持此前对通信细分子领域运营商、光芯片、光模块的推荐方向,认为DeepSeek的推出,运营商作为我国最大的流量管道,具备数据优势及接口优势,AI应用的普及将持续推进,同时,更强训练模型的未来需求将带动光模块产业链快速发展,在全球经济形势复杂化趋势下,核心器件光芯片等方向自主可控进程进一步加速。

未来5年数通市场的增长驱动力主要来自400G以上高速率光模块的需求。全球云计算服务提供商对计算能力和带宽需求的持续增长,以及他们在服务器、交换机和光模块等硬件设备上的资本支出的增加,将推动光模块产品向更高速率的800G、1.6T甚至更高端产品的迭代升级。根据我们估算,全球光模块400G客户主要集中于亚马逊(约45%)和谷歌(约25%)、800G主要集中于英伟达(约50%)、谷歌(约30%)和Meta(约20%)等,2025年1.6T光模块的主要需求方预计将是英伟达和谷歌。在GTC2024大会上,英伟达发布了其最新产品GB200,其服务器与交换机端口速率也实现了翻倍提升,更有望引领 AI光模块从现有的800G向更高性能的1.6T升级。此外,英伟达明确了 2026年将使用1.6T网卡,对应3.2T光模块需求,明确了光模块升级迭代的节奏。LightCounting预测,到2029年,400G+市场预计将以28%以上的复合年增长率(每年约16亿美元以上)扩张,达125亿美元。其中800G和1.6T产品的增长为强劲,这两个产品共占400G+市场的一半以上。与此同时,200G以下速率光模块产品的市场规模预计将以每年约10%的速度缩减。光模块头部厂商产品的高度可靠性、领先的研发实力及交付能力等优势将进一步凸显,行业集中度有望进一步提高。因此,那些能够与客户同步研发、快速融入客户供应链,并能提前把握客户需求的光模块厂商,将有机会在产品更新换代时抢先获利。

高速光模块的应用导致网络设备功耗大幅增加,硅光等新技术加固护城河。在以400G和800G光模块为典型配置的51.2T和100T交换机中,光模块加驱动SerDes的功耗占比在40~45%。预计到 2030年,在400G+SerDes和6.4T光模块代际时,OSFP光模块功耗、SerDes驱动距离将成为很难突破的瓶颈。据统计 2010-2022年全球数通光模块的整体功耗提升了26倍,2024年800G光模块正式放量后该问题更为突出,这种能耗增长对智算中心的运营成本构成了重大压力,降功耗成为光模块技术发展的核心诉求之一。硅光技术利用现有的CMOS工艺将光器件与电器件开发和集成到同一个作为光学介质的硅基衬底上,令光电处理深度融合,较传统分立器件更能发扬“光”(高速率、低功耗)与“电”(大规模、高精度)的各自优势。目前由于良率和损耗问题,硅光模块方案的整体优势尚不明显,在功耗、速率、成本、体积四个方面的突破是未来新技术发展的重点方向,也是未来光模块厂商竞争力的体现。根据LightCounting的预测,使用基于SiP的光模块市场份额将从 2022年的24%增加到2028年的44%,硅光有望凭借硅基产业链的工艺、规模和成本优势迎来产业机遇。

LPO和CPO技术在功耗及成本上也各具明显优势,或成未来发展方向之一。LPO(线性驱动)技术通过移除 DSP降低了光模块的成本和功耗,以400G光模块为例,其7nmDSP的功耗约 4W,占模块总功耗的一半,而BOM成本则占20-40%,无DSP的LPO 在功耗和成本上更具优势。然而,由于DSP的功能不能完全由TIA和驱动芯片替代,LPO可能会增加误码率,进而缩短传输距离。因此LPO更适合短距离应用,如数据中心内部服务器与交换机的连接,以及机柜间的连接。而在CPO(光电共封装)技术中,光学组件被直接封装在交换机芯片旁边,进一步缩短了光信号输入和运算单元之间的电学互连长度,在减少信号损耗问题的同时实现了更低的功耗,还有助于缩小设备体积,使得数据中心的布局更加紧凑。LightCounting统计,CPO出货预计将从800G和1.6T端口开始,并于2024至2025年开始商用,2026至2027年开始规模上量,CPO端口在 2027年800G和1.6T出货总数中占比预计达约30%。

(二)端侧大模型落地,智能硬件迎来星辰大海

LLM 单纯云端部署(例如ChatGPT)并不广泛接受。如下图统计所示,88%的参与者倾向于边缘-云协作架构,其中58.33%支持本地部署,81.82%对现有的仅云端解决方案不满意。他们的主要担忧是:1)远程大型语言模型服务的高延迟,2)将个人数据传输到云端的风险,3)云端大型语言模型服务的成本。

2023年边缘大型语言模型开始陆续爆发,当时出现了几个参数量低于10B的模型,使其能在边缘设备上运行,包括meta的LLaMA系列,微软的Phi系列,智谱的 ChatGLM,阿里巴巴的Qwen等。进入2024年创新步伐加快,边缘端部署的优势是能够缩短响应时间,并直接应用在如手机、汽车、可穿戴设备上。2022年至2032年,按终端用户划分的全球设备边缘人工智能市场规模。市场将以25.9%的复合年增长率增长,预计2032年的市场规模为1436亿美元。

尽管在边缘端部署大模型有诸多优势,但考虑到端侧有限的计算能力、存储能力和能源限制等使得直接部署基于云端的LLM 困难重重。再评估设备端大型语言模型的性能时,有几个关键指标需要考虑:延迟、推理速度、内存使用、存储和能耗。通过优化这些性能指标,设备端大型语言模型能够在更广泛的场景中高效运行,提供更好的用户体验。同时针对边缘设备的部署,在保持性能的同时提高计算效率至关重要,通过量化、剪枝、知识蒸馏和低秩分解,这些方法通过平衡性能、内存占用和推理速度来提高大语言模型的运行效率,确保其在设备端应用中的可行性。

设备端语言模型正开启一个智能、响应迅速、个性化应用的新时代。通过将先进的自然语言处理能力直接引入用户设备,这些模型正在改变人们与技术互动的方式。从即时消息建议到实时语言翻译,从保密医疗咨询到尖端自动驾驶汽车。在资源受限设备上部署LLM面临独特挑战,这些挑战与传统的基于云的实施有显著不同。这些挑战涉及多个领域,包括模型压缩、高效推理、安全性、能源效率,以及与多样化硬件平台的无缝集成等。

随着多模态大模型和世界模型(WMS)的出现,这些架构因其出色的感知、交互和推理能力而被视作具身代理的“大脑”。机器人可以通过接入大模型直接理解人类的自然语言指令,并将其转化为具体的行动。而当前我们依然处在“具身智能”的初级阶段,即智能硬件。AI+硬件也是未来 3-5年消费电子的主要发展方向,值得关注。

总体来说,DeepSeek通过在算法与工程侧的深度耦合,把相同的算力资源利用率最大化,所以我们看到单次训练成本有显荠下降。

(一)DeepSeek 加速 AGI到来,大模型从“训练”向“推理”演进

DeepSeek将加速AGI时代到来,AIAgent将成为通往AGI的基石。DeepSeekR1是人工智能革命下里程碑式的产品,对标 OpenAl的o1模型,并且在强化学习的推动下,展现出了此前未曾预见的推理能力,同时通过工程与算法等深度耦合,大幅降低成本,让大模型更易触达下游厂商。并且 DeepSeek开源其模型预示着开源社区正以全新的方式推进人工智能技术的发展,加速通用人工智能时代到来并推动AIAgent技术更加成熟。

AIAgent是一种能自主感知周遭环境,通过内在的智能处理进行决策,并执行相应行动以达成特定目的的智能体。它基于大型语言模型(LLM),集成了规划、记忆、工具和行动能力。从智能助手、个性化推荐系统到自动化客户服务,AIAgent的应用案例层出不穷,它们在各行各业中展现出巨大的潜力和价值。

AI代理的工作流程比传统的LLM交互方式更高效:通过迭代式的AI代理工作流程(例如:先写提纲,再进行网络搜索,再写初稿,再修改),可以显著提高AI模型的输出质量,其提升程度甚至超过了模型本身的迭代升级。

未来人工智能发展关键在于推理,Capex逐渐转向经营性性质。传统训练任务的Capex是研发型投入,而近期OpenAI发布的GPT-01所采用的推理模型,是被设计用来处理长时间的思考和多步骤的复杂任务,为用户的决策提供支持,GPT-01在推理过程中的成本被描述为数百万甚至数十亿级别的提升,这预示着未来AIAgent广泛渗透时,对于推理算力的需求将是指数级爆发增长推理的 Capex的日常经营性质越发明显。AIAgent推理和规划的能力由LLM来实现,推理和规划赋能 Agent 学习能力,可以积累知识和经验,并且 Agent可以对过往的数据和动作进行反思总结,从错误中吸取经验,并为接下来的行动进行纠正,从而适应环境、更有效地执行任务并成功达成目标。

(二)AI Agent崛起,B 端+C 端应用开启新篇章

DeepSeek推动AIAgent快速进化,AI应用进入新时代。当前,伴随全球数据量维持高速增长,为AIAgent发展提供数据资源。未来五年,全球数据量将维持增长,2022年,全球数据规模已达到103ZB,中国数据规模达到23.9ZB;预计2027年,全球数据规模可达到284.3ZB,近五年的 CAGR可达到22%,中国数据量规模则可达到76.6ZB,近五年的CAGR为26%,超过全球增长速度。国产大模型自2023年7月开始进行密集发布,截至2023年7月,国产大模型累计数量达到300个,并且涉及金融、法律、教育、医疗、娱乐等多个垂直细分领域。

中国AAgent市场空间广阔,B端、C端大有可为。2023年中国AIAgent市场规模为554亿元,预计至2028年将达8520亿元,其年均复合增长率为72.7%。AAgent于2023年被业内正式引入并重新定义,随着人工智能技术的迅速发展,垂直领域的AIAgent正逐渐成为科技行业的新宠垂直领域的 AI代理市场规模可能达到Saas的十倍,创造超过 3000亿美元的独角兽企业。AIAgent市场规模包括 ToC端和 ToB端的应用价值:1)在B端场景下,AIAgent将对 SaaS应用进行全面重构,与传统知识库结构化管理模式相比,AIAgent的向量数据库能自动学习和理解文档,实现更加高效知识管理;2)在C端场景下,AAgent作为生成式AI的商业化应用,可以广泛应用于电商、教育、旅游、酒店以及客服等行业,带来传统行业的升级转型。

在AI技术的全球竞争中,以DeepSeek、Kimi、豆包等为代表的国产大模型凭借其前沿的技术创新与精准的场景化应用,正强势突围。在C端,用户渗透率不断提升,主要AIAPP活跃数据持续环比增长;在B端,AI营销等领域的商业化模式已经逐步得到验证。我们认为,DeepSeek-R1通过强化学习实现了低成本与高性能的结合,其发布并开源为行业生态发展带来了新的可能性,并且有望加速推动在影视、广告、社交陪伴等多个领域应用落地。

(一)开源的生态推动 AI行业高速发展

回顾人工智能的发展历程,目前全球人工智能的发展大致经历了两个阶段:

1)1.0阶段--被动分析与判断:早期的人工智能的主要能力是被动地接受信息来进行分析和判断。比较典型的例子如:生物识别技术(根据人脸、虹膜等特征信息输入判断是否匹配)。这些技术没有主动创造内容的能力,更多地是对人类所输入信息的判断和匹配。

2)2.0阶段--生成式AI出现:随着人工智能的不断发展,AI的能力不再仅限于对被动输入信息的接受和分析,而是具备了一定的主动输出内容的能力。在这一发展进程中,Transformer和Diffusion Model这两个算法模型对推动生成式 AI的发展起到了重要的作用。目前的生成式 AI已经可以自主生成文本、图片、视频等多种模态的信息。

在人工智能的发展过程中,开源的生态起到了重要的作用:头部AI公司引领着各项技术向前并使得后来者能够了解到最新的技术进展并发展相关的技术应用,而技术应用又进一步促进AI技术的发展。我们认为,DeepSeek推出的开源推理模型具备显著的成本优势,大幅降低了企业接入门槛,有利于应用端的开发创新,将极大地推动AI应用生态的蓬勃发展。

在开源生态的大背景下,随着相关技术的不断迭代,我们认为AAgent有望成为AI浪潮的下一个发展方向。AIAgent将进一步改变人们的日常生活:AIAgent不仅能够提高工作效率,优化资源配置,还将在个性化服务、智能决策支持等方面发挥重要作用,有望成为推动社会进步和创新的关键。目前,头部互联网大厂相继在AIAgent 领域积极布局,我们认为凭借其强大的技术资金实力、丰富的数据资源和庞大的用户基础正开启追赶模式,潜力巨大。

(二)AI应用:“AI+”行业应用百花齐放

AI+影视:AIGC有望在影视生产全环节得到广泛应用。前期策划阶段,AIGC可根据电影主题、风格、人物等要素自动生成剧本草稿。此外,AI还可以辅助分镜制作,提供视觉参考,从而加快电影前期准备工作。电影制作阶段,多模态AI可以低成本地生产图片、音频、视频等素材,从而提供更多元的内容供给。AI技术还可用以辅助场景生成,特效制作等环节,从而为影片带来更逼真的视觉效果和更丰富的细节。AI 工具还为视频处理提供了有力的工具,大幅降低了视频去除噪点、模糊、抖动,提升画质,提取关键镜头的剪辑难度。

此外,AIGC还可用以进行风格迁移,从而加速电影 IP向周边商品、漫画、游戏等媒介的落地。宣发阶段,AI模型可根据用户画像定制优化预告片、海报及展示的评论等。同时结合虚拟数字人技术,发行商有望以极低的成本实现映前观众与电影人物的“面对面”交流,从而持续地在维持电影话题热度。

当前,AIGC蓄势待发,预备在影视行业掀起新一轮的技术变革和竞争力洗牌,国内各大平台与影视公司也在 AIGC的应用研究与业务协同上开启了应对未来的准备。从《斗罗大陆》《吞噬星空》到《三体》《遮天》,腾讯视频在视效技术规模化运用和长期投入方面展现出了灵敏的嗅觉。自AIGC出现后,腾讯视频在动画行业中也开始探索二维和三维界限的打破。我们认为,未来通过借助三维工业化流程和AIGC的辅助,如文生图、图生图、文生视频的能力,行业难题有望被突破,二维动画的效率和产能将有进一步的提升

AI+游戏:游戏作为集合了文字、图像、声音、视频等内容形式的商业化应用,有望更好地在研发端利用多模态大模型的能力,AI对游戏行业的长期催化作用值得看好:经过技术探索和商业化落地,AIGC技术已被广泛应用在游戏资产生成,仿真场景渲染等多个环节。遵循供给端降本增效,需求端革新交互体验,挖掘用户付费意愿的逻辑,我们认为,AI技术将通过AIGC工具(绘画工具、文本创作。语音合成等)和AI工具来对游戏行业全产业链条进行重塑:

1)创作端:传统的游戏创作端存在着资源生成效率低、成本高昂的痛点。特别是在美术资源的制作上,高质量的 3D模型和纹理的创作往往需要大量的手工艺术家工作时间,这不仅使得游戏开发周期延长,而且大幅度增加了开发成本。在AI技术的加持下,游戏创作将在自动化内容生成(如AIGC绘画工具和3D模型生成)方面发生根本性的变革。具体而言,AIGC可以通过生成算法自动生成地图、关卡设计、任务等游戏内容,分析玩家数据并进行游戏平衡性调整等,提高开发效率和游戏多样性。

2)运营端:在游戏运营方面,AI技术可以通过智能NPC、智能BOT和掉线托管等应用,解决现有运营工作杂、营销转化弱的难题。例如,AI可以帮助处理违规审判,通过学习判断何为游戏内的违规行为,自动化处理大量的审判工作,减轻运营团队的负担;AI也能实现平衡匹配,通过分析玩家的技能水平和游戏习惯来优化匹配算法,从而提供更公平、更有趣的游戏体验;同时,对局陪伴系统能够为玩家提供虚拟的游戏伙伴,增强游戏的社交和互动性。在游戏营销方面,AIGC可以通过用户行为分析、客户服务与反馈、营销预测和广告优化等方式,提高营销效果和 ROL.3)生态端:在游戏生态构建上,AI技术的应用将有助于优化用户体验和增强运营工作的自动化,解决游戏体验同质化的痛点。AI可以通过精准的数据分析来提升营销转化率,为运营团队提供决策支持,并帮助他们识别和培养潜在的用户群体。此外,AI在内容审核和社区管理方面的应用如自动化过滤不良信息,也将成为游戏生态健康发展的重要支撑。最终,这些进步将推动游戏行业朝着更加智能化和个性化的方向发展。

AI+社交陪伴:AI 驱动的虚拟助手,如 Siri、GoogleAssistant,能够通过语音识别和自然语言处理(NLP)提供陪伴服务,如帮助日常任务、提醒事项、甚至进行简单的闲聊。从而增强用户体验,特别是在老年人、孤独人群中的应用,可以提供情感支持和便利。另外,AI用于生成虚拟人类角色,能够进行情感交流、陪伴聊天,甚至根据用户需求提供心理疏导,能给用户提供个性化、情感化的陪伴服务,尤其在远程工作或社交限制的环境下,满足用户的社交需求。

AI+社交陪伴领域正迎来一场革命性的变革。在这新兴领域,AI可以通过分析用户的历史对话和行为模式,自动生成符合用户个性的对话脚本和互动建议。这种个性化的服务能够让用户感受到更加贴心的社交体验。借助于先进的情感识别技术,AI能够识别用户的情绪状态,并据此调整其回应策略,提供更加贴合用户情感需求的陪伴。同时AI技术可以创建虚拟角色,这些角色不仅能够进行自然语言对话,还能够模拟真实人类的表情和肢体语言,为用户提供一种全新的社交体验。对于那些社交技能较弱的用户,AI可以通过模拟社交场景,提供社交技能训练,帮助用户提高社交能力。目前像 ChatGPT、豆包以及Minimax等能提供自然生动的语音合成能力,善于表达多种情绪,演绎多种场景,备个性化的角色创作能力,更强的上下文感知和剧情推动能力,满足灵活的角色扮演需求。

我们认为:AIGC技术目前已经能从语言、语气等多方面深入洞悉人类的多种情感,同时作出判断给予不同的情感价值和需求。无论是在增强用户体验方面,还是拓展更多个性化的服务等方面,都具有丰宫的想象空间,AI陪伴未来可能是成为工作中最得力的助理,也是最了解用户习惯的销售员。进一步的创新有望开发商业化应用落地。

AI分析用户的购物历史、浏览记录和偏好,向用户推荐可能感兴趣的商品,提升转化率和购买欲望。平台如 Amazon、淘宝等都在使用此技术,可以提高销售额和客户满意度,同时减少用户的决策疲劳,提升购物体验。此外,AI驱动的聊天机器人和语音识别技术被广泛应用于电商平台,能够实时响应客户咨询、处理订单问题、解决售后问题,有效提高客户服务效率,降低人力成本,同时提升客户体验。

人工智能(AI)技术的应用领域不断拓展,电商行业也在积极探索新的AI应用,以保持竞争力并满足消费者日益增长的期语。最初,电商平台采用聊天机器人提供24/7客户服务,解答用户问题并处理订单查询。通过自然语言处理技术,系统能够理解用户意图,提供更准确的服务。此外,预测分析工具被用于预测产品需求,优化库存水平,减少积压和缺货现象。AI还被应用于供应链管理,提高物流效率等B端场景。在C端方面,Google、OpenAI等公司正积极布局AI与搜索在电商中的应用。通过对大量数据的深度学习,分析客户的潜在消费需求,实现精准推荐。

我们认为,生成式AI(AIGC)正在重塑电商格局。在生产端,AIGC辅助商家拓展业务,降低销售和运营成本。在消费端、购物模式将从“人找货”过渡到“货匹配人”,最终实现“货找人”这将带来巨大的消费增量。

AI+营销:

AI技术被用于分析消费者的行为数据,生成用户画像,并根据这些数据进行精准广告定向投放(如 Facebook、Google 广告),更有效地提高广告的点击率和转化率,减少广告浪费,提升广告主的投资回报率(ROI)。同时,AI可以自动生成与用户相关的个性化内容,如广告文案、电子邮件和社交媒体帖子。基于用户的兴趣、行为模式生成个性化营销信息,增强与消费者的互动,提高品牌忠诚度和参与度。

人工智能(AI)的应用正深刻变革营销服务商的商业模式,推动行业降本增效。通过结合底层大型语言模型(LLM),并利用长期积累的广告投放案例、用户数据和行业数据,企业能够为不同行业定制专业化的广告投放模型。这使广告主将更多预算转向融合AI技术的增值服务,从而提升综合毛利率。例如,AppLovin开发了AI广告引擎Axon 2.0,显著提高了广告投放的精准度推动公司业绩增长。通过深度学习和机器学习算法,分析用户行为数据,精准识别目标受众,并在适当时机投放最具吸引力的广告。此外,利用大数据分析,预测用户行为,更有效地进行个性化推荐,使广告商能够与更可能下载其应用的用户匹配,以获得更高的留存率。

我们认为,AI已经重塑了营销行业的生态。它不仅为营销人员提供精准的数据支持,助力营销策略的制定和优化,还推动了“一人多面”的个性化营销,使针对每个用户生成定制化的内容和服务成为可能。同时,AI保持了大规模营销活动的高效执行,实现了个性化与规模化生产的平衡。

来源:报告研究所

相关推荐