摘要:聚焦超大规模集群部署,国际头部科技企业大模型训练需求仍高企。1)OpenAI、软银、 甲骨文与 MGX 联合发起的“星际之门”项目计划投资 5000 亿美元,打造超大规模 AI 算 力集群。2)据IT之家数据,Colossus在2024年7月启动时配备了10万
(一)全球 AI 算力基建投入持续爆发,垂类应用验证规模化商业落地
聚焦超大规模集群部署,国际头部科技企业大模型训练需求仍高企。1)OpenAI、软银、 甲骨文与 MGX 联合发起的“星际之门”项目计划投资 5000 亿美元,打造超大规模 AI 算 力集群。2)据IT之家数据,Colossus在2024年7月启动时配备了10万块英伟达H100GPU, 到 2025 年 2 月,GPU 数量已翻倍至 20 万块;5 月 8 日据 Tom's Hardware 报道,马斯克 的 xAI 孟菲斯超级集群第一阶段已经全面投入使用。3)Meta 则在俄亥俄州和路易斯安 那州秘密建设两个“吉瓦级”(GW)的超级计算集群,项目内部代号分别为普罗米修斯 (Prometheus)和亥伯龙(Hyperion);Meta 首席执行官扎克伯格表示,将投资数千亿美 元建设几座大型数据中心,其中首个数据中心普罗米修斯预计将于明年投入使用,亥伯 龙的一期工程的 IT 功率就将超过 1.5 吉瓦,预计到 2027 年底成为全球最大的单一 AI 数 据中心园区。
主权 AI 布局提速,国家层面积极推动算力基建投入。1)路透社报道,阿联酋将建设除 美国之外全球最大的人工智能园区。该项目位于阿布扎比,面积达 25.9 平方公里、功率 5GW 的 AI 园区,支持约 250 万颗 Nvidia 顶级 B200 芯片的运行。2)IT 之家消息,HPE 慧与将为日本产业技术综合研究所打造日本最快 AI 超算 ABCI3.0。ABCI3.0 基于慧与的 CrayXD 节点系统,每个节点将配备 8 块英伟达 H200GPU,将包含数以千计的英伟达 H200TensorCoreGPU,拥有 6exaflops 的 16 位浮点 AI 算力。3)英伟达首席执行官黄仁 勋在 6 月法国巴黎举行的 GTC 大会上表示英伟达正积极与法国、意大利和英国展开合 作,助力各国建立能够创造收入的人工智能工厂。欧盟已投入 100 亿欧元(约合 118 亿 美元)用于建设 13 家人工智能工厂,并投入 200 亿欧元作为超级工厂的初始投资。
推理爆发带动 Token 消耗进入 10 万亿级,国产模型加速渗透。国家数据局局长刘烈宏 表示,2024 年初中国日均 Token 消耗量为 1 千亿,现在(2025 年 3 月底)每日消耗量已 经达到 10 万亿级,1 年增长 100 倍。2025 年初华为常务董事汪涛表示,当前,AI 推理 迎来爆发式增长,生成式 AI 的日均 Token 数已达到十万亿。庞大的 Token 消耗量反映了 生成式 AI 正在中国各行各业加速落地和规模化部署。根据 OpenRouter 最新的使用量统 计,以 DeepSeek、Qwen3(通义千问)、GLM4.5(智谱清言)、Kimi(月之暗面)等为代 表的本土顶尖大模型,其用户活跃度与调用量持续位居行业前列,反映出国产模型在技 术性能与应用体验上与国际先进水平的加速收敛。
AI 垂直应用加速落地,垂类模型深度赋能验证 AI 增效能力。DeepSeek 已开始对中医药 研发流程进行优化,对利用可穿戴式设备采集的数据进行计算推理。国家儿童医学中心、 首都医科大学附属北京儿童医院正式发布“福棠·百川”儿科医学大模型,同时发布 AI 儿科医生基层版和专家版。中国石油塔里木油田远程管控支持中心在人工智能模型和算 法的帮助下使报警准确率提升到 80%以上,管控效率提高 3 倍以上。AI 气象预报大模型 可以提升预报的精准度,并预报未来全球 15 天、间隔六小时的气象情况,在电力行业、 交通行业、防灾减灾、农业以及金融保险都有巨大的应用价值。
(二)国产 GPU 市场空间广阔,资本开支结构性倾斜智算基座
AI 大模型参数激增,推动我国 GPU 市场规模快速增长。当前 AI 技术正加快融入千行百 业,超大规模 AI 模型和海量数据对算力的需求也持续攀升。云游戏、元宇宙、VR/AR 等 新应用场景加速发展,大模型的训练和推理过程进一步带动算力需求爆发,同时也推动 算力需求由通用性 CPU 算力向高性能 GPU 算力发展。据摩尔线程招股说明书引用弗若 斯特沙利文数据显示,到 2029 年,中国的 AI 芯片市场规模将从 2024 年的 1,425.37 亿元 激增至 13,367.92 亿元,2025 年至 2029 年期间年均复合增长率为 53.7%。从细分市场上 看,GPU 的市场增长速度最快,其市场份额预计将从 2024 年的 69.9%上升至 2029 年的 77.3%。
国内云厂商 CAPEX 投入提速,AI 算力成为重点布局方向。根据科智咨询,2023 年以 来,除基础电信运营商外,新增 AIDC 投资主要由字节跳动驱动;截至 2024 年底,国内 AIDC 累计投入超过 1875 亿元。展望 2025 年,阿里巴巴、腾讯、华为等头部互联网企业 计划同步扩大资本开支,叠加字节跳动新增采购,为行业持续扩张奠定基础。
字节跳动:公司在 AI 领域持续加大投入,2024 年旗下子公司的火山云太行算力中 心二期项目投资额约达 73 亿元,占地约 530 亩,分两期建设;
阿里巴巴:2025-2027 年,阿里将投入超过 3800 亿元,用于建设云和 AI 硬件基础设 施,总额超过去十年总和,创下中国民营企业在云和 AI 硬件基础设施建设领域有史以来 最大规模投资纪录;
腾讯:2024 年,腾讯实现营收 6602.57 亿元。2025 年公司资本开支预计将占全年收 入的“低两位数百分比”,据此测算,全年 CAPEX 或将可能接近千亿的水平;
百度:公司将继续把提升人工智能能力作为长期战略重点进行投资,但其资本开支规模相对有限:以 2024 年为例,百度 CAPEX 约 80 亿元,仅为阿里巴巴同期投入的 10%。
运营商整体 CAPEX 回落,但算力相关投入逆势增长。2024 年,三大运营商资本开支总 额约 3188.7 亿元,较前期略有收缩;2025 年三大运营商计划投资规模合计降至约 2,898 亿元,延续压降趋势。尽管整体 CAPEX 下调,但投资结构持续优化,传统网络建设占比 逐步下行,算力与 AI 相关投入则实现逆势提升,成为运营商适度超前布局的核心方向。
中国移动:2024 年公司资本开支为 1,640 亿元,同比下降 9.04%;其中算力领域投 资为 371 亿元,占比约 22%。2025 年,公司预计 2025 年资本开支约为 1,512 亿元, 较 2024 年小幅下调;其中算力方向计划投入 373 亿元,与 2024 年基本持平,在资 本开支中的占比提升至 25%。公司在业绩说明会上披露,将根据市场需求动态扩展 推理资源,不设投资上限,并提出至 2025 年底智算能力达到 34EFLOPS 的目标。
中国联通:2024 年,公司资本开支为 613.7 亿元,同比下降 17%;其中算力投资同 比增长 19%。2025 年,公司资本开支预算下调至约 550 亿元,但算力投资预计同 比提升 28%,并为人工智能重点基础设施和重大工程专项单列预算。公司高级副总 裁唐永博在业绩说明会上表示,将根据智算、6G 等需求以及国内外发展趋势,适 时调整投资规模。
中国电信:2024 年,公司资本开支为 935 亿元,同比下降 5.4%,其中包括算力在内 的产业数字化投为 325 亿元。2025 年公司资本开支预算为 836 亿元,预计同比下滑 10.6%,但产业数字化投资占比预计提升至 38%,算力相关投资同比增长 22%。公司 董事长柯瑞文在业绩说明会上表示,算力方面初步安排增长约 20%,未来将根据客 户需求与市场情况灵活调整投资规模。
(三)政策强驱动,AI 芯片国产替代提速
AI 芯片行业整体呈现寡头垄断格局,国际龙头企业在技术、市场和生态方面具有显著优 势。全球范围来看,经过多年竞争与发展,全球 GPU 市场头部化现象显著,整体呈寡头 垄断格局,英伟达(NVIDIA)和超威半导体(AMD)两家国外领先厂商基本分割了全球 市场,在综合技术实力、销售规模、资金实力、人才团队等方面优势明显。根据沐曦股份 招股说明书引用 Jon Peddie Research 的数据,独立 GPU 市场方面呈现“一超一强”格局, 其中英伟达一家独大,近年来持续维持超 80%的市场份额,而 AMD 公司则占据剩余近 20%的市场份额。自人工智能市场爆发式增长以来,英伟达凭借优越的产品性能和完善的 CUDA生态筑造了护城河,领先优势不断扩大。根据沐曦股份招股说明书引用TechInsights 数据,在 GPU 市场,2023 年全球应用于智算中心的 GPU 总出货量达到了 385 万颗,相 比 2022 年的 267 万颗增长了 44.2%。其中,英伟达面向智算中心市场的 GPU 出货量达 到了 376 万颗,市场份额超过 90%。
美国限制措施不断升级,加速国内 AI 芯片国产替代进程。近年来,针对芯片、先进计算 等领域,美国通过出口管制、实体清单,法案等方式出台了一系列限制措施,包括调整 高性能芯片受限参数、防止芯片厂商绕过限制等,芯片管制措施持续升级。据摩尔线程 招股说明书数据,寒武纪、海光信息等公司的 AI 芯片产业化程度较高,并已在国内市场实现规模化营收。美国高端 GPU 出口限制逐步加强的背景下,中国企业推进国产替代的 步伐正不断加快。
强调“适度超前建设网络设施”,国产算力落地路径清晰。国务院提出深入实施“人工智 能+”行动政策,旨在推动人工智能与经济社会深度融合。计划到 2027 年实现人工智能与 六大重点领域广泛深度融合,到 2030 年全面赋能高质量发展,到 2035 年全面建成智能 经济与社会新阶段,为中国式现代化提供核心支撑。中国信息通信研究院副院长魏亮在 2025 中国算力大会上表示,“国家正按照‘点、链、网、面’体系化推进全国一体化算力 网络工作,通过推动优化算力布局、强化技术协同创新、适度超前建设网络设施、丰富 算力应用场景,持续提升算网综合供给能力。”下一步,加快突破 GPU 芯片等关键核心 技术,扩大基础共性技术供给。同时,东数西算工程在推进算力基建过程中,助力破解 区域发展不平衡等问题,为算力基建自主化提供了资源调配与产业协同机遇,推动构建 更均衡、更自主可控的算力网络。目前地方已率先落地相关布局,如甘肃庆阳市政府与 燧原科技、亿算智能签订《共建国产十万卡算力集群及新质生产力生态圈战略合作框架 协议》;河南 2024 年计划投资 568 亿元推进智算中心建设;截至 2025 年 4 月,宁夏标准 机架、智算算卡、算力规模分别较 2024 年底新增 2.6 万架、2.3 万张、3.4 万 P,预计 2025 年内新增标准机架 28 万架,强化“东数西算”枢纽功能;标志着我国自主可控的超大规 模 AI 算力基础设施建设进入实质推进阶段。
算力券定向补贴落地,助力国产 AI 算力需求释放。超长期特别国债资金以“算力券”形 式定向支持智算需求侧,成为推动 AI 产业发展的重要政策工具。从地方推进节奏看,北 京、贵州、浙江、天津、河南、安徽、河北、深圳等省市已率先出台实施细则。这种定向 支持不仅能直接刺激企业对国产智算资源的需求,还或将加速寒武纪、海光、昇腾等国 内厂商的技术迭代与规模扩张,推动 AI 产业链上下游协同发展,为各地产业数字化转型 提供有力支撑。
国产 AI 芯片市场份额与竞争力稳步提升。美国出口管制背景下,国内芯片产业国产化节 奏加快,企业协同发展形成良好生态。海关总署数据显示,2025 年 1-2 月,我国处理器 及控制器类芯片进口额 284.6 亿美元,同比增长 8.6%;同期本土出口额 90.6 亿美元,同 比增长 21.4%,出口增速较进口高出 12.8 个百分点,出口增速远超进口,显示中国芯片 在全球供应链中的地位有所提升。 从市场格局看,国产芯片份额持续提升。IDC 数据显示,2024 年中国加速芯片市场规模 超 270 万张,其中国产人工智能芯片出货量超 82 万张,占比超 30%;央视新闻预计 2025 年昇腾芯片出货量将超 70 万片。细分到数据中心 GPU 市场,2024 年上半年英伟达虽以 80%份额领先,但国产阵营突破明显:华为以 17%份额位列第二,百度、寒武纪等合计占 3%。从增长动能看,华为同比增速达 287.0%,寒武纪等厂商亦表现亮眼,国产芯片替代 活力持续释放。
(一)先进制程:先进制造为产业链瓶颈,国内技术节点加速追赶
全球先进制程竞争加剧,国内加速追赶先进制造瓶颈。全球芯片先进制程竞争日趋激烈, 国际巨头持续突破物理极限,而国内在 7nm 及以下先进制造环节虽仍存在瓶颈,但技术 追赶步伐正在加快。 1)国际方面,英特尔通过“四年五个节点”计划加速工艺迭代,其 18A 工艺已进入风险 试产阶段,作为全球首款同时采用 RibbonFET 环绕式栅极晶体管与 PowerVia 背面供电 技术的制程,在 0.75V 电压下可实现性能提升 18%或功耗降低 38%,1.1V 高电压下性能 提升 25%或降低功耗 36%,计划 2025 年下半年量产并应用于 Panther Lake 处理器,成为 其竞争台积电的关键节点。台积电则布局更长期工艺,全新 14A(1.4nm 级)工艺采用 第二代 GAAFET 全环绕晶体管与 NanoFlex Pro 架构,对比 N2 工艺性能提升 10-15%、功 耗降低 25-30%,逻辑密度提升 23%,预计 2028 年量产。 2)国内企业在成熟先进工艺与架构创新上持续突破:华为昇腾 910 芯片采用 7nm+EUV 工艺,通过 32 核达芬奇架构设计实现 256TFLOPS 的半精度算力,运算密度超越同期 NVIDIA TeslaV100,在 AI 训练场景形成差异化竞争力;中芯国际 14nm 工艺良率稳定达 95%,7nm 芯片的小规模试产,其 N+1 代工艺在功耗及稳定性上与 7nm 工艺非常相似,加 之华为等设计企业与本土制造环节的深度协同,国内正逐步缩小与国际先进水平的代差, 为突破先进制造瓶颈奠定基础。
先进制程区域化特征凸显,中国大陆成熟制程产能优势持续扩大。1)先进制程领域, Trendforce 数据表明,2023-2027E 年区域化分布态势明显:中国台湾的主导地位有所弱 化,其先进制程版图占比预计从 71%下降至 54%;美国依托本土制造回流政策及台积电 等企业的产能转移,占比预计从 9%大幅提升至 21%;日本则实现从 0 到 4%的突破。这 一变化背后,地缘政治因素推动半导体产业链区域化程度加深,台积电在美国、日本的 新工厂未来几年陆续达产后,或将直接支撑两地先进制程产能快速增长。2)成熟制程(大 于 28nm)领域,中国大陆成为核心增长极。2023-2027 年,随着中芯国际、华虹半导体 等企业扩产计划及新建项目陆续落地达产,中国大陆在 28nm 及以上成熟制程领域的市 场份额将从 29%升至 33%,或将成为全球成熟制程产能的主要贡献者。
(二)单卡性能:单卡性能为攻坚核心,与国际头部差距快速收敛
单卡性能提升成为国产算力攻坚的核心方向,在算力密度与能效比方面,国产芯片与国 际头部产品的差距正快速收敛。1)国际厂商在高性能计算保持领先优势:英伟达 B200 基于 Blackwell 架构,FP8 算力达 72PFLOPS 训练性能,FP4 算力达 144PFLOPS 推理性 能;H100 依托 Hopper 架构,FP32 算力为 67TFLOPS;AMD MI325X 则凭借 CDNA3 架 构,FP32 算力高达 163.4TFLOPS,在高性能计算领域保持显著优势。2)国内厂商持续 突破:华为昇腾 910C 采用 Chiplet 双芯封装,1024 芯片集群 FP16 算力达 819.2PFLOPS, 可对标英伟达 H100 集群,支撑千亿参数模型训练;寒武纪思元 590 支持 8 芯片级联, FP16 集群算力 2.048PFLOPS,通过动态稀疏计算提升 30%效率,性能达到英伟达 A100 集群的 70%。
国产 GPU 芯片厂商通过技术与场景创新,逐步缩小与国际差距。具体来看,华为 Atlas 系列推理卡、视频解析卡等产品覆盖多样场景需求;寒武纪思元系列板卡(如 MLU370- S4/S8 等)在计算精度、视频编解码等能力上不断突破;摩尔线程 S5000、MTTS80 等产 品亦在 AI 计算加速、图形渲染赛道发力。尽管与英伟达高端产品仍存在差距,但国内 GPU 单卡性能提升路径清晰,正通过架构创新(如昇腾达芬奇架构、寒武纪 MLUarch03 架构)与技术整合(先进 Chiplet、MLU-Link 多芯互联等)逐步缩小代差。在此过程中, 国内厂商在国产化替代与新兴场景拓展中持续构建自身竞争优势,推动 GPU 生态向多元 化方向发展。
华为通过昇腾系列 AI 芯片及 Atlas 加速卡产品矩阵,构建了覆盖云端千亿模型训练、边 缘推理到视频解析全场景的算力解决方案。昇腾芯片采用自研达芬奇架构实现代际突破: 昇腾 910B 以 376 TFLOPS 的 FP16 算力与英伟达 A100 水平相当,FP32 精度达 94 TFLOPS,支持高复杂度科学计算。 昇腾 910C 通过架构级优化实现单卡算力跃升 40%,功耗同步降低 15%,可高效支 撑 Llama 3、DeepSeek 等千亿参数大模型分布式训练。昇腾 910C 通过异构架构实现 TensorFlow/PyTorch 框架全栈优化,算法迁移成本降低,已形成规模化部署。昇腾 310 专攻边缘侧低功耗场景,提供 16 TOPS INT8 算力。配套 Atlas 加速卡深度 优化场景适配能力: Atlas 300I Pro 推理卡以 140 TOPS INT8 和 70 TFLOPS FP16 算力支撑千亿级模型实 时推理,72W 超低功耗下内存带宽达 204.8GB/s; Atlas 300I Duo 则通过 280 TOPS INT8 算力与 408GB/s ECC 内存,提供 1.86 TOPS/W 超高能效比,业界领先; Atlas 300VPro 在视频解析场景中,单卡可处理 128 路 1080P 视频流(时延
寒武纪通过思元系列芯片与加速卡构建了覆盖云端训练至边缘视频解析的全栈算力体系。
核心产品 MLU370-S4/S8 加速卡采用 7nm 制程的 MLUarch03 自研架构,支持 FP32 至 INT4 全精度计算,峰值算力达 192 TOPS(INT8)与 18TFLOPS(FP32),搭配 307.2GB/s LPDDR5 内存带宽及 48GB 超大内存容量,实现高吞吐量数据处理;同级 型号 MLU370-X4 则强化媒体处理能力,集成 40,000 帧/秒全高清图片解码器,支持 16K 超分辨率编解码。在视频解析领域,全系产品搭载新一代编解码单元,可同时 处理 132 路 HEVC 1080P 视频流(超越行业 128 路上限),成为智慧城市万级摄像头 中枢的核心载体。
云端训练场景依托思元 590 集群方案,通过 MLU-Link 多芯互联技术实现 8 卡级联 扩展,FP16 集群算力高达 2.048 PFLOPS(达英伟达 A100 集群效能的 70%),结合 动态稀疏计算技术提升 30%有效算力利用率,显著缩短千亿参数模型训练周期。 MagicMind 推理加速引擎是基于思元 370 芯片的技术,作为核心优势之一,依托该 芯片采用的 Chiplet(芯粒)技术、MLUarch03 芯片架构等,可在推理加速环节发挥 作用,助力实现训推一体,提升开发部署效率,降低用户学习、开发及运营成本, 为 AI 计算相关场景提供推理加速支撑。
(三)架构创新:超节点集群范式突破,部分场景优于国际旗舰方案
从 Scale-Out 到 Scale-Up,华为 CloudMatrix384 实现架构范式突破。传统 Scale-Out 方 案依赖以太网/Infiniband 横向扩展,跨节点通信时延>10 µs,导致张量并行(TP)等密集 通信场景效率骤降,集群线性扩展度
华为 CloudMatrix384 超节点性能表现优异,部分场景优于国际旗舰方案。华为 CloudMatrix384 超节点凭借架构创新与软硬协同优化,在核心性能维度展现竞争力,部 分场景表现超越英伟达 H100/H800 等国际旗舰方案。在 DeepSeek-R1 模型预填充阶段, CloudMatrix-Infer 默认配置下实现每 NPU 5,655 tokens/s 的吞吐量,计算效率达 3.76 tokens/s/TFLOPS,优于 SGLang 在 NVIDIA H100 默认配置下的 3.18 tokens/s/TFLOPS; 在“Perfect EPLB”理想负载均衡条件下,其吞吐量提升至 6,688 tokens/s/NPU,效率达 4.45 tokens/s/TFLOPS,超过 SGLang 在 H100 上的理想效率(3.75 tokens/s/TFLOPS)及 DeepSeek 在 H800 上 的性 能 ( 3.96 tokens/s/TFLOPS)。 在 计 算 密 集 型场 景 中 , CloudMatrix384 的 CANN MLA 算子计算利用率为 65.4%,与 NVIDIA H800 的 FlashMLA (66.7%)接近;内存密集场景下,两者内存带宽利用率分别为 84.1%和 89.6%,性能表 现相当。
GPU 生态系统由上层算法库、中层接口、驱动程序、编译器及底层硬件架构等多环节构 成,是支撑 GPU 高效运行与广泛应用的核心体系。其关键组件包括两方面:一是决定处 理能力与效率的微架构;二是由开发工具、程序库及应用程序接口(API)组成的软件生 态,后者为开发者在各类场景中高效调用 GPU 计算能力提供保障。具体来看,GPU 生态 系统的核心构成可分为三大层面:
硬件基础:以 GPU 微架构为核心,包含计算核心、存储单元、通信接口等硬件组件, 决定 GPU 的基础算力与性能边界;
软件层:涵盖驱动程序、编译器、DirectX/OpenGL/CUDA 等 API,以及数学库、深 度学习框架等算法库,是连接硬件与应用的关键桥梁;
开发者生态:完善的生态是技术落地的重要支撑,例如英伟达 CUDA 生态通过丰富 的工具和库推动 GPU 在多领域规模化应用;同时,统一编程模型与兼容接口能降低 开发门槛,如摩尔线程 MUSA 架构兼容主流生态,可减少跨平台开发成本。
(一)CUDA 生态垄断:构建“芯片-集群-云”全栈闭环
CUDA 生态借技术沉淀与协议限制,对国内 GPU 企业形成生态封锁挑战。从技术层面 看,CUDA 生态系统历经 15 年积累形成的竞争优势十分显著,其兼容性标准甚至被视作 未来生态发展的重要导向。目前,CUDA 已吸引数百万开发者参与,用户若迁移至其他 平台,代码重写导致不仅工作量巨大,且缺乏直接经济效益支撑,这形成国内 GPU 企业 在软件生态建设中面临天然壁垒,短期内实现硬件架构完全自主化及生态系统完善存在 较大难度。从协议限制层面看, CUDA 11.6 及更高版本的最终用户许可协议(EULA) 新增条款,明确禁止在非英伟达硬件上通过转译层(如 ZLUDA)运行 CUDA 软件。该 条款旨在保护英伟达生态的知识产权,其约束对象直接涵盖第三方兼容项目(如 AMD/Intel 支持的 ZLUDA)及国内部分 GPU 厂商,进一步加剧了国内企业突破 CUDA生态封锁的难度。
英伟达依托自身技术积淀,构建起“芯片-集群-云”的全栈闭环生态。其生态覆盖从底层 技术到终端应用的全链条:1)底层技术支撑体系:CUDA 与 CUDA-XAI 构成生态核心 技术底座,为机器学习、深度学习训练及推理环节提供基础性支撑,是整个生态体系的 运行基石。2)框架与服务层全流程覆盖:在框架领域,PyTorch、TensorFlow 等主流工具 为模型构建提供技术支撑,借 GPU 加速库(如 cuDNN 和 TensorRT)为模型构建、训练 推理提供高性能支撑;同时,英伟达自身提供多元化软件服务矩阵:其一为 NVIDIA AI Enterprise 套件,是云原生软件工具套件,涵盖基础设施与应用层,助力企业 AI 从原型 到生产过渡;其二为 NVIDIA DGX Cloud 托管 AI 训练平台,可将 AI 工作负载载到优化 后的高性能 NVIDIA AI 基础设施,为严苛 AI 工作负载打造,借集成软件、托管服务等 加速 AI 应用开发,完善生态服务能力。3)硬件适配多场景协同:硬件层面,工作站(戴 尔等)、服务器及云端平台(微软、安进等)均已实现与该生态的深度适配,形成跨设备、 跨平台的硬件支撑网络,全方位保障 AI 应用从开发到部署的全流程落地。
(二)迁移成本降低:自主研发与异构调度并进
国内芯片企业通过自主研发软件生态与技术,降低生态迁移成本。 1)华为构建了以 CANN 为核心的软件生态,该栈包含驱动层、运行时层和库层等关键组 件,能够与 PyTorch、TensorFlow 等主流 AI 框架通过适配器实现集成,同时与华为自研 的 MindSpore 框架形成深度优化的软硬件协同方案。华为 CloudMatrix384 超节点在芜湖 等地的部署实践,将为 AI 推理提供澎湃充足、即开即用的智能算力。昇腾 CANN 框架 支持部分 CUDA 代码迁移,开发者适配成本下降明显。目前华为昇腾生态开发者总数达 1300 万。 2)海光 DCU 具备自主研发的 DTK 软件栈,是国内较为完备的生态之一,能减少应用迁 移难度,且与国内多家头部互联网厂商完成全面适配,支持常见函数库和不同 API 接口、 编译器适配。 3)寒武纪开发的面向云边端全系列智能芯片的统一基础系统软件,核心包含编程模型、 加速库、推理引擎及工具链等组件。其通过 Cambricon BANG 编程语言支持异构并行开 发,依托 CNNL、CNCL 等加速库提供高性能算子,AI 框架和开源生态(适配 PyTorch、 飞桨、TensorFlow 等),通过任务划分与设置,把计算密集需求分解为独立任务调度执行。 该软件栈的核心价值在于构建“云边端一体”生态,让同一 AI 应用可跨寒武纪全系列芯片 便捷运行,降低模型迁移成本。 4)沐曦为训推一体场景打造了以 metaXLink+MXMACA 为核心的技术栈:MetaXLink 作 为自研高速互连技术支持超节点扩展,MXMACA 软件栈则集成主流框架与运算库。商 业应用场景中,公司深度推进“1+6+X” 生态与商业布局,GPU 产品累计销量超 25,000 颗, 已成功交付 9 大智算集群,相关产品适配智算训练与推理等场景,在金融、政务等行业 实现落地应用。
跨平台统一调度实现高效协同,超大规模混训集群效能领先。商汤 SenseCore 平台下的 DeepLink 为当前国产 AI 基础设施提供了可验证的工程化范例,其核心能力体现在“异 构统一调度”与“长稳混训验证”两条主线。首先,DeepLink 已开源共建国产生态,完 成国内一线厂商芯片适配。同时,支持“算子模式+编译模式”双路径,接入 PyTorch2.0 编 译链路,一次适配可兼容多硬件与框架,提升适配效率。其次,2025 年 2 月,上海 AI 实 验室联合商汤及 10 余家合作伙伴落地的超大规模跨域混训集群原型,在千亿参数自研模 型上完成 20 天不间断训练,训练效率达到单一芯片集群的 95%,验证了 DeepLink 在长周期、大模型任务中的工程可靠性。兼容性方面,DeepLink 已适配语言类大模型 LLaMa、 书生・浦语推理,覆盖 CV、NLP 等场景需求。《新一代人工智能基础设施白皮书》提出, 商汤 SenseCore 在市场响应、市场认知、产品战略、工程化建设四项指标均获满分,进一 步夯实其商业化落地预期。
(三)生态全栈贯通:定义中国算力新规则
国产 AI 产业自主化进程加速推进,协同创新已成为突破生态壁垒的核心路径。1)标准 化支撑层面:中国信通院依托 AISHPerf 人工智能软硬件基准体系,启动面向大模型的全 栈国产软硬件系统适配测试,推动百度文心 4.5 等开源模型与国产框架、硬件平台的垂直 优化,为芯片与模型的协同适配提供标准化支撑。2)平台化适配层面:无问芯穹联合壁 仞、海光、沐曦等 7 家国产芯片厂商,通过 Infini-AI 异构云平台实现 DeepSeek-R1、V3 模型在多元硬件上的适配优化。其采用“三步走”模式推动“国产模型-国产系统-国产芯片” 闭环构建,通过软硬协同设计削弱 CUDA 生态壁垒,进而激发国产算力需求。3)生态联 盟共建层面:阶跃星辰联合华为昇腾、沐曦、壁仞科技等近 10 家厂商成立“模芯生态创 新联盟”,其发布的 Step3 大模型在设计初期即纳入国产芯片硬件特性考量,在国产芯片 上的推理效率最高可达 DeepSeek-R1 的 300%。联盟成员通过深化算子优化、统一适配标 准、联动应用场景等方式,推动模型与芯片全链路技术打通,实现算力效率提升与成本 降低。总体来看,从标准化测试到生态联盟共建,国产芯片与模型的协同正从技术适配 阶段逐步迈向产业链深度融合,为构建自主可控的 AI 算力生态奠定基础。
中国算力“新规则”正从标准构建、技术创新、产业协同和计量革新四大维度推进。1) 标准端,《国家数据标准体系建设指南》构建了数据基础设施标准框架,为算力互联互通 提供基础支撑;《算力互联互通行动计划》推进的算力互联互通标准体系(包括总体框架、 调度接口等规范)为跨域、跨行业资源复用确立统一指导,区域壁垒有望系统性降低。 2)技术端,异构调度进入工程化兑现阶段:“联通星罗”平台 2.0 实现“国芯+国模+国算 +国盾”闭环,已兼容 10 余款国产芯片,降低中小微企业技术门槛;华为云“擎天”架 构整合昇腾 AI 算力中心,构建分布式算力池,实现算力灵活调度;阿里云 CIPU 作为新 一代云计算体系架构核心,向下对数据中心计算、存储、网络底层设施云化并硬件加速, 向上接入飞天云操作系统,优化端到端效能;腾讯云“星脉网络”专为 10 万级 GPU 网 络通信设计,以自研网络设备、TiTa 协议、TCCL 通信库及全栈运营系统,借低时延通信 提升端到端表现。3)协同端,鹏城云脑Ⅱ等核心节点已接入算力互联网试验网,运营商400G ROADM 网络实现枢纽间毫秒级直连,“感知-调度-复用”全链条体系初步闭环。4) 计量端,九章云极提出的“一度算力”标准(312 TFLOPS·h,含网络及存储服务)为跨 中心结算提供统一量纲,可直接降低运维成本并推动算力商品化流通。全国算力资源正 由“可用”向“可交易、可调度、可度量”升级,商业化拐点临近。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
来源:未来智库