摘要:过去一年,大模型产业在中国呈现出一种高度一致的“落地节奏”:各大厂商争相推出“大模型一体机”,从软件到硬件、从模型到芯片,打包交付,仿佛只要客户部署好一台机器,AI的未来就能就此开启。
过去一年,大模型产业在中国呈现出一种高度一致的“落地节奏”:各大厂商争相推出“大模型一体机”,从软件到硬件、从模型到芯片,打包交付,仿佛只要客户部署好一台机器,AI的未来就能就此开启。
但表面上的热闹,掩盖不了一个被集体忽视的事实:真正决定AI产业格局的,从来都不是卖出多少一体机,而是谁拥有构建超级智算平台的能力。
一体机只是战术性落地的临时方案,是真正大模型时代来临前的一种产业缓冲。它无法支撑未来AI所需的大规模训练能力、实时推理能力、海量并发处理能力。只有拥有10万卡、甚至百万卡级别的GPU算力基础设施,才能承载未来AI的真正需求。
这就像过去的云计算——不是“卖服务器”的公司赢了,而是能构建CPU算力平台并提供服务弹性的公司成为了基础设施的主宰者。
今天,AI产业正在重演这一幕。只是这一次,主角从CPU变成了GPU,终点也从“资源即服务”,升级为“智能即服务”。
我们必须开始正视:在大模型时代,真正的“新基建”,是超级智算集群,是大规模GPU基础设施的统筹调度与持续演进能力。
谁能构建得起10万卡级GPU集群,谁就能提供全球级的AI能力支撑;而谁只能卖一体机,谁就注定停留在“拼装交付”的初级阶段。
为什么大模型真正的挑战是超级智算,
而不是设备交付
从表面看,大模型的落地瓶颈似乎在应用:怎么服务好企业客户?怎么嵌入业务场景?怎么把AI变成一个“能用起来”的东西?
但如果我们把时间尺度拉长,把视角从“终端部署”上升到“产业结构”,就会发现一个更加本质的问题:AI不是用不出去,而是养不起。
☆大模型=重资源,推理比训练更“烧算力”
一个GPT-4级别的模型,训练成本动辄上亿;但更难的是,它上线之后,每一次调用推理,都要消耗大量显存、IO、带宽、能耗。
当一个模型被嵌入搜索、客服、文档、代码、金融等上百个场景,它就不再是一个“智能体”,而变成一个实时运行的智能基础设施。
那就意味着:你不是要部署一个模型,而是要部署一个永远在线、海量并发、低延迟响应的“智能电厂”。
☆单点部署模式,撑不起AI的长尾需求
一体机、私有化部署方案,确实可以解决局部场景中的“安全性”焦虑,但它们存在天然局限:
算力是固定的,不能弹性扩容;
单位计算成本很可能高于云端集群;
模型无法实时更新、优化、回传反馈;
无法形成模型间调度、多任务分发、推理负载均衡机制;
这就像你用笔记本电脑当服务器,早期能跑,业务一上规模就崩了。
真正的AI应用,不是靠一台一体机能“扛下来”的,而是需要一个全局调度、按需供给、资源池化的超级智算平台。
☆超级智算平台,就像AI时代的“公路、电网和水利系统”
就像云计算时代是靠成千上万CPU服务器组成的资源池,支撑起SaaS、视频、社交、支付系统一样。AI时代的基础设施,是由万卡、十万卡GPU组成的智算集群,支撑起未来的:
1.多模态智能系统
2.复杂任务链条(RAG、Agent、代码生成等)
3.千亿级参数模型训练与热启动
4.海量推理服务请求并发响应
可以说,没有超级智算,就没有规模化的模型服务;没有弹性集群,就没有行业级的智能普惠。
因此,大模型时代的真正挑战,从来不在“怎么装进一台机器”,而在于如何支撑它不断演进、实时响应、广泛服务的算力系统设计能力。
国外已在冲顶,国内必须补课
当前全球AI发展的技术焦点,已经从“有没有模型”进入“有没有能力训练与服务更大的模型”。这背后的决定性力量,正是:谁掌握了最强、最大、最灵活的GPU智算集群。
在国外,已经开启了超级智算集群的军备竞赛,主流玩家包括OpenAI、微软、谷歌、xAI、AWS、甲骨文等。
先来看OpenAI,相对而言,超级算力平台才是“神助攻”。
我们看到GPT-4、Sora等模型引发世界级震撼,但真正支撑它们快速迭代的,不只是算法,而是超大规模智算资源调度平台:
GPT-4的训练据称使用了超过2.5万卡GPU集群,多节点并行训练,跨芯片同步; GPT-5、Sora背后据传动用了超过10万卡的算力平台,具备高吞吐、高带宽、高能效的特性。 微软为OpenAI建设的AI超级计算中心,正在不断扩容,目标是构建全球最大规模GPU调度系统。
再看NVIDIA,它不仅卖GPU,更在用NVIDIA DGX Cloud构建全球化AI计算平台,把“硬件公司”进化成了“全球智能电网的基建商”。
至于谷歌,其拥有全球最高性能的数据中心之一,TPU v4/v5集群提供PB级带宽,连接上万颗TPU芯片,为Gemini系列提供训练支持。其Borg调度系统几乎是AI训练的“智算操作系统”,支撑大模型训练过程中的负载感知、能耗均衡、任务迁移。
Meta也不甘人后,Meta公开称其拥有超过3万个GPU的训练平台,并继续投入扩展;构建了“开放模型+自建训练平台+高度优化Transformer栈”的组合模式。LLaMA系列模型能稳定快速迭代(LLaMA2到LLaMA3再到LLaMA4),背后靠的是可控的内部智算能力。
这就是为什么,真正的AI强国,不在于训练了多少模型,而在于:有没有能力持续训练、持续推理、持续服务世界级模型。
国外竞争如此激烈,那国内情况如何呢?
中国的头部科技企业其实早已意识到这一趋势,也在积极行动。例如:百度昆仑、阿里云、华为昇腾等团队都在尝试建立自主化智算中心;京津冀、长三角、粤港澳等地也在推进国家级“算力调度网络”建设;中科院、浪潮信息等机构构建了数千卡至万卡级GPU平台,提升大模型训练能力。
但必须正视现实,我们还存在诸多短板:芯片供应不稳定,限制了卡数规模;软件生态链条尚不成熟,调度系统、框架适配、系统稳定性仍待优化;高速互联技术(如NVLink、Infiniband等)依赖进口,成为集群扩展的物理瓶颈;成本控制、能效比优化尚未形成体系级能力
可以说,我们有“算力节点”,但还缺“超级智算平台”;有“GPU卡堆”,但还不具备“集群级AI服务的工业化能力”。
应该说,这是一场基础设施的军备竞赛。谁能率先构建起“十万甚至百万卡级别的智算底座”,谁就拥有对全球AI应用提供“基础电力”的能力。
就像当年AWS打下云计算江山的不是服务器数量,而是能提供全球弹性服务的能力;今天,AI产业要冲上顶峰,必须在智算基础设施上率先突围。
超级智算≠炫技,而是AI平台化的根基
在大众视角中,超级算力集群往往被看作是一种“技术奇观”或“军备竞赛”:烧钱、堆卡、拼配置。
但在AI真正的平台竞争中,超级智算从来都不是“炫技”,而是构建平台生态、能力服务与行业支撑的起点。
☆没有超级算力,就没有平台级AI能力飞轮
一个真正可持续运营的大模型平台,必须具备如下能力闭环:
1.持续训练能力——新模型、新任务、新数据的高频迭代
2.低成本推理能力——在千行百业中部署、调用、分发的服务效率
3.多租户、多模态调度能力——同时服务多个用户、多种任务场景
4.模型自适应优化能力——自动压缩、加速、蒸馏、迁移,提升模型实际服务能力
5.成本控制与能效比最优化——真正“商用可负担”
这五个核心环节,背后都依赖一套能力极强、调度灵活、规模庞大的超级智算平台。一旦缺失其中任一环节,模型服务能力就将断裂,最终只能走回“单点部署+人工交付”的老路。
☆超级智算的底层作用:成为整个AI生态的“基础电力网”
AI不再是单一功能,而是多模态、多任务、多角色并行运行的系统生态:
1.多用户同时使用AI客服、AI代码助手、AI设计助手、AI财务分析师……
2.后端必须支持千亿参数模型的多实例并发推理
3.还要保证任务A不影响任务B,任务B不拖慢任务C
4.同时,对响应时间、能耗、成本都有硬约束
这种复杂性,不是靠部署几台一体机就能解决的。这就像让一个小区用柴油发电机供电,你可以开一盏灯,但你绝对无法点亮一座城市。超级智算集群,才是AI时代点亮城市的电力中枢。
☆谁掌握智算平台,谁就掌握了“AI能力分发权”
与其说超级智算是大模型企业的“技术肌肉”,不如说是它们的平台门票。
没有它,你永远只能是模型供应商,是工具厂。
有了它,你才能成为服务运营商、生态组织者、平台规则制定者。
这就像AWS之于全球开发者,像英伟达之于AI开发者。未来的大模型领导者,不是“谁模型最好”,而是:谁能构建一个足够强大、足够开放、足够可靠的AI能力基础设施,承载整个智能社会的运转需求。
一体机是战术缓解,
超级智算才是中国AI的战略突破口
在当前中国AI产业语境中,一体机之所以火爆,不仅是出于市场现实的考量,更与算力供给不足、芯片受限、政策要求等复杂因素有关。
它短期内确实缓解了模型部署、数据出域、安全合规等实际问题,是一种权宜之计。
但必须承认:一体机解决的是“能不能用”的问题,超级智算解决的是“能不能赢”的问题。
☆一体机是一种战术妥协
满足本地化部署:符合金融、政务等行业对数据不出域的合规要求;
适配现有采购机制:企业客户“习惯买设备”,供应商“习惯交付项目”;
短期内快速回款:厂商可以通过硬件+服务打包,实现早期商业闭环;
但它无法解决以下问题:模型无法快速迭代更新;算力规模受限,难以支撑复杂多模态应用;推理成本高、资源利用率低、生态协同困难。
这种模式在商业化初期有效,但在AI能力成为产业基础设施的那一刻,它注定会被更大规模、更高效率、更具服务化能力的智算平台取代。
☆对中国AI来说,超级智算不是可选项,是国家战略任务
全球AI竞争的本质,已经不是“谁的模型更强”,而是“谁的算力底座更可控、更可扩、更可持续”。而这背后,考验的是一个国家的:
芯片自研能力;
高性能网络与互联技术;
绿色算力布局(能耗优化);
弹性调度系统与模型服务体系;
算力主权;
从这个角度看,一体机是小打小闹,而超级智算平台,才是真正意义上的“AI时代的工业母机”。
我们不能满足于“把AI跑起来”,我们必须追求“把AI持续跑下去,跑得更快、更远、更稳定”。
构建十万卡GPU级智算集群,
需要跨越哪些关键挑战?
当然,要构建万卡甚至十万卡GPU级别的智算集群,并不是一件容易的事情。
当我们谈构建万卡、十万卡GPU级别的超级智算平台时,它不只是一个“更大规模的服务器堆叠”问题,而是牵涉到整个计算架构、系统工程、调度算法、能源策略和生态组织的全面重构。
以下是六个必须解决的核心挑战:
1.GPU芯片与供应链:稀缺、依赖、替代
当前高性能GPU(如NVIDIA A100/H100/H200、GH200)高度集中在英伟达手中,国内无法自由采购,制约了大规模扩张能力;
自主替代芯片(如昇腾、昆仑、摩尔线程、地平线等)仍在成长中,与顶级GPU在生态、性能、功耗上尚有差距;
芯片只是底层,围绕芯片构建稳定的供应链、驱动栈、运维体系,更是极具挑战的工程。
要解决这个问题,需要在芯片国产替代、异构算力兼容适配、统一编程框架抽象(如统一的AI runtime)等方向努力。
2.高速互联:集群瓶颈的隐形杀手
在万卡、十万卡规模下,GPU间通信瓶颈成为训练/推理性能的“决定性短板”;
当前主流方案(如InfiniBand、NVLink、PCIe)均高度依赖海外供应;
数据在GPU间的“多跳复制”会引发延迟放大、吞吐下降,严重影响分布式训练和推理效率。
那如何解决这个问题呢?解决方向:国产高速互联方案研发(例如曙光“星辰互联”)、低延时拓扑设计、GPU调度与通信协同优化。
3.系统调度与弹性资源管理
要做好系统调度和资源管理,需要具备一系列的能力:大模型训练通常需要多节点同步、任务并行划分精细化、容错重调度机制;万卡调度系统必须支持:作业感知的任务编排;多租户模型调度;推理与训练分层调度;任务抢占与冷启动优化。
当前国内主流调度系统(如Slurm、Kubernetes、Yarn),很多未针对AI大规模分布式训练/推理场景进行深度优化。
未来,需要研发面向AI工作负载的“智算原生操作系统”,构建统一调度中枢(如OpenAI背后的Borg-like系统)。
4.软件栈与模型兼容性:从芯片到API的统一生态
超级智算平台不能只跑一套模型,它必须支持:多类型模型(语言、视觉、多模态、语音);多种框架(PyTorch、TensorFlow、MindSpore);多家厂商的异构芯片、模型、优化器、微调方案。
没有一套统一的“模型开发-部署-调度-监控”闭环系统,智算平台将成为孤岛式系统拼图。
因此,需要打造统一AI开发运行平台(如国内的昇思MindSpore),实现跨模型、跨芯片、跨框架的可移植性。
5.能效控制与绿色算力布局
10万卡GPU的功耗接近一个中型城市电网级别,面临:供电压力(1台GPU服务器功耗可达3–6千瓦);散热难题(大规模集群需定制液冷/氟冷系统);运维挑战(宕机影响大,难排查,热失控严重)等问题,要解决这些问题,需要从智能功耗感知调度、节能AI芯片的导入(如定制推理芯片)等方面着手。
其中,液冷技术就成为破局的关键。具体内容,可参见数据猿发布的文章《到了必须上“液冷”的时候了?》
6.服务化能力与商业运营闭环
除了技术上的挑战,构建良性商业闭环,也是一个关键课题。超级集群不是“科研项目”,而是要转化为“算力即服务(CaaS)”的商业基础设施,必须具备对外租户服务能力。同时,需要支持不同企业按需租用GPU,支持API调用推理服务,支持安全隔离、计费、运营、运维、监控全流程等。
在这个方向上,需要构建平台化运营体系,学习AWS/Azure的产品化能力,探索“模型即服务”+“算力即服务”的双轮运营机制。
可以看到,构建智算集群,不是把GPU插满机柜就行,而是打造一套支撑未来十年AI服务化浪潮的“智能操作系统级基础设施”。
在这个AI快速演进的时代,我们谈模型能力、应用落地、行业融合,几乎每天都有“新突破”“新概念”。但很少有人意识到:真正决定AI格局的,不只是谁能做出一个SOTA模型,还是谁有能力支撑它持续演进、规模部署、弹性服务。
而这一切的起点,归根结底,是超级算力。而且,超级算力不是“有多少块GPU”,而是:你能不能把它们组织起来,让它们像电网一样高效运转、像云平台一样弹性开放,像操作系统一样支撑千行百业。
过去十年,云计算的崛起改变了企业的IT结构,造就了AWS、Azure、阿里云、腾讯云、华为云这样的平台型巨头。
未来十年,AI智算的基础设施能力,将决定下一个平台秩序的主导者。
来源:数据猿