摘要:随着DeepSeek近期突破占据头条,一个更深层问题浮现:中国政府是否真的在推动通用人工智能(AGI)发展?如果是,其在算力分配中可能扮演什么角色?
本文剖析一个关键悖论:中国如何同时存在算力过剩与短缺?这对中国是否准备好迈向AGI研发部署下一步意味着什么?
随着DeepSeek近期突破占据头条,一个更深层问题浮现:中国政府是否真的在推动通用人工智能(AGI)发展?如果是,其在算力分配中可能扮演什么角色?
虽然DeepSeek的成就表明,对于算法进步而言,获得超出对冲基金拼凑能力的算力可能并非即时瓶颈,但实际情况更为复杂。西方实验室仍在竞相建设10万GPU规模的巨型集群(更不用说"星际之门"项目),希望实现大规模AGI研发部署,而DeepSeek的CEO多次表示正面临算力约束。
本文剖析一个关键悖论:中国如何同时存在算力过剩与短缺?这对中国是否准备好迈向AGI研发部署下一步意味着什么?
自2024年初以来,陆续出现中国计算中心闲置的报道。9月份,中国云端租用英伟达AI芯片价格低于美国。
表面看这有违常理。在美国限制中国获取先进AI芯片后,理应出现芯片短缺、物尽其用和云端高价现象。
为何在当下1万GPU集群时代
中国已现过剩?
究竟发生了什么?
这个谜题也引起了中国记者关注。本文综合了去年11月两篇中文长文观点。
2024年中国新增至少100万枚AI芯片(70%英伟达,30%华为)——理论上足以建设数个10万GPU规模的集群(这可能是与GPT-5或其他西方下一代模型竞争所需的基础)。
但为何在当下1万GPU集群时代中国已现过剩?
解释一:芯片部署不当,导致"高质量算力"短缺与"低质量算力"过剩并存。
AI热潮中,许多企业和地方政府匆忙采购GPU,认为拥有即能获利。但由于缺乏技术和市场专长,芯片最终分散在难以使用或需求匮乏的低质量数据中心。这种投机行为和资源错配导致整体短缺下仍出现闲置计算中心。政府对此的回应是,不再批准新建数据中心的许可,除非它们位于八个指定枢纽之一。行业整合与专业化将使同类混乱不太可能阻碍2025年中国数据中心建设。
解释二:短期过剩,长期短缺
到2024年,基础模型训练需求显著放缓。许多2023年匆忙开发基础模型的企业已停止新一代训练。虽然推理需求快速增长,仍不足以完全消化前期训练专用产能。未来,推理需求上升和更大基础模型开发预计将引发新短缺。当前的临时过剩"过渡期"预计2025年中结束。
谁是AI计算中心主要建设者?
《财经》首先概述中国算力集群建设主体,主要分为三类:
大型科技企业(阿里、腾讯、百度):预计2024年合计资本支出超1300亿元;国有电信运营商(移动、电信):2024年计划投资845亿元;地方政府与国企:数据不完整,但2024年1-10月至少投资275亿元。大型科技企业
《财经》认为资本支出是衡量计算中心投资的良好指标,因为资本支出通常用于购买芯片和租赁土地。
2024年上半年,阿里、腾讯、百度三家资本支出合计达到504.4亿元,同比增长121.6%。这是2018年以来的最高增速。若延续上半年增长趋势,2024年三家企业资本支出总额将超过1300亿元。值得注意的是,华为、字节跳动也运营大型计算中心。但由于未上市,未披露相关数据——这意味着"大型科技企业"类别的总投资实际高于本文数据。
预计DeepSeek未来数月将效仿OpenAI与微软的合作模式,与其中某家企业建立深度绑定。钛媒体曾报道称,字节跳动正"考虑与DeepSeek开展研究合作"。与字节合作可能为DeepSeek研究人员打开巨大机遇,使其获得数量级提升的算力资源。
来源:财经杂志商业评论《中国算力,过剩了吗?》
2024年上半年,英伟达在中国市场实现61.6亿美元营收(约合437亿元),同比增长42.3%。由于国内科技企业仍主要依赖英伟达芯片,这些数据为估算中国主要科技企业芯片采购量提供了另一参考维度。
来源:财经杂志商业评论《中国算力,过剩了吗?》
国有电信运营商
《财经》指出,自2023年起,国有电信运营商投资重心已从5G转向算力中心建设。事实上,其投资规模与上述民营科技企业差距并不悬殊。
中国移动与中国电信均披露了2024年算力投资计划,其中移动计划投资475亿元,电信计划投资370亿元。二者合计845亿元的规模,同比增速达13%。中国联通未披露相关数据,使得该领域统计同样存在缺口。
中国移动已公开发布两次公开招标采购公告。两份采购文件显示,招标涉及超9200台华为昇腾AI服务器(单台昇腾AI服务器通常搭载4-8块GPU,即对应约3.6万至7.4万块GPU)。中标方均为国内知名昇腾系经销商,包括昆仑、华鲲振宇、宝德、百信、长江、鲲泰、湘江鲲鹏、四川虹信软件等。有文章指出,中国移动2024年建设的计算基础设施85%依赖国产芯片。
《财经》提醒称,即便是这些国产芯片仍依赖全球供应链:
华为相关人士今年9月向我们透露,虽然英伟达H20芯片目前仍在对华销售,但必须做好最坏情况准备,因为供应链随时可能中断。华为昇腾910系列芯片依赖韩国SK海力士供应的高带宽内存(HBM)。当前国内既缺乏有效替代方案,也缺乏可靠的HBM供应。在极端情况下,若SK海力士HBM供应链中断,昇腾910芯片的产能也将受到影响。
来源:财经杂志商业评论《中国算力,过剩了吗?》
地方政府与国企
该领域数据统计最为混乱且不完整。《财经》统计显示,截至2024年10月16日,各地已启动至少30个AI计算中心招标项目,总投资额至少达275亿元。
来源:财经杂志商业评论《中国算力,过剩了吗?》
中国算力规模几何?
基于上述投资数据,《财经》给出谨慎估计:2024年中国新增70万枚英伟达H20芯片;30万枚国产华为芯片。文章同时提及Semianalysis的更乐观估计: 超100万枚英伟达H20;55万枚国产(如华为)芯片。但据《财经》了解,多数中国业内人士认为后一估算可信度不足。
无论是哪种情况,中国都已具备建设多个十万卡集群的GPU储备。作为参照,Epoch AI估计仅谷歌一家就运营着超过100万枚芯片。
钛媒体估计2024年上半年,国内智能计算中心交付量达17亿卡时,实际使用5.6亿卡时,利用率32%。其他数据显示,算力基础设施行业机架平均上架率目前不足60%。
不同运营主体利用率差异显著,提高通过云服务提供的算力资源占比能有效提升智算效能。阿里云、华为云已就此向多个政府部门提交建议。
公有云服务合理利用率在40%-60%之间,政务云服务利用率在25%-40%,但私有化计算资源利用率普遍不超过5%。
"伪万卡集群"乱象
单纯拥有GPU并不足够。中国在2023-2024年建设万卡集群过程中,存在大量高效合理配置问题。
阿里云智能科技研究中心主任安琳指出,当前中国存在三类"万卡集群":
假万卡集群:技术层面拥有超万枚AI加速卡,但GPU分散在不同地域的多个数据中心。每个数据中心可能仅部署数百至数千卡,总量虽超万卡却无法形成统一集群。
伪万卡集群:单一数据中心部署万枚AI加速卡。虽物理集中,但未通过统一资源池化技术实现整体调度。部分GPU用于训练模型A,另一部分用于模型B。
真万卡集群:通过大规模资源池化技术,将单数据中心超万卡GPU实现统一调度。所有GPU可视为整体资源,支持单个大模型进行万卡级训练。
建设真万卡集群需攻克三大技术难关:
支持海量数据吞吐的高性能网络;实现资源高效利用的调度系统;应对高频硬件故障的稳定运维。AI热潮中,许多企业和地方政府盲目采购GPU,误认为硬件堆砌即具竞争力。由于缺乏技术能力,催生出大量"假万卡集群"和"伪万卡集群"。据钛媒体报道: "囤英伟达卡确实存在算力浪费。许多购买方根本不具备智算中心所需的组网、调度、运维能力。该领域技术专家直言'投机套利太多,很多人根本不是这个行业的——以为囤积硬件就能赚钱。塞进某个数据中心,但稳定性、容错性等技术问题都没解决,造成大量浪费'。"部分国内小型云服务商低价供给算力的本质,可能是低质服务倾销。
政府应对举措
中国政府已清醒认识到2023年至2024年初数据中心无序建设造成的资源浪费,正通过主动调控延缓新建项目。
据钛媒体报道,国家发展和改革委员会(NDRC)已停止审批新建数据中心能耗指标。除非符合国家"东数西算"工程八大枢纽节点布局且使用华为芯片的项目方可获得例外批准。
党媒《科技日报》头版文章《智能计算中心建设不能盲目跟风》指出:"智算中心的运营管理高度依赖专业技术人才和高效管理团队。若无这些支撑,智算中心可能难以有效运转,甚至导致设备闲置和资源浪费。
因此,智算中心建不建、何时建、建在哪里,都需要科学审慎决策。必须避免'羊群效应'或'跟风建设'。总体原则应基于明确且持续的市场需求,因地制宜适度超前规划。"
地方政府正提高承建方准入门槛:"部分地方政府已强化智算中心运营要求。例如山东德州某约2亿元项目,招标文件明确采用'设计施工采购运营一体化模式',要求运营期不少于五年,并规定项目验收投用后年度算力营收最低标准。"
云轴科技CTO王为表示,政府对智算中心要求明显提高。过去仅需建设即可,现在要求具备运营能力的承建方或采用建运一体模式确保算力使用率。一位业内人士称:我们甚至不知道国内有这么多GPU。某种意义上,算力稀缺与资源错配并存。
工信部近期在六个城市开展"云边端一体化智能算力应用试点",旨在解决各地前期智算中心建设特别是国有资金建设"小散"计算中心资源浪费问题。
除政府举措外,文章指出随着市场成熟与投资策略调整,低质低效主体(如部署次优或闲置系统者)或将自然出清。市场优胜劣汰机制将逐步解决算力闲置问题。
国产芯片更易闲置?
文章对国产芯片在算力闲置悖论中的作用传递出复杂信号。
《财经》指出,闲置问题最突出的集群恰恰来自国有移动运营商和地方政府。部分原因在于其使用国产芯片:"国产AI芯片的情况更为特殊。当前国产AI芯片仅实现'能用',距离'好用'尚有差距。盲目使用只会造成算力空转,需通过多种技术手段适配优化。"
钛媒体同样描述华为芯片面临的生态挑战,但援引业内人士观点认为这是必经阵痛:"一方认为国产智算中心仍依赖海外生态,需要3-5年过渡期。在此期间大规模快速建设易导致严重浪费...专家指出国产AI计算存在效能损耗:'华为运营能力极强,但在用户未准备好使用国产GPU或华为方案前,华为投入大量资源建设计算集群和智算中心。运营商建设万卡集群,但硬件到位与实际有效使用存在落差。随着更多国产芯片入市,这类损耗可能更突出。'
另一方认为海外限制只会更严,国产AI计算生态必须加速成熟。相较于国家战略竞争,建设过快引发的次要问题可以接受.。不过也有人对国产GPU整体持乐观态度。大模型时代的算力趋势已变——此前AI模型碎片化严重,英伟达CUDA生态因需支持众多模型占据优势。如今大模型趋于集中,主流框架更统一。同时英伟达GPU价格畸高,算力获取困难,更多人愿意尝试国产GPU。
从训练到推理需求转换
2023年无数企业涌入基础模型研发,催生全国计算中心建设热潮。2023年算力短缺源于'百模大战'引发的训练算力需求井喷。美国出口管制加剧供给紧张,企业恐慌性采购更激化供需失衡。某头部科技企业战略规划部人士2023年8月透露,其公司当年以英伟达官方定价1.5-2倍价格采购市场A100/A800、H100/H800芯片,甚至从中小型分销商处收购散装囤货。
但到2024年,众多企业已放弃基础模型研发,训练需求骤降。这意味着行业资源正加速向少数头部集中。据钛媒体统计,截至2024年10月国内通过官方备案的188个大模型中,超30%备案后无后续进展,约10%仍在坚持训练,近50%转向AI应用开发。
《财经》印证该趋势:需求结构正在变化。到2024年,随着企业囤积芯片渐多,算力逐渐充裕。模型训练需求开始放缓,应用推理需求尚未爆发。此时出现过渡性'空窗期'。
当前国内阿里、字节、百度等科技企业旗舰模型性能已逼近OpenAI GPT-4。由于GPT-4后新一代模型尚未真正出现,追赶GPT-4的任务基本告终。因此,国内主要科技企业已暂时放缓模型训练。
2022至2027年间,训练算力占比将降至27.4%,推理算力占比升至72.6%。
但推理需求正在快速增长。百度token消耗量从2024年5月的2500亿激增至8月的1万亿,增长四倍。字节跳动同期其模型token消耗量甚至增长十倍。
这一切暗示未来终将再现短缺。“过渡期”长短取决于两个因素:其一是下一代模型训练竞赛何时开启;其二是推理算力需求增速,这取决于AI应用采纳渗透速度。
科技企业技术专家预测,该过渡期或持续至2025年中,但整体不会很长。
作者:CC
来源:傅里叶的猫
原文链接:https://www.chinatalk.media/p/chinas-weird-chip-surplus-explained图片来源:财经杂志商业评论
编辑:陈美珊
来源:中和碳研究院