国产智算争相开启“万卡”元年，十万卡还远吗？

摘要：2024年，我国智算中心建设进入全面发力阶段，最明显的感受就是万卡集群项目在加速建设。所谓万卡集群，是指由一万张及以上的加速卡（如GPU、TPU或其他专用AI加速芯片）组成的高性能计算系统，用来训练基础大模型。这种集群充分整合高性能GPU计算、高性能网络、高

2024年，我国智算中心建设进入全面发力阶段，最明显的感受就是万卡集群项目在加速建设。所谓万卡集群，是指由一万张及以上的加速卡（如GPU、TPU或其他专用AI加速芯片）组成的高性能计算系统，用来训练基础大模型。这种集群充分整合高性能GPU计算、高性能网络、高性能并行文件存储、智算平台等关键技术，将底层基础设施整合成为一台“超级计算机”，可支持千亿级甚至万亿级参数规模的大模型训练，有助于大幅压缩大模型训练时间，以实现模型能力的快速迭代。模型参数量从千亿迈向万亿、泛化能力更强，对底层算力的诉求进一步升级，是推动万卡甚至超万卡集群建设的主要动力。今年以来，不止一次听到从业者这样形容“万卡集群”：是这一轮大模型竞赛的入场券、是这一轮大模型基建军备赛的标配……走过2024，我国万卡集群究竟如何？对比国际主流厂商情况如何？

国产万卡集群建设，元年开启AI大模型的热潮持续蔓延，智算基础设施需求水涨船高。小米搭建GPU万卡集群的消息引起广泛关注，其实也并不意外。当前阶段，算力集群扩张是AI技术进步的必然结果。我国智算建设仍处于窗口期，满足AI训练需求的万卡/超万卡集群仍较为短缺，特别是核心厂商的大规模/超大规模智算中心仍是稀缺资源，将是带动行业新一轮成长的重要力量。截至今年6月，我国已建和在建的智算中心超250个。《中国综合算力指数报告（2024）》显示，过去20年间，我国智能算力需求增长超过百亿倍，这一趋势使得算力中心正朝着万卡规模迈进。当前，火热的大模型技术和面向行业场景化的创新AI研发，都离不开算力资源的有力支撑。特别是在训练端，大模型仍延续了Scaling Law的主流技术路线：通过算力、算法、数据的深度融合与经验积累，实现模型性能的飞跃。在Scaling Law方向下，需要单点规模够大且通用的算力才能快速跟上技术演进。万卡集群就成为了破题方法之一。这种集群将充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术，将底层基础设施整合成为一台超级计算机，进行千亿级甚至万亿级参数规模的大模型训练。梳理了国内主要万卡集群项目，可以看到产业多方都在万卡、甚至超万卡集群领域进行广泛布局，涵盖从芯片研发到大规模AI模型训练的多个方面，主要以四类企业为代表，包括：AI芯片企业、大型AI研发企业、电信运营商、互联网企业。

表：国内部分万卡集群项目和建设情况（来源：公开资料、各企业官网/官微，整理，2024年12月）

国内外巨头赛事，十万卡成为新门槛全球范围内，科技巨头均在加速布局超大规模的智算中心。特别是在美国市场，巨头的算力竞争门槛已达到十万卡规模，以推动在基础大模型、智能算法研发及生态服务等方面的技术创新。如谷歌推出超级计算机 A3 Virtual Machines，拥有 26000 块H100 GPU，同时基于自研芯片搭建TPUv5p 8960卡集群；Meta在2022年推出了拥有16,000 块NVIDIA A100的AI研究超级集群，2024 年初又公布2个24576 块的H100集群，用于支持下一代生成式AI模型的训练；马斯克的xAI今年7月已建成十万卡集群，并将在未来几个月内再增加10万卡。从大模型的角度来看，今年全球头部厂商(包括谷歌、Meta、Open AI 等)发布的大模型或者新版本，性能都较去年有明显提升，这是持续拉动AI算力芯片和超大规模集群扩张的主要动力。由于投入资源和芯片上的限制，中国厂商在十万卡方面的表现并不激进。不过，在客户快速增长的需求下，他们也在分步走向十万卡集群。目前看来，以华为、百度、字节跳动、阿里为代表的国内企业，正在探索十万卡集群的可行性。目前，百度的百舸4.0通过HPN高性能网络、自动化混训切分策略、自研集合通信库等一系列产品技术创新，已经能够实现十万卡集群的高效管理。腾讯今年宣布了自研星脉高性能计算网络全面升级，星脉网络2.0搭载全自研的网络设备与AI算力网卡，能够支持超10万卡大规模组网，网络通信效率比上一代提升60%，让大模型训练效率提升20%。阿里方面也释出消息，阿里云可实现芯片、服务器、数据中心之间的高效协同，支持10万卡量级的集群可扩展规模，已服务全国一半的人工智能大模型企业。相比BAT，字节跳动的智算布局更为野心勃勃。2024年，字节资本开支达到 800 亿人民币，而BAT总开支约1000亿人民币。更令人瞩目的是，到2025年这一数字将翻倍至1600亿人民币，其中900亿用于AI算力采购，700亿投向数据中心基础设施建设及配套硬件。第三方研究机构测算，以400T(FP16)AI算力卡为标准，字节当前的训练算力需求约为26.73万张卡，文本推理算力需求约为33.67万张卡，未来，潜在的推理算力需求有望达到230万张卡以上。国产十万卡集群建设，哪些难题待解？传统云计算时代，基础设施是以CPU为核心的体系，核心点是极致弹性、极致性价比，最大的驱动力往往是提效降本。到了大模型时代，基础设施转向了极致高密、极致互联与极致规模，这是一个全面追求技术创新，驱动整个业务大发展的阶段。国产十万卡集群的建设，绝非易事，涉及技术突破、战略合作等众多产业难题，需要一个逐步推进的过程。从当前万卡集群的建设经验来看，充分发挥集群的性能与效率是核心突破点。针对大模型分布式训练场景，集群规模的线性提升无法直接带来集群有效算力的线性提升，卡间和节点间的互联网络、软件和硬件的适配调优是追求集群极致有效算力的关键挑战。这是因为训练领先的大模型需要超万卡规模集群。但是，就像“多人多足”游戏，要整齐划一地实现像一个人一样行走并不容易，更何况是要调度上万张卡作为一个整体高效工作、实现性能的线性扩展、保障任务不间断，这对集群的设计、调度、容错都是巨大挑战。可以把集群有效算力分解为GPU利用率和集群线性加速比两个指标来看待。其中，GPU利用率主要由芯片架构、制程、内存、I/O访问瓶颈、卡间互联带宽等因素决定；而集群线性加速比则取决于节点间的通信能力、并行训练框架、资源调度等因素。这其实意味着，即使先进万卡、十万卡GPU在手，仍需要优良的系统工程方法，来对集群进行精细化的设计和软硬件的全栈整合优化。除此之外，还要应对高能耗挑战、建设运维的挑战等等。目前对于十万卡集群的建设挑战，百度总结得较为客观，认为主要包括：跨地域部署、多芯混训以及集群稳定性等难题。特别是多芯混训，既是发展难题，也是我国十万卡集群的必经之路。国产算力开启“多芯混合”时代国内构建超万卡集群面临着一个非常现实的困难——芯片。对于国内市场来说，十个大字可以总结英伟达的算力卡供应，就是“想卖卖不到，想买买不到”，这十个字不仅扎心地伴随了我国大模型产业的崛起，还将继续横亘在接下来的产业道路上。我国服务器厂商其实早已开始积极推进多元异构、多芯混合的策略，比如浪潮信息。随着AI大模型的不断增长，算力资源紧缺，也推动了互联网厂商开始实施多芯混合战略。一方面，多芯混合可以提升训练速度、更好地利用内存、降低昂贵GPU的使用成本；另一方面，在我国高端算力芯片获取受限的情况之下，多芯混合策略能够降低对高端GPU的依赖，缓解芯片供应链问题，进一步驱动国内算力产业的增长。目前，包括百度、阿里、无问芯穹、中国移动在内的互联网厂商、算力运营商以及电信运营商等，正在破解这些难题。在多芯混训方面，百舸能够将不同地点、不同规模的异构算力进行统一管理，构建起多芯资源池。当业务提交工作负载时，可自动进行芯片选型，依据集群剩余的芯片资源，选择性价比最高的芯片来运行任务，从而最大化地利用集群的剩余资源。最终，可实现高达95%的万卡多芯混合训练效能。无问芯穹已经发布了全球首个千卡规模异构芯片混训平台，具备万卡扩展性，支持包括英伟达、AMD、华为昇腾、天数智芯、沐曦、摩尔线程六种异构芯片在内的大模型混合训练，性能损失最小低于10%。中国移动的“芯合”异构混合并行训练系统 1.0，可支持多品牌万卡集群。该系统具备基于非均匀计算任务切分ITD算法的3D并行策略和基于GDR（GPU Direct RDMA）的异构芯片高速通信能力，能够提升训练效率。中国移动的合作伙伴涵盖华为、瀚博、澎峰等企业。写在最后超万卡集群建设不仅是对我国智算产业需求的响应，更是对AI技术发展路径的预判。如今，在科研、汽车、教育等领域，智算基础设施已经成为不可或缺的战略支撑。通信运营商、互联网企业、大型AI企业、AI初创企业等均已争相迈入“万卡”集群时代，市场需求的不断增长的和他们下一步的技术革新，都将成为我国超万卡集群建设的重要动力。可以预见的是，在万卡向十万卡迈进的过程中，如何保持智算集群的线性度、稳定性，同时保证调度的效率，是从业者将持续关注的重点。如果说2024年是我国万卡集群的元年，2025年，你看好十万卡集群的到来吗？

来源：与非网

标签：智算集群国产智算

本文地址：https://news.43u.com.cn/a/301399.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!