摘要:中国经济正在向“新”而行。从中央到地方,一系列支持新质生产力发展的举措相继推出。新质生产力的发展呼唤更加高质量、高效率、高智能、高安全的基础网络来承载。业界将这一新型的网络技术体系称之为“新质互联网”。
中国经济正在向“新”而行。从中央到地方,一系列支持新质生产力发展的举措相继推出。新质生产力的发展呼唤更加高质量、高效率、高智能、高安全的基础网络来承载。业界将这一新型的网络技术体系称之为“新质互联网”。
“新质互联网”不仅仅连接传统的网络用户、系统、应用,而且要进一步连接算力资源、数据,并不断扩展其物理空间范畴;其业务模型不仅仅是信息的访问,而更多表现为信息的产生、爆发、重组、流动,从而极大地改变网络的整体结构和技术需求。目前看来,新质互联网主要面向联算,联智,联数,联空4大场景。在以新质生产力为支撑目标的前提下,“新质互联网”体现了人工智能与网络协同发展的趋势,进一步扩展了网络的连接主体和服务形态,并在新场景需求中不断带动网络的技术创新。
“联算”场景呼唤新质联接力
算力资源是数字经济时代的核心基础设施,对促进经济增长、推动科技进步以及满足日益增长的数据处理需求具有至关重要的作用。随着ChatGPT引爆大模型热潮,让人类看到了通用人工智能“生成创造世界”的曙光,也促使人们对人工智能加快社会各领域数字化转型及智能化发展,促进全社会生产效率提升,抱有极高的期望。算力资源既是智能时代的“引擎”,也是智算时代最宝贵的资源。智算广域网在算力供给者和用算企业和用户之间架起连接的桥梁,同时也是连接不同数据中心之间算力资源的网络,从算力服务使用场景上需要关注入算、算间、算内、三张网络。
入算网络,需要具备差异化调度和调优能力
当前数智化企业已成为经济增长的主要引擎,融入AI算力是企业进行数智化转型的必然路径。2023年10月工业和信息化部等六部门印发了《算力基础设施高质量发展行动计划》,发文中首次提出了入算网络概念,并明确弹性大带宽接入、确定性承载、高安全可靠是算力网络的基本特征。
入算网络作为智算承载平面,连接大量企业、科研机构与算力中心,需要具备差异化调度和调优能力,满足海量数据高效入算。AI大模型训练催生大数据入算需求,模型数据集通常需要数十GB到数百TB的数据。典型如某车企每天上传一次100T~160T数据,年数据量约38PB;某基因公司每天上传一次15T数据,年数据量约4.5PB。
大数据量入算对网络的挑战主要在三方面:一是接入带宽挑战,大数据量上传百兆专线耗时太长,万兆专线成本太高;二是网络利用率挑战,大数据入算产生大量大象流,现有网络负载均衡策略中无法区分出智算业务流,将由于流量不均衡而造成网络利用率的大幅下降;三是数据安全挑战,部分企业敏感数据需要入算训练,但又不希望异地存储造成可能的泄露。这些挑战导致目前90%以上的企业还都选择寄硬盘方式传递数据。因此,新质互联网给需要企业构建一张更具备性价比和安全传输的入算网络,提供任务式服务的高弹性,提升整网带宽利用率,并实现数据的高安全传输和数据主权保护。
因此,“入算”需要具备超宽、弹性、高吞吐、无损、安全的新质联接力,为千行百业提供高效智能算力服务,也是“新质互联网”核心竞争力所在。
算间网络需要实现多智算中心间的高速互联,突破地域限制,通过高吞吐,长距无损协同,有效提升算卡资源利用率。大模型智算需求快速增长,由于电力资源等原因限制,单数据中心算力资源规模受限,业界大模型厂商采用多数据中心资源联合训练大模型。
另一方面,当前国内普遍是干卡集群,单体无法满足万卡训练诉求。通过构建多数据中心协同训练能力,城市内多智算中心、区域内(区域省份间)、区域间(国家算力枢纽间)算力可实现高效协同,实现碎片化算力整合利用,提升算卡利用率,支撑更大模型的训练和缩短模型训练时间。多DC互联网络需要具备长距无损、高吞吐的能力,以支持算间协同,突破地域限制,整合全国算力资源。由于跨DC联算的计算效率对于数据丢失十分敏感,0.1%的丢包会造成50%的算效损失,跨上千公里的算力无损传输对于网络可靠性提出了新的考验。需要引入更智能的流调度算法来充分释放AI算力,还要有基于租户级的流控技术防止拥塞在大网上扩散。
算内网络,需要超大规模组网、无损高吞吐和智能容错
算内网络要实现数据中心内算卡的互联,需满足单数据中心算卡从百卡到万卡、十万卡的超大规模集群连接,需要具备超大规模组网、无损高吞吐,以及智能容错能力。生成式人工智能训练的第一性原则就是Scaling law,即大模型的智能水平与模型参数、数据样本和算力三个因素成正比。业界推测GPT-4 参数量约1.8万亿,训练中使用了大约 2.15e25 FLOPS算力,训练集群使用约25,000 个A100 GPU。随着模型参数量从干亿到万亿、十万亿的增长,模型训练使用的算力卡也从万到十万发展,对数据中心网络提出了超大规模组网调度、超高吞吐、无损传输、快速故障闭环的要求,以实现算力效率的100%释放。
不难看出,“新质互联网”需要构建入算,算间,算内三张网络,构建多级推理中心和高质量的边端网络构建高速连接的数据网络,构建空天地一体的全域覆盖网络。如今,各地已经纷纷行动起来——
中国电信上海公司联合华为打造了业界首张端到端400GE的IP智算广域试验网络,部署RDMA(Remote Direct Memory Access)广域无损传输、新型智算业务流级调度算法、网络数字地图等技术,为千行百业提供高弹性、高吞吐、高可靠的一跳入多算网络新服务。同时上海电信大力探索存储和算力资源跨广域部署的“存算分离”新模式,实现了120km存算分离拉远场景下,AI大模型训练效率高于95%,攻克了企业租用算力服务进行模型训练,敏感样本不在园区外落盘的技术难题。
“新质互联网”是国内产业界在总结新产业需求、新应用领域、新技术方向的基础上提出的数据通信网络技术体系,是适应新质生产力发展的网络新底座,是智能化时代网络技术升级的演进新方向,服务于全社会的数字化转型和高质量发展。智算广域网了融合智算时代的最新关键技术和能力,将为“新质互联网”打好根基,为新质生产力的发展保驾护航。
来源:勇敢说