摘要:越来越多的场景需要随取随用的算力,赋予它们变革场景的力量;越来越多的行业,需要澎湃且及时的算力服务,给予它们走向创新的力量,这就需要算力像自来水一样随取随用,承载运力的智算网络就变得至关重要。
数字经济时代,智算作为“底层驱动力”正在改变千行万业,并对经济社会的发展产生广泛且深刻的影响。
越来越多的场景需要随取随用的算力,赋予它们变革场景的力量;越来越多的行业,需要澎湃且及时的算力服务,给予它们走向创新的力量,这就需要算力像自来水一样随取随用,承载运力的智算网络就变得至关重要。
此前发布的《中国运力发展报告(2024年)》中指出:我国高度重视智算产业发展,坚持“网络强国”战略,推动算网协同布局,促进前沿技术应用,引导智算高质量发展。在政策和产业的共同驱动下,我国智算发展取得积极成效,已进入到由规模增长向品质提升的全新阶段。
从去年开始,AI大模型的出现,让智算的需求指数级提升,由于AI应用更强调实时在线和确定性联接,同时AI训练场景对数据的吞吐量和一致性有极其严格的要求,这就对智算网络的承载能力提出了新的挑战。
因此,一场从传统网络向智算网络升级的变革正在发生。
从传统网络向智算广域网络跃迁
“算网”的概念始于2019年,在当时通信行业提出算力网络的理念,倡导将算力融入网络,以网络作为纽带,融合人工智能、大数据、区块链等通用目的技术组合,使得算力通过网络连接实现云-边-端的最优化协同与调度,最终实现有网即有算。
近年来,得益于应用场景的广泛性,算网的发展速度一直很快,比如“东数西算”就需要算网作为推动其纵深发展的重要基础。
同时,算网是一个强调以网络为中心,通过网络对算力的感知、触达、编排、调度能力,去提供算力服务的模式,因此对运营商来说是一个重要的转型契机。
实际上,运营商本身就具备算网的发展优势。比如,三大运营商都有包括枢纽算力资源池、省级算力池、地市算力池和区县边缘算力池在内的算力资源,这些计算资源比较容易满足用户个性化的算力需求。
而智算时代的到来,则为运营商向智算广域网络演进带来了新的挑战与机遇。
当前算力服务使用最典型的三个场景是:样本上传、存算拉远和协同训练。
样本上传是指将大量的数据样本(如图像、文本、音频等)通过网络传输到智算中心进行存储和处理的过程,这些数据样本是人工智能模型训练和优化的基础,要求网络提高数据传输的速度和稳定性,使得样本上传更加高效。
存算拉远则是指指将存储和计算资源分离,并将存储设备放置在远离计算设备的位置,通过高速网络进行数据传输和访问。这种技术可以优化数据中心的设计和资源利用,提高系统的整体效率和可靠性。存算拉远通常使用100G~400Gbps的网络连接,确保数据在存储和计算设备之间的快速传输。
协同训练简单的说,是指大模型训练可以在多个地点进行分布式训练,不仅能够减轻单一地点的压力,还能提高训练效率。这就对确定性的网络的建设提出了更高要求。随着以ChatGPT为代表的大模型带来算力需求飙升,动辄万卡或十万卡规模的智算中心并不鲜见,运营商开始将不同地域的算力资源进行整合,打造超大智算集群,但由于跨DC联算的计算效率对于数据丢失十分敏感,跨上千公里的算力资源无损传输对于网络可靠性提出了新的考验。
同时,智算数据量指数级增长与传统网络承载能力之间存在着差距,大模型带来的算力服务需求存在算力服务效率与投资不成正比的问题,这些挑战存在于大数据训练、跨数据中心联算以及海量样本上传等多个智算场景中。
AI时代的每一个场景之变无一不对网络的可靠性和确定性提出新挑战,传统的网络已难以应对技术的发展,向智算广域网络的跃迁在所难免,而运营商们也已经为此投入了丰富的实践。
运营商在智算广域网的探索与实践
今年的两会《政府工作报告》提出:要深入推进数字经济创新发展,制定支持数字经济高质量发展政策,积极推进数字产业化、产业数字化,促进数字技术和实体经济深度融合。适度超前建设数字基础设施,加快形成全国一体化算力体系。
全国各地区也在推动智算体的建设,2024年3月上海市通信管理局会同市委网信办、市发展改革委、市数据局等十一部门研究制定了《上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案(2024-2025年)》,旨在发展以运营商为代表的数据智能产业生态,建成具有区域乃至全国影响力的智能算力创新及应用示范区。
为响应政策的号召和市场的需求,上海电信联合华为打造了业界首张端到端400GE的IP智算广域试验网络,部署RDMA(Remote Direct Memory Access)广域无损传输、新型智算业务流级调度算法、网络数字地图等技术,为千行百业提供高弹性、高吞吐、高可靠的一跳入多算网络新服务。
同时,从技术上充分满足了几个关键场景的高要求。
首先,在海量样本快速入算场景,上海电信将为企业用户提供100Mbps~100Gbps IP弹性伸缩算网专线,基于“时间+数据量”的创新服务模式,满足了企业TB/PB级别样本数据当天达、小时达的快速入算诉求。
其次,在存算分离拉远训练场景,上海电信智算新平面提供存算分离拉远训练服务,实现超120KM广域RDMA无损传输,网络有效吞吐率提升至90%以上,AI大模型拉远训练算力效率损失小于5%。
我们知道传统广域网数据在传输过程中丢包现象非常普遍,但对于大模型训练而言,这就是不可承受之重。一旦有丢包,就要重新迭代训练。
上海电信的这张智算广域网络,最大的特征就是“广域无损”,在运力提升的同时,算效不下降。上海电信是采用了华为的智算广域无损解决方案,将网络运力提升4倍,引入RDMA广域无损、租户级精准流控等技术,从而满足海量样本快速入算、存算分离拉远训练等场景,充分释放了智算中心的算力效率。
以网强算,是在赢在AI时代的关键
网络演进的历史告诉我们,技术演进的巨轮一旦启动,总是不断加速向前。
如新质生产力的发展,对算力资源的需求呈指数级增长。这要求网络具备高效、灵活、可扩展的算力调度和分配能力。同时对自动驾驶等算力的实时性要求极高的场景,网络需要确保算力资源能够迅速响应并满足这些需求,新质互联网的理念就是为了适应智算网络时代的需求而诞生的。
今年7月,“新质互联网”在第三届中国IPV6创新发展大会上被首次提出。它可以是满足高质量、高效率、高智能、高安全的基础网络特征的新技术体系,也是适应新质生产力发展的网络新底座。
新质互联网将会驱动整个网络架构进行深刻的变革,从物理网络层、逻辑网络层到运营管控层的变革会逐渐到来,智算网络显然可以为新质互联网提供强大的场景支撑。上海电信的案例,就很好的解决了新质互联网在智算广域网在传输效率上的难题。
面对当下日益高涨的智算需求,运营商将会承担向千行万业输送算力的重任,而对于运营商来说,构筑强大的智算网络,实现以网强算,是其在赢在AI时代的关键。
来源:科技正能量