上海电信联合华为打造业界“首个400GE IP弹性无损智算”广域网络

摘要:当前数智化企业已成为经济增长的主要引擎,融入AI算力是企业进行数智化转型的必然路径。在产业政策和市场需求的驱动下,中国电信上海公司(以下简称“上海电信”)端到端部署华为星河AI路由器,打造了业界首张400GE的IP智算广域网络。通过引入广域RDMA(Remot

当前数智化企业已成为经济增长的主要引擎,融入AI算力是企业进行数智化转型的必然路径。在产业政策和市场需求的驱动下,中国电信上海公司(以下简称“上海电信”)端到端部署华为星河AI路由器,打造了业界首张400GE的IP智算广域网络。通过引入广域RDMA(Remote Direct Memory Access)无损传输方案、新型智算业务流级调度算法、网络数字地图等技术,为千行万业提供高弹性、高吞吐、高可靠的一跳入多算网络新服务。

国内算力市场蓬勃发展,算力规模每年几乎要翻一倍,中国电信在临港信息园区建设国产万卡算力集群,并以出租的方式为企业提供算力服务。企业需要将自己的算力数据通过运营商的智算广域网送到智算中心进行模型训练或推理。当前算力输送面临两种典型的场景:

一是百T级大数据集中训练,例如基因测序的模型训练平均日产数据量达到12TB每天,如果通过传统专线模式将数据送到智算中心进行模型训练,企业和研究机构会面临“低带宽等不起,高带宽用不起”的窘境。另外一种场景是数据拉远训练,部分企业由于要保障数据安全性,要求从研究机构到算力中心传输过程中数据不在园区外落盘。基于RDMA的拉远训练对时延、丢包十分敏感,因此对网络承载能力提出了更高的诉求。

上海电信携手华为打造端到端400GE IP弹性无损智算广域网络,为企业提供海量样本高效入算、存算分离拉远、数据快递弹性IP等多种算网一体化服务能力。

400GE弹性算网,一跳入多算:智算广域网络端到端部署华为星河AI路由器,通过400GE大带宽接口技术将网络运力提升4倍。企业侧部署星河智算CPE,实现10Mbps~100Gbps IP弹性伸缩专线,满足企业一条专线同时访问智算、超算以及通算等多种异构算力资源池的需求。

长距RDMA无损传输:基于RDMA的拉远训练对网络时延、丢包、抖动等网络传输指标十分敏感,万分之一丢包会导致训练效率直接下降50%。智算广域网络具备基于智算大象流智能识别和深度负载均衡能力,使网络吞吐率逼近400GE线路带宽,支持城域100KM覆盖范围的RDMA远距离、高吞吐无损传输。

时延可保障:智算广域网络结合网络控制器智能调度能力,实现算力业务传输质量实时可视。基于网络路径秒级调优能力,智算网络可以保障算力业务传输时延,从而满足推理业务流量毫秒级传输。

AI激发了网络创新,网络服务算力并联接算力。入算、算间、推理这些不同的算力业务为网络注入了新的业务模式,也对IP网络提出了更高的承载要求。华为将和上海电信持续携手创新,利用端到端切片、无损以太、长距离RDMA、网络数字地图等技术,构建高效无损智算网络,让千行百业像使用自来水一样便捷地使用算力服务,助力上海建设成为具有全球影响力的智能算力创新及应用示范区。

来源:绘声社科技侠

相关推荐