AI数据中心要实现1.6T网络需要进行哪些测试?

360影视 欧美动漫 2025-06-25 11:13 1

摘要:“AI时代”已然到来,它正改变着我们的工作与生活方式,但也将数据中心推向极限。训练大语言模型(LLM)需要海量计算资源和内存,这些资源分布在高度互连的GPU集群中。

(本文编译自electronicdesign)

“AI时代”已然到来,它正改变着我们的工作与生活方式,但也将数据中心推向极限。训练大语言模型(LLM)需要海量计算资源和内存,这些资源分布在高度互连的GPU集群中。

为跟上模型复杂性和规模的发展,超大规模数据中心运营商正竞相将网络升级至800GE和1.6T以太网。但通过更高带宽的互连来提升网络容量只是其中一部分。真正的挑战在于如何提升互连的可靠性和效率,以承受持续AI训练工作负载带来的压力。

AI网络的速度取决于集群中最薄弱的环节。每个收发器、电缆和连接器都会影响整个系统的吞吐量、延迟和可靠性。性能瓶颈、互操作性差距和尾部延迟会阻碍模型训练。当数据中心运营商将网络升级到1.6T及更高规格时,网络架构师必须考虑每个组件在繁重的AI工作负载和真实环境条件下的表现。

符合规格只是开始。从设计到制造,收发器必须经过严格验证,以确保其不仅具备互操作性,还能在真实环境条件下实现最佳系统级性能。

那AI数据中心要实现1.6T网络面临哪些挑战呢?在物理层及更高层面验证设备性能需要怎样的测试方法呢?

互连为何成为数据中心瓶颈

训练大语言模型(LLM)不仅依赖原始计算能力,更需要在大规模GPU集群间实现快速、同步的通信。这些集群由通过高速电气和光学互连技术连接的分布式服务器构成。

训练任务会被分解并在不同集群节点间并行处理,每个节点负责模型的一部分。所有节点必须保持同步才能高效推进训练进程(见图1)。

图1:网络优化不足导致训练减速与工作负载失效

随着工作负载规模不断扩大,失衡风险也随之增加。并行处理在节点间形成了强烈的相互依赖性,每个节点都是网络中潜在的薄弱环节。无论是收发器、电缆还是交换机,单个性能不佳的链路都可能成为整个集群的瓶颈。在未优化的网络中,由于互连速度缓慢,GPU超过一半的时间处于闲置状态,等待下一个任务。

为优化AI工作负载处理,数据中心运营商需要对网络中的每个组件和互连进行压力测试。收发器故障是导致工作负载失效和尾部延迟的主要原因,近50%的训练任务因网络或计算问题而失败。这要求收发器和互连制造商的设计不仅要符合规格表要求,还要能在AI数据中心常见的高温和大规模工作负载条件下实现高裕量性能。

物理层收发器合规性验证

防止互连成为AI数据中心瓶颈的首要步骤是进行物理层性能验证。在开发过程中,每个224-Gb/s电气和光学通道都必须经过严格测试,以确保其在模拟AI训练工作负载的压力条件下具备信号完整性、互操作性和真实环境可靠性。

电气发射器与接收器测试

1.6T收发器必须针对每个224-Gb/s电气和光学通道满足日益严苛的信号完整性和噪声容限要求。诸如IEEE P802.3dj(针对1.6T以太网)等标准对发射器抖动、发射器色散损耗、误码率及信噪失真比(SNDR)均规定了限值。

此外,AI数据中心的真实工作负载会将设备推向远超常规运行极限的状态。尽管在日益严格的物理层规范下确保性能裕量颇具挑战,但这对设备可靠性和互操作性至关重要。

信号完整性是电气测试的重中之重。发射器的关键测量指标包括抖动、信噪失真比、线性度和信号残余码间干扰比(SRI-SIR)。对发射器的均衡特性进行表征和调优以实现最佳清晰传输,是补偿信道损耗的关键。

开发人员需要高带宽示波器进行信号捕获与分析。合规自动化软件可引导用户完成复杂的验证需求和测试,以确定每项技术规范的通过/失败状态。进一步的信号完整性调试软件则能协助解决具有挑战性的合规问题。

接收器测试需要使用误码率测试仪(BERT)注入压力信号模式,并在劣化条件下量化误差率。这不仅是合规测试的必要环节,对线性可插拔光模块(LPO)而言尤为关键。作为一种新型收发器拓扑结构,LPO通过舍弃数字信号处理器(DSP)来降低功耗,这直接导致网络接口卡和交换机的性能裕量大幅缩减,使得主机芯片必须适应更失真、噪声更大的信号。

执行此类测试时,选择合适的BERT和示波器需要关注模式发生器与误差检测器是否采用正确的调制格式和符号速率(针对224-Gb/s信号需使用120-Gbaud PAM4)。

光发射器测试

光性能测试的核心在于进行精准的发射器色散与眼图闭合四进制(TDECQ)测量。TDECQ用于量化在特定目标符号错误率(SER)下,实际发射器相较于理想参考源所引入的功率损耗,该指标将带宽限制、噪声及码间干扰等损伤因素聚合为单一度量标准。

以太网标准将TDECQ作为光收发器合规性测试的主要通过/失败判定指标,因此它是衡量收发器可靠性与互操作性的关键参数。

其他重要的光学指标包括:光调制幅度(OMA,即光信号0电平与1电平之间的功率差)、消光比(激光性能中高低逻辑电平的功率比)、参考均衡器噪声增强系数(Ceq)以及激光器相对强度噪声(RIN)。

光学测量通常使用低噪声采样示波器完成。针对224-Gb/s验证的理想采样示波器需具备极低本底噪声(

图2:106-Gbaud PAM4(112Gb/s)信号的TDECQ测量。

自动化测试程序可与示波器集成,快速完成TDECQ合规性验证。采样示波器既能在研发阶段评估器件性能、表征波形质量、分析损伤因素,也能在制造环节支持均衡参数的精细调校。

光学灵敏度越高,测量裕量越充足,越能精准表征器件的信号完整性表现。在不同温度变化下通过应力眼图条件进行裕量测试,是确保器件在真实环境中稳定运行的关键。

信号完整性检测与线缆测试

收发器的性能取决于承载信号的互连组件和线缆。尽管当前多数AI数据中心依赖光链路,但仍有部分部署有源铜缆(ACC)或传统无源铜缆。

无论采用何种介质,在224 Gb/s速率下确保稳健的信号完整性都极具挑战:信道损耗预算更高、反射干扰更强、串扰更为剧烈。微小的不连续性或阻抗失配都会显著降低性能,而表征和分析此类现象需要先进的测量技术。

S参数分析可从频域视角呈现插入损耗(信号沿信道传输的功率衰减)、回波损耗(阻抗失配引起的反射)和串扰(相邻信号路径间的非期望耦合)。针对224 Gb/s链路的S参数表征,需配备支持70-110 GHz带宽的矢量网络分析仪(VNA)。最新IEEE 802.3标准引入的信道工作裕量(COM)指标,将插入损耗、反射、串扰和噪声整合为阈值化度量标准。

时域反射法(TDR)通过添加空间分辨率补充频域分析,可揭示复杂PCB走线、连接器和线缆中阻抗失配的位置与程度。如今许多现代VNA和高速示波器已集成TDR模式,用于隔离不连续性的根本原因。

最后,去嵌入技术对于从测量路径中剔除测试夹具和适配器的影响至关重要,确保测量结果仅反映被测器件(DUT)的真实特性。这能提升仿真一致性和测量精度,其中自动夹具移除(AFR)算法是高速数字信道中物理结构精确去嵌入的常用方案。

扩大收发器生产规模的同时确保质量

一旦收发器设计定型,制造商需快速提升量产规模以满足AI数据中心的硬件需求。量产爬坡迟缓可能导致彻底错失市场,但制造商也不能偷工减料。维持高良率以避免交付故障器件并引发最终部署问题至关重要。质量保证工程师面临的挑战是在不牺牲可靠性和测试精度的前提下快速推进量产进程。

许多测试工程师围绕采样示波器构建测试程序,在生产过程中利用其“调校”光收发器。在快速反馈循环中,生产系统先将初始设置写入新制造的收发器模块(如激光偏置、调制器电压等),随后立即测量TDECQ等关键性能指标。

系统会基于测量结果调整设置并重新测试指标,如此快速迭代直至发射器优化完成且器件通过性能阈值。

通常,优化测试还会在多个温度设定点下执行,以确保每个器件在全工作温度范围内均能实现最佳性能。采样示波器可与光开关和测试自动化软件搭配使用,便于对每个通道进行测试,支持同时测试多个通道和器件,从而缩短测试时间并提高硬件利用率。

超越物理层测试

满足物理层合规性是必要条件,但这只是确保AI数据中心收发器性能的起点。尽管IEEE 802.3dj等标准定义了每通道224 Gb/s的技术规范,但真实环境中仍会出现许多物理层验证无法检测的问题。当链路速率接近并突破1.6T时,必须通过超越物理层的压力测试将验证提升至新维度。

“1.5层”:前向纠错(FEC)

在如此高速率下,前向纠错(FEC)对于将所有通道的总误码率(BER)维持在可接受水平以实现可靠数据传输至关重要。尽管接收器合规测试关注预FEC误码率,但合规接收器仍需达到FEC有效工作的BER阈值。后FEC分析的核心是确定FEC失效的错误分布,即使平均BER符合规格,突发错误仍可能超过FEC处理极限,导致不可恢复的帧丢失。

鉴于AI数据中心要求近乎零数据丢失,FEC性能分析至关重要。这就是为什么后FEC性能分析(尤其是错误分布和帧丢失率FLR)与传统接收器合规指标同等重要的原因。互连测试平台可通过全1.6T负载下的真实数据包流和损伤注入,模拟系统级噪声与拥塞以对器件施加压力。

通过验证端到端链路行为(包括用于检查接收器处理连续错误能力的FEC尾部分析),开发人员能够评估收发器是否真正为AI部署做好准备(见图3)。

图3:优化(左)与未优化(右)的互连FEC裕量性能。随着错误数量增加,FEC码字数量递减的现象被称为“FEC尾部”。

第2-3层:网络性能测试

对于AI数据中心收发器,测试不能停留在第1层。将验证延伸至完整协议栈性能至关重要。开发人员应在真实场景下验证第2/3层行为,以发现与MAC地址、路由、IP数据包处理及传输效率相关的问题,确保收发器能支持AI训练工作负载的并行数据传输。

以全线速模拟真实以太网/IP流量模式,可暴露仅通过物理波形分析无法发现的路由、流量控制、延迟、链路稳定性和拥塞问题(见图4)。

图4:800GE链路测试统计显示零丢包率,发送与接收的数据包/字节完全匹配。

通过结合物理层验证、FEC感知接收器测试及完整协议栈(1-3层)仿真,收发器开发人员能够更全面地了解器件性能。这种整体化测试方案虽看似复杂,但在网络向1.6T以太网及更高规格升级的过程中,对确保AI数据中心互连的可靠性、吞吐量和效率至关重要。

未来方向:前沿探索与研发

当行业准备在224-Gb/s通道上部署1.6T以太网时,部分开发者已将目光投向未来,即推动数据中心速率迈向3.2T以太网的技术跨越,核心在于448-Gb/s通道的实现。

目前三种主要信令方案正在评估中:224-Gbaud PAM4、174-Gbaud PAM6和150-Gbaud PAM8,每种方案在复杂度、带宽和噪声容限上各有取舍。早期研究表明这些潜在方案均具备可行性,部分开发者已借助高速任意波形发生器和采样示波器探索最优解。

与此同时,随着性能需求和优先级的变化,新型光子集成电路支持的线性可插拔光模块(LPO)等新兴收发器拓扑结构,可能影响技术路线选择,并重塑下一代数据标准。

互连不再仅是需要高级测试的被动链路

无论下一代数据标准走向何方,有一点已然清晰:互连不再是系统中的被动链路,而是关键的性能赋能要素。在新型AI数据中心架构中,每个组件、收发器和互连都是潜在的薄弱环节。开发人员和架构师必须转变思维:从单纯满足互操作性合规,转向全层级的性能优化。

这是一项艰巨的任务,但借助先进端到端测试、自动化和仿真工具,设计与验证周期的每一步都可落地实现,而每一项改进都能对AI数据中心的高效可靠运行产生深远影响。

来源:王树一一点号

相关推荐