(本文编译自electronicdesign)摘要:当数据中心中的服务器或其他电子模块出现故障时,必须进行“热插拔”,以将停机时间降至最低。在这种情况下,热插拔是指在机架中的其他服务器继续运行的同时,移除有故障的硬件并进行更换。
随着GPU和其他人工智能(AI)芯片不断挑战数据中心的电力极限,防止涌入的电流使系统过载,并造成高昂的中断成本变得至关重要。
当数据中心中的服务器或其他电子模块出现故障时,必须进行“热插拔”,以将停机时间降至最低。在这种情况下,热插拔是指在机架中的其他服务器继续运行的同时,移除有故障的硬件并进行更换。
然而,在将服务器插入机架时,这一过程可能会引入大量的浪涌电流。电流的突然增加会给服务器中的处理器、加速器和电源电路带来压力,有可能导致组件性能下降甚至出现故障。
为了安全地启动所有设备,通常会在服务器中安装一个功率MOSFET,并配备一个电流传感器和一个数字控制器。它们共同充当系统的断路器,在启动时调节浪涌电流,并在正常运行期间跟踪供电电流,以防止短路或其他任何故障。电源设计师和系统工程师正努力在人工智能服务器有限的的空间内扩展这些热插拔解决方案。
许多半导体公司正在推出电子熔断器(eFuse),以安全处理人工智能所消耗的大量电力。它们将功率器件、电流感应和数字控制集成在单个芯片中,提供更智能的电源路径保护。
功率MOSFET:热插拔的电源控制开关
在48V架构中,机架内的电源单元(PSU)将用于在数据中心内分配电力的交流电转换为服务器自身使用的48V直流电。直流电通过沿着机柜后部铺设的48V背板分配到服务器。如果一台服务器出现故障,其他服务器会分担其负载,使系统能够长时间运行,以便进行热插拔更换故障服务器。
电路板上的电容器用于平滑电压纹波并消除噪声,为人工智能服务器的处理器、内存和其他组件提供稳定的电源。当服务器插入机架时,这些电容器需要尽可能多的电流来为处理器、加速器和其他负载充电,在短时间内会产生大量的浪涌电流。如果电流不加以限制,可能会使服务器中的连接器或其他组件过载,或者导致电压突然波动,进而使周围的服务器重启。
最新的高性能人工智能芯片在运行人工智能训练和推理时会消耗超过1000瓦的电力,这增加了人工智能服务器所需的电流量。为了在热插拔过程中安全地启动所有设备,会在靠近服务器电源连接器的位置安装一个功率MOSFET,用于开启或关闭对处理器和其他负载的供电。功率器件的栅极电压决定了流经它们的电流。
当功率MOSFET关闭时(即栅极电压(VGS)低于阈值电压(VTH)时),它会阻止电流流入系统,在服务器进行热插拔时阻挡浪涌电流。
但当功率MOSFET开启时(即栅源电压(VGS)高于阈值电压(VTH)时),它会允许一定量的恒定电流流入系统。在这种情况下,MOSFET进入饱和区,此时栅源电压(VGS)是控制漏极电流的主要因素。随着栅源电压(VGS)升高,功率MOSFET会将更多电流推向系统中的输入电容器。随着电流增加,场效应晶体管(FET)的漏极和源极之间的电压(VDS)下降,功率器件进入欧姆区,此时电流取决于漏极和源极之间的电阻(RDS(on))。
这些功率场效应晶体管(FET)需要一个较宽的安全工作区(SOA),以防止在热插拔过程中涌入系统的电流损坏功率器件(或其周围的组件),或导致其过热。为了处理更大的电流量,通常会将多个这样的功率FET并联放置。通过将电流分散到多个不同的功率FET上,还可以降低它们内部产生的热量。这一点也很重要,因为高温会增加场效应晶体管内部的总电阻,从而限制电流。
热插拔控制器:提供从功率MOSFET到负载的保护
当分流器或其他电流传感器检查流入服务器的电流,且MOSFET接通或断开对服务器的供电时,热插拔控制器会控制MOSFET,并使其保持在安全工作区(SOA)内。
数字控制器调节功率MOSFET的栅极电压,以控制在热插拔过程中涌入系统的电流量。它还用于随时检查功率FET中的电流、电压和温度,以防止短路或其他故障。其核心是一个可编程定时器,它会限制功率FET在出现故障时保持正常调节的时长。如果故障情况持续时间过长,功率FET就会关闭。功率FET必须有一个较大的安全工作区,以便在定时器运行时限制功率损耗。
热插拔控制器的主要作用是设置系统的电流限制——在电流超过阈值时,它集成了短路和过流保护(OCP)功能。在许多情况下,这些芯片还提供欠压锁定(UVLO)功能——防止由于栅极电压波动而对功率FET造成损坏,以及过压保护(OVP)功能——消除电压尖峰或电源电压方面的问题。此外,热插拔控制器通常具有热保护功能,以防止FET过热。
许多半导体公司正在推出集成了栅极驱动和电流感应放大器的热插拔控制器,以便更高效地处理高性能人工智能芯片所使用的大电流。不过,在故障情况下,这些控制器仍需要单独的功率FET来切断对负载的供电,同时,分流电阻器或其他电流传感器要与比较器一起放置在与FET相同的电源轨上。
但在数据中心的电源板元件越来越密集之际,这些解决方案也变得更加复杂。回顾热插拔保护技术的发展历程,过去常常使用许多单独的组件,比如电流感应放大器、比较器、电流传感器、功率FET,所有这些不同的组件会占用印刷电路板(PCB)上大量的空间,而且工程师们要以一种最大限度提高安全性并将功率损耗降至最低的方式来放置所有组件,这也变得更具挑战性。
鉴于人工智能芯片的功率需求不断增长,在故障损坏处理器、加速器或其周围的组件之前,检测故障情况并迅速关闭它们也变得更具挑战性。
高压直流电源轨上热插拔的未来
为了应对人工智能不断增长的功率需求,微软和其他科技巨头正试图将服务器机架中的交流-直流电源转换器迁移到一个独立的解耦电源机架中,可以将其称为“副机架”,它将以高达800伏的直流电而非交流电为服务器机架供电。然后,服务器机架中的直流-直流转换器会将800伏的电压转换为48伏的母线电压,再将电力输送给人工智能处理器。此外,还有可能将48伏母线升级为±400伏直流电,这可能需要配备高压MOSFET和强大隔离功能的电子熔断器。
来源:小岳科技观