GTC 2025指向云计算的下一个基建范式

360影视 动漫周边 2025-03-20 18:48 4

摘要:在去年的GTC大会上,NVIDIA 推出了产品化的万卡集群智算中心,2个月后在Computex 2024的主题演讲中,黄仁勋透露NVIDIA正在着眼十万卡互连和百万卡互连的智算中心,预计将分别在2025年和2026年推出。到了NVIDIA GTC 2025,黄

在去年的GTC大会上,NVIDIA 推出了产品化的万卡集群智算中心,2个月后在Computex 2024的主题演讲中,黄仁勋透露NVIDIA正在着眼十万卡互连和百万卡互连的智算中心,预计将分别在2025年和2026年推出。到了NVIDIA GTC 2025,黄仁勋推出了百万卡互连的方案——在大规模平台上实现了电子电路与光通信的融合,这就是最新推出的NVIDIA Spectrum-X™ 和NVIDIA Quantum-X 硅光网络交换机。

在Computex 2024上,NVIDIA曾提出要在2025年推出Spectrum-X800 Ultra、在2026年推出Spectrum-X1600,再配合升级的NVIDIA智能网卡等,支持百万卡互连智算中心。不过从GTC 2025来看,NVIDIA直接将Spectrum和Quantum系列升级到了CPO(光电一体化封装技术)版本。CPO是近几年发展出的新型交换机技术,有关市场调研机构将2022年视为CPO起步之年,之后虽然有交换机厂商推出了CPO交换机,但CPO整体还处于初级阶段。

黄仁勋表示,CPO技术将为百万GPU级“AI工厂”即智算中心,提供网络基础设施新范式。CPO技术的特点包括高密度、低成本、小体积和低功耗,再配合液冷散热模式,能够显著降低数据中心的能耗。NVIDIA CPO硅光网络交换机相比于可插拔光模块以及初代CPO有较大优势,包括:创新集成了光器件,减少了4倍的激光器数量,与传统方法相比,能源效率提高到3.5倍、信号完整性提高到63倍、大规模组网可靠性提高到10倍、部署速度提高到1.3倍。

简单理解,将光通信引领企业网络领域,有两种方式:一种是传统方式,即交换机+可插拔光模块;一种是初代CPO,即将光模块和ASIC芯片封装在一起。此前,台积电和博通已经开始尝试CPO与先进封装技术,也在创新相关的CPO器件以实现更好的集成效果。此次NVIDIA与台积电合作是CPO产业的重大进程,也许将定义生成式AI时代百万GPU智算中心的网络建设标准。

Quantum-X Infiniband平台将最先推出CPO版本。NVIDIA Quantum-X Photonics交换机将采用液冷设计对板载硅光器件进行高效散热,基于NVIDIA Quantum-X Photonics交换机的AI计算网络的速度是上一代产品的2倍,扩展性是上一代产品的5倍。NVIDIA计划于2026年推出Spectrum-X以太网平台的CPO版本。

NVIDIA的硅光生态系统伙伴包括 TSMC、Browave、Coherent、Corning Incorporated、Fabrinet、Foxconn、Lumentum、SENKO、SPIL、Sumitomo Electric Industries 和 TFC Communication等。NVIDIA拉起的CPO生态,借由NVIDIA的商业通路而实现商业化和产业化,或将抢先定义下一代超级公有云的基建标准和范式。

在重新定义下一代超级公有云智算中心网络标准的同时,NVIDIA也在重新定义智算中心企业存储方案,即搭载由 NVIDIA加速计算、网络和软件驱动的AI查询智能体的NVIDIA AI数据平台,以满足AI推理工作负载要求。与面向百万GPU的CPO交换机不同,AI查询智能体当下就能被云厂商、电信运营商、互联网公司和企业所使用。

AI查询智能体的核心作用是作为智能 AI路由器,通过高速、低延迟的网络实现负载均衡,并交换提示和键值 (KV) 缓存,从而提高推理速度和准确性。AI查询智能体平台采用了 NVIDIA Blackwell GPU、BlueField DPU、Spectrum-X网络和NVIDIA AI Enterprise 软件,这些都是当下即可获得的产品、技术和方案。AI查询智能体可优化AI工作负载在GPU、节点和大语言模型内存管理之间的分配,加速数据处理并实现可扩展的复杂AI工作流。

在GTC 2025上,黄仁勋再次强调了新一代“AI工厂”的概念,即面向生成式AI的“AI工厂”,将以生产“Token”作为主要产品,这与之前面向模式识别和分析预测等传统“AI工厂”有极大的不同。基于此,NVIDIA正在重新定义网络和存储等生成式AI智算新基建。(文/宁川)

来源:澳辉侃科技

相关推荐