这才是AI芯片的命门!

360影视 2025-02-07 09:21 3

摘要:大型 AI 集群需要大量的网络基础设施来处理处理器、内存和存储之间的数据流;如果没有这些基础设施,即使是最先进的模型的性能也会受到瓶颈制约。Meta 的数据显示,数据驻留在数据中心的时间中约有 40% 被浪费在了网络中。

大规模部署人工智能面临着巨大的挑战,因为工作负载需要巨大的计算能力和高速通信带宽。

大型 AI 集群需要大量的网络基础设施来处理处理器、内存和存储之间的数据流;如果没有这些基础设施,即使是最先进的模型的性能也会受到瓶颈制约。Meta 的数据显示,数据驻留在数据中心的时间中约有 40% 被浪费在了网络中。

简而言之,连接性正在阻碍网络,而人工智能需要具有最大可能通信带宽的专用硬件。

人工智能与标准数据中心

与传统数据中心不同,AI数据中心拥有位于前端网络内的用于AI处理的专用计算基础设施,并构建ML加速集群作为后端。

人工智能的大量训练工作量会在后端网络上产生高带宽流量,这些流量通常以规律的模式流动,不需要前端网络所需的逐包处理。当一切正常时,它们的活动水平非常高。

低延迟至关重要,因为我们必须能够快速访问其他资源,而这需要通过扁平层次结构来实现。为了防止(昂贵的)计算资源未得到充分利用,交换也必须是非阻塞的——需要注意的是,即使一条链路频繁丢失数据包,AI 网络的性能也可能受到瓶颈限制。网络的稳健性和可靠性也至关重要,后端 ML 网络的设计要考虑到这一点。

人工智能数据中心所需的连接套件

如果我们将网络简化为仅两个CPU 或 XPU,就可以看到所需的连接。

从连接前端网络的 CPU 开始,这仍然是以太网的职责范围。今天,我们有 112G,224G 将成为未来的标准。

前端网络接口卡(以及其他外围设备)通过 PCIe 连接——通常是 Gen5 或 Gen6,Gen7 将于 2025 年完成并进入数据中心。目前,CPU 和 XPU 通过 PCIe 或CXL (v3) 访问存储,从而降低延迟。未来还有可能提供直接的硅存储到 GPU 的连接,将分散的存储放在各自机架中的集中池中。

如果我们检查后端,我们经常会看到具有一定程度定制的以太网或 PCIe — 例如 NVIDIA 的 InfiniBand。我们还看到了基于 100G 或 200G 以太网标准的其他链路的演进和标准化。

对于 XPU 之间以及服务器内部 CPU 之间的内部链接,我们看到了多种解决方案,包括 NVLink(来自 NVIDIA)或新的 UALink(Ultra Accelerator Link Consortium)。最后,XPU 与其内存之间的链接使用高带宽内存 (HBM)。

扩展和由此产生的网络障碍

随着我们扩大规模以满足 AI 的大规模使用要求,传统的单片 SoC 越来越难以集成所需的增加的通信带宽以及其他所需的功能,而不会超出光刻设备的掩模版极限,从而引入缺陷并降低产量。

与传统的单片 SoC 不同,芯片组将系统分解为更小的专用构建块,每个构建块都采用适合其功能的最佳工艺开发,来自多家供应商的芯片组集成到最终的 SoC 中。这种方法可以实现更大的灵活性和模块化。

迁移到小芯片模型的好处之一是,由于芯片尺寸更小,产量更高。此外,成本更低,由于能够重复使用已经验证过的硅 IP,非经常性工程成本也降低了。还有数据表明,通过硅工艺和架构的智能组合,我们还可以将整个系统的功耗降低 25-50%。

如果我们看看这在数据中心是如何运作的,我们可以设想不同类型的 I/O 芯片组具有不同的 I/O 连接配置。这些芯片组将与内存芯片组相结合,以解决不同类型的内存子系统问题,并与计算芯片组相结合,以解决不同类型的工作负载或 AI 应用程序问题。

其他推动基于小芯片的设计的市场趋势源自生态系统,主要的技术推动因素是 IC 封装技术的进步,例如 2.5D 硅中介层、RDL 中介层、嵌入式桥和 3D,我们看到混合键合和技术的部署,以实现更多堆叠芯片解决方案。

芯片间互连也有行业标准。例如,UCIe 以及采用基于片上网络的芯片间链路协议生态系统。协作对于小芯片的兴起也至关重要,它使行业能够联合供应链以简化组装。这是由代工厂推动的。例如,三星的 MDI 联盟和台积电的 3DFabric 联盟。

向1.6T演进

我们已经处于光罩芯片极限五年多了。在此之前,业界能够增加芯片尺寸以提供更高的带宽,芯片面积越大,引脚数量越多,但这是导致成本失控的秘诀。

当我们查看交换机用例时,我们不能继续添加更多端口,因为我们无法显着增加芯片周围或电缆中的通道数量。由于热密度,前面板也是如此。一种选择是添加额外的前面板,但这也是不可能的,因为数据中心基础设施是建立在标准化机架尺寸上的。

答案是增加每条通道的带宽,并转向更具可扩展性的架构。因此,如果今天我们考虑的是 51.2 兆兆位 (T) 交换机(使用聚合的 512 通道 x 100G 链路),那么明天我们就会考虑将每条链路的数据速率提高到 200G,这使我们能够将所需的链路数量减少到光罩限制以下(256 x 200G = 51.2T)。未来,可以通过小芯片实现 512 x 200G 链路的可扩展路径。

如下图所示,就 Gbps/mm 和 pJ/bit 而言,芯片间最佳的芯片间互连是UCIe并行接口。由 UCIe 和 224G SerDes 驱动的芯片设计可以实现下一代交换机用例。

重新设计 AI SoC

如果我们看一下同样受峰值连接结构限制的“经典”AI SoC,我们会发现这些(通常)是采用领先工艺节点设计的超大芯片,包括 CPU 内核、互连、内存、缓存和 SRAM。此外,还会有自定义加速器和安全 IP,以及内核到内核和逻辑到逻辑的连接。例如 PCIe 或以太网,并且会有专用的芯片到芯片链路。数据从逻辑移动到内存再移动到 HBM 将是此过程的另一个结果。

从这个剖析中,我们可以看出 PCIe、芯片间连接和以太网连接是 AI SoC 的关键 IP 构建块。这些可以轻松地从大型 AI SoC 芯片分解为 I/O 小芯片芯片,以创建不同的系统和应用程序,其中关键的连接 IP 是 PCIe/CXL、以太网、UCIe 和 HBM。

当我们设计芯片时,我们会在不同的芯片上复制相同的功能。例如,在芯片间互连的情况下,我们在链路的两侧实现相同的 PHY 和相同的控制器。这会影响功率和面积以及延迟。在选择芯片间互连时,考虑多种因素以优化设计至关重要。

考虑带宽密度也很重要,必须对其进行优化以匹配所使用的封装类型和尺寸以及成本。对于功耗,芯片将用于数据中心,并且必须尽可能高效。对于这种类型的链路,目标是亚皮焦耳/位。同样,延迟也不能受到影响。

对于此类应用,UCIe 协议可实现超过 10 Tbps/mm 的带宽密度。此外,其功耗为 0.3 pJ/bit,UCIe IP 的设计旨在实现最低的延迟。该标准还具有高度稳健性、可重新配置和自适应性。此外,该标准具有完整的协议栈定义和互操作性平台。

AI 小芯片的未来

AI 工作负载的复杂性和规模将继续增长,对先进硅片解决方案的需求也只会增加。为了实现这一目标,行业需要发挥研发优势,专注于开发针对计算、内存、I/O 等 AI 优化的芯片。

在 UCIe 和其他高性能互连的支持下,这些芯片提供了现代数据中心所需的可扩展性、能效和灵活性。

通过推动基于小芯片的设计、先进封装和互连技术的创新,我们可以为下一代支持 AI 的数据中心铺平道路。行业将专注于降低功耗、降低成本和提高性能,为数据中心提供工具和技术,以充分发挥 AI 的潜力。

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4029期内容,欢迎关注。

来源:时柚科技

相关推荐