博通,要押注3.5D封装

360影视 2025-01-17 18:10 2

摘要:处于 AI 芯片市场前沿的半导体公司和初创公司在规模方面的竞争与其他领域一样激烈。它们都在竞相推出巨型图形处理单元 (GPU) 和其他 AI 芯片,以处理 OpenAI ChatGPT 和其他最先进算法的核心——大型语言模型 (LLM),这些算法的计算量越来越

本文由半导体产业纵横(ID:ICVIEWS)编译自electronicdesign

该技术集成了 2.5D 封装技术和 3D 硅堆叠,有望迎来下一代人工智能“超级芯片”。

处于 AI 芯片市场前沿的半导体公司和初创公司在规模方面的竞争与其他领域一样激烈。它们都在竞相推出巨型图形处理单元 (GPU) 和其他 AI 芯片,以处理 OpenAI ChatGPT 和其他最先进算法的核心——大型语言模型 (LLM),这些算法的计算量越来越大,训练和运行时耗电量也越来越大。

数据中心中最先进的 AI 芯片已无法再集成在一块单片硅片上。相反,它们由通过 2.5D 或 3D 先进封装捆绑在一起的芯片组成,这些芯片可尽可能地模拟一块大芯片。

博通正试图利用上个月推出的 3.5D 封装技术制造更大的 AI 芯片。通过以 3D 集成方式堆叠加速器芯片,然后再以 2.5D 方式将它们并排放置,Extreme Dimension 系统级封装 (XDSiP)平台可以在一个封装中容纳超过 6,000 平方毫米的硅片。该公司表示,它可以将 3D 堆叠的加速器和其他芯片放在硅中介层上,然后用多达 12 个高带宽内存 (HBM)围绕它们。

核心创新之一是博通采用基于混合键合的面对面 3D 芯片堆叠技术,该技术无需焊料凸块,直接连接每个硅片正面的铜线柱。新布局使得每平方毫米可以创建数千个连接,在 3D 堆叠硅片之间传输信号的速度比目前快 7 倍。

虽然博通并不直接与 NVIDIA 的GPU竞争,而 GPU是最先进的数据中心的核心,但它帮助谷歌和其他科技巨头构建定制加速器芯片(也称为 XPU (图 1))。他们都在构建庞大的服务器集群,这些集群可能耗资数十亿美元,并配备数万个 GPU 和其他 AI 加速器,以便在大量数据上训练他们最先进的模型。博通表示,最大的集群正在增长到多达一百万个AI 加速器。博通

图1. 基于 Broadcom 3.5D 封装技术的几款 XPU 正在研发中。来源:Broadcom。

据该公司称,其大多数客户(即所谓的消费级 AI 领域)都在使用 XDSiP 技术。预计第一批量产的 3D 堆叠加速器将于 2026 年初推出。

随着半导体行业越来越落后于摩尔定律,每个新工艺节点通常都会带来的功率、性能、面积和成本方面的改进正在减弱。为了领先于人工智能不断增长的计算需求,芯片工程师现在正在从一体化单片 SoC 转向,而这种 SoC 在最先进的工艺节点上的构建成本越来越高。

相反,半导体公司正在将越来越大的芯片设计拆分成几个更小、更模块化的构建块,这些构建块可以在系统级封装 (SiP)中重新组装,以增加硅片的数量,从而增加其中的晶体管和逻辑数量。通过将异构 SoC 切割成几个功能部分,公司可以使用 2.5D 或 3D 封装技术将它们绑定在一起,而这些技术不受单个硅片中可以塞入的物理限制的约束。

“先进封装 这对于下一代 XPU 集群至关重要,因为我们正达到摩尔定律的极限,”博通定制 ASIC 业务高级副总裁兼总经理 Frank Ostojic 指出。

为了实现集成,博通表示计划使用台积电的 CoWoS(晶圆基板芯片)技术,将加速器和其他芯片横向放置在 2.5D 封装上,同时使用台积电的 3D 封装技术垂直堆叠硅片。CoWoS 广泛应用于数据中心最新的 AI 加速器,它需要将芯片堆叠在一块巨大的硅板上,称为硅中介层。中介层由短而密集的互连线构成,这些互连线可以移动信号,就好像所有东西都在一个大型 SoC 上一样。

在 2.5D 中,这些模块化芯片被放置在封装上,带有非常小的焊球(半导体行业术语称为微凸块),它们密集地分布在硅片的表面上。

如今,最先进的 AI 芯片在采用 2.5D 封装时,可以塞入高达 2,500 平方毫米的硅片和多达 8 个 HBM。这大约是 NVIDIA 当前一代 AI 芯片 Hopper 中硅片数量的 3 倍。其核心GPU 的制造尽可能接近光罩极限,即单个芯片上可以制造的最大硅片数量。目前约为 800 平方毫米。

但随着人工智能的计算能力越来越强,各家公司的空间越来越紧张。为了解决这些限制,半导体行业的巨头们正在为这些芯片增加另一个维度,即通过混合键合堆叠逻辑芯片,然后将所有组件分散到高速中介层电路上。首批基于 3.5D 封装的人工智能芯片之一是 AMD 最新的 3D 堆叠加速器芯片Instinct MI300A ,它正在成为NVIDIA GPU-CPU 超级芯片的最大竞争对手之一。

将所有部件拉近,可以提高速度、延迟和功耗。由于不断将信号从中介层的一侧传送到另一侧会耗电,因此减少芯片之间的距离可以节省功耗。垂直堆叠硅片还可以节省封装中的空间,便于在同一区域放置更多芯片,从而放置更多晶体管。

博通正试图凭借3.5D封装技术引领下一代AI超级芯片。

该公司表示,在使用 XDSiP 技术将所有异构芯片整合在一起之前,该过程首先要将芯片设计中的每个功能分解开,然后将它们组织成芯片。Ostojic 表示,该过程的主要优点(也称为系统技术协同优化 (STCO))是每个芯片都可以使用最适合其功能的制造技术,这为工程师提供了更大的灵活性来优化芯片的功率、面积、性能和成本。

在大多数情况下,博通计划将系统核心中的加速器核心或其他处理单元(如图 2中红色部分所示)划分为任意数量的硅片。这些逻辑芯片可以包含通用 CPU 核心或高性能 AI 加速器,从 GPU 到张量处理单元 (TPU),或其他定制 IP。对于这些芯片,最好使用摩尔定律最前沿的工艺技术,因为它们可以处理最密集的计算。

图2. 基于博通 XDSiP 技术的芯片式 AI 加速器的构建模块。

其余逻辑被重新安置在一个单独的芯片上,在图中以黄色显示,其中包含从 I/O(包括基于PHY 的芯片间互连、高速 SerDes 和 HBM 内存接口)到充当处理器缓存的 SRAM 的所有内容。这些组件很少会从转移到最先进的节点中获得任何好处,因此采用更成熟且更实惠的工艺技术来制造它们更有意义。这些功能也可以放在同一个芯片上。

博通使用混合键合将较小的加速器芯片堆叠在较大的芯片上,以实现连接和存储。通常,这些芯片在键合在一起之前会以相同的方向堆叠在一起(也称为面对面 (F2B))。芯片之间使用硅通孔 (TSV) 相互通信,这些硅通孔充当 3D 堆栈内的电梯井,在它们之间传输电力、信号和数据 (图 3)。

图3. 面对面(F2B)和面对面(F2F)3D 集成之间的差异。

据该公司介绍,它可以通过将硅片面对面 (F2F) 堆叠,然后直接将它们粘合在一起,从而创建更直接的芯片到芯片互连,从而缩短封装中的计算、内存和 I/O 芯片之间的距离,并移除它们之间的 TSV。这种布置创建了一种高密度互连,可以在硅片之间传输 10 倍以上的信号,同时噪音最小,机械强度更高。它们消耗的功率比在硅中介层平面上物理连接芯片的 PHY 少 10 倍。

博通表示,其定制芯片设计的特殊方法和 3.5D 封装技术中的 IP 使得 3D 堆栈中的所有电源、时钟和信号互连能够高效地正确构造。

3D 堆叠加速器采用 2.5D 封装技术堆叠在硅中介层上,然后被其他芯片包围,其中包括以最快的速度向加速器提供数据的 HBM。

虽然 AI 加速器下的 I/O 芯片都用于与 HBM 和封装中的其他芯片进行内部通信,但可以添加多协议连接芯片,用于与服务器中的其他加速器、处理器和内存芯片进行外部通信,或分散在数据中心周围。这些 I/O 芯片位于图 2中封装的北侧和南侧,可以配备以太网、PCI Express (PCIe) 和Compute Express Link (CXL)的 IP 构建块。

Ostojic 表示:“通过垂直堆叠芯片组件,Broadcom 的 3.5D 平台使芯片设计人员能够为每个组件搭配合适的制造工艺,同时缩小中介层和封装尺寸。”因此,它降低了翘曲的风险,而翘曲是基于芯片设计的巨大挑战。所有构建块产生的热量会导致封装中的不同材料以不同的速率膨胀,从而导致它们翘曲,这可能会影响处理器的性能或导致其发生故障。

打造这些大型 AI 芯片并非易事。博通表示,它正在从工艺技术和先进封装到设计和测试等各个方面采用创新,以应对这些超级芯片的巨大复杂性。多芯片系统任何一个部分的重大缺陷都可能造成灾难性的后果,而且随着半导体公司在封装中塞入越来越多的硅芯片,风险也在上升。除此之外,在 3D 芯片配置中,找出问题的根本原因要困难得多。

虽然 3D 硅片堆叠为工程师提供了更多方法来优化性能、功率、面积和其他指标,但它也带来了许多设计难题。其中一项更艰巨的挑战是快速可靠地将信号路由到封装中的所有构建块,同时降低电磁干扰 (EMI)和其他类型的信号噪声。由于芯片排列越来越复杂,现代 AI 芯片的功率需求越来越大,因此平稳高效地向所有组件供电也变得更加困难。

另一个问题与热管理有关,即管理由于将所有这些芯片如此紧密地塞入封装中而产生的热量。虽然堆叠硅片可以使所有芯片保持紧密接触,但在它们之间去除热量以防影响处理器的性能,这变得更加棘手。此外,任何一个组件的散热都会对堆叠在其上方或下方的硅片的热状况产生负面影响。

博通表示,在利用台积电最先进的 XDSiP 工艺和封装技术的同时,它还将带来大量设计和测试复杂 3D 堆叠芯片的专业知识。该公司正在开发基于其 F2F 3.5D 技术的首款 XPU,对这一切进行测试。该芯片由四个计算机模块组成,堆叠在一个大型 I/O 芯片上,周围环绕着六个 HBM 模块,采用了台积电先进的工艺节点和 CoWoS 技术进行 2.5D 封装。

该公司还围绕行业标准 EDA 工具构建 3.5D 封装技术,该工具在验证封装内所有组件以及介于封装之间的所有组件的运行方面做得越来越好。

此外,富士通正在采用博通的 3.5D 封装技术来构建其最新的高性能服务器 CPU Monaka。该处理器将采用 288 个基于 Arm 的 CPU 内核,这些内核在台积电的 N2 节点上制造,当它在 2026 年投入量产时,它将成为市场上最先进的工艺技术之一(如果不是最先进的)。然后将它们堆叠在基于 5 nm 的缓存内存芯片之上,而这些芯片又将放置在带有 CoWoS 的硅中介层上。

用作处理器缓存的 SRAM 的扩展速度与高性能芯片核心逻辑的速度不同步。博通表示,将内存和计算放入单独的芯片中更有意义——无论是从成本还是复杂性来看,每个芯片都采用最适合该工作的工艺技术制造,然后以 3D 方式将它们结合在一起。富士通计划在 2027 年推出 Monaka。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

来源:半导体产业纵横

相关推荐