摘要:人工智能,无论是在数据中心、汽车还是手机中,都需要性能的大幅提升,使用更少的功耗来更快地处理大量数据;用于附加功能的芯片面积正在增加,并且电线和SRAM的扩展速度不再足够快以将它们安装到单个芯片上,因此它们被分解成更小的芯片并组装在先进的封装中;将复杂的芯片分
从单片 SoC 到基于小芯片的设计的迁移为处于前沿的设计团队带来了一系列令人困惑的选择和权衡,而且随着第三方小芯片开始涌入市场,选择的数量只会增加。
然而,这并没有削弱人们对小芯片的兴趣,出于多种原因,小芯片被认为对未来几代半导体至关重要。其中包括:
人工智能,无论是在数据中心、汽车还是手机中,都需要性能的大幅提升,使用更少的功耗来更快地处理大量数据;
用于附加功能的芯片面积正在增加,并且电线和SRAM的扩展速度不再足够快以将它们安装到单个芯片上,因此它们被分解成更小的芯片并组装在先进的封装中;
将复杂的芯片分解成更小的部件可以实现更多的定制,特别是对于特定领域的应用程序,并且在未来某个时候可能降低成本并加快上市时间 - 特别是如果即插即用的芯片市场变得可行。
Synopsys高性能计算 IP 解决方案产品管理副总裁 Mick Posner 表示:“我们预测,今年约 50% 的高性能计算将采用多芯片设计。这可能还比较保守。但 100% 的 AI 设计都是多芯片的。由于它们需要高带宽和可扩展性,因此必须这样设计。我们看到的另一个趋势将再次改变一切,那就是 3D,这意味着逻辑到逻辑的堆叠。我们看到 2025 年将有更多的客户进入原型阶段,准备进行 3D 设计。他们还没有投入生产,因为他们需要验证诸如芯片之间的混合键合和硅通孔之类的技术。面对面键合会对他们的设计产生影响,也会对 IP 产生很大的影响。”
越来越多的 IP 被固化为芯片。大型系统公司目前约占尖端设计的 45%,但在开发此类 IP 方面经验有限。英特尔和 AMD 等处理器巨头之前都是内部开发所有 IP,现在他们希望通过利用第三方芯片来降低成本并加快上市时间。这催生了一个全新的生态系统,这个生态系统专注于定制和半定制芯片,以及各种组装和封装选项、新型 PHY 以及散热的新材料和策略。
随着单片设计演变为小芯片设计,Siemens EDA 观察到了许多变化。“在单片设计中,信号完整性过去是由 PCB 方面的独立团队完成的,他们将这门技术做到了极致,”西门子 EDA 产品专家 Subramanian Lalgudi 说。“他们有一个关于如何签署合规性的流程。如今,小芯片有不同的协议——USB PCIe、MIPI、SATA。流程很清晰。如果你是芯片设计师,设计收发器,或者你是像惠普这样的电路板人员,或者是其他设计电路板的人,或者你是一家中继器公司,试图接收、放大并发送信号,那么流程就很清晰了,标准也在不断发展,以满足发送器所需的合规性。但中继器需要符合什么标准呢?接收器需要符合什么标准,无论是串行标准还是并行标准?串行是点对点的。并行基本上是 DDR 应用,但 PCB 中的每位能量都相当高,因此他们可以容忍。它的表面面积更大。”
当芯片还是单片时,只有专有考虑。“没有标准化,”Lalgudi 说。“当 chiplet 出现时,他们需要进行静态时序分析,这是一项时钟到时钟的任务,以确保所有位都按时到达,然后才能锁定并执行操作。有一个设置时间。他们有一个保持时间。这曾经被称为静态时序分析,但当他们引入 chiplet 时,这意味着 chiplet 人员或生产商可能与将它们集成在一起的人不同。英特尔和 AMD 已经展示了这一点。英特尔采用了 FPGA 设计,他们可以混合搭配东西。他们可以在一个技术节点上继续使用处理器,也可以在较旧的技术节点上使用 chiplet。这是有益的,因为现在他们可以专注于他们真正擅长的领域。”
分区至关重要
设计团队需要了解的第一件事是如何分区小芯片系统。Alphawave Semi公司 IP 产品营销和管理副总裁 Letizia Giuliano解释说:“首先要自然分解的是 I/O。这些类型的构建块不会随着工艺节点而扩展。将它们保留在较旧的工艺节点中,将计算能力保留在先进的技术节点中更容易。我们与客户一起做的第一件事就是帮助他们分解系统。因此,我们讨论 I/O 分解和内存分解。我们还讨论计算,他们可以利用最新技术以及使用尖端技术节点的最新功率和性能优势。”
如今,各家公司在 Chiplet 采用曲线上所处的位置差异很大。“我们看到两类客户,” Blue Cheetah产品工程副总裁 John Lupinski 表示。“一类客户仍在学习 Chiplet 并试图弄清楚,他们知道他们的产品最终必须基于 Chiplet。他们试图了解互连封装技术、它们能做什么以及它们可以实现的带宽。第二类客户正试图推出真正的解决方案,以便在会议上进行生产演示。他们知道每秒有数百兆位,他们正试图将其从一个 Chiplet 转移到另一个 Chiplet。”
目前,许多高知名度的芯片工作都集中于此,尤其是数据中心、工业和汽车应用。虽然 UCIe 和 Bunch of Wires 提供了一种连接设备的标准方式,但这只是一个更大难题中的一个重要部分。使用这些标准化协议将数据传入和传出芯片,并将其路由到需要去的地方,为各种可能性打开了大门,首先是通过物理层 (PHY) 移动数据。过去,PHY 主要是专有的,因为大多数芯片都是内部开发的(HBM 除外)。但随着越来越多的第三方芯片被纳入设计中,人们越来越关注如何提高数据速度并确保每个级别数据的完整性。
Eliyan首席执行官 Ramin Farjadrad 表示:“如果在两端使用同一供应商的 PHY,则几乎可以保证正常工作。这种互操作性之所以迟迟未能进入市场,一个重要原因是大公司让客户感到担忧,除非在两端使用相同的技术,否则无法保证其能够顺利或完美地工作。这些 PHY 与当今的 SerDes 并无不同。事实上,它们比 SerDes 更简单,因为通道很简单。它们没有区别,而且可以轻松采用和构建互操作性。”
其他人也同意这一观点。“客户正在寻找的是最低功率配置下的最大带宽,”Blue Cheetah 的 Lupinski 说道。“只有两种方法可以做到这一点。其中之一是使用传统架构,如 SerDes。一些 UCIe 供应商只是在提高时钟频率。问题是你的每比特皮焦耳也在大幅增加。如果你尝试采用其中一个宏来实现每秒 100 兆兆位,你的功耗将非常巨大。”
这是当今关注的一大领域。数据从芯片到芯片或从芯片到内存的移动速度对设备的整体性能有很大影响,并且有多种方法可以解决这个问题。通常,时钟方案是同步的,以便可以解析然后组合来自多线程应用程序的计算。任何时候的任何延迟都会增加延迟,从而缩短获得结果的时间。或者简单地说,系统的速度只取决于该链中最慢的组件。
但时钟也可以是全局异步和局部同步的,从而最大限度地减少这些延迟。Movellus 战略营销副总裁 Lee Vick 表示:“由于对带有芯片接口的现代设计的限制,传统技术的时序限制变得过于复杂和繁重。如果你有局部时钟,这通常会发生在 NoC 上,而 NoC 是大多数传统架构的一部分。异步方法的工作量要大一些,但与传统时钟设计技术相比,它给你的自由度使它值得。”
PHY 也可以定制以提高性能。Eliyan 首席战略和业务官 Patrick Soheili 表示:“如果我想打造一款 NVIDIA Blackwell 2 芯片,我需要尽可能高的带宽、尽可能低的功耗、尽可能大的每毫米边缘带宽和尽可能小的 PHY 面积。”这些对于 NVIDIA、Broadcom、Intel 和 AMD 等公司来说非常重要。所有这些芯片的运行速度都在每毫米每秒 5 到 20 兆兆位之间。如果没有这些,那么连接在一起的两个 GPU 就不会像一个芯片一样工作。你会在延迟、功耗和性能方面有所欠缺。”
数据和电源完整性
映射数据如何在所有这些异构组件之间移动并非易事,需要在设计周期的早期就考虑到这一点。
Arteris产品管理和营销总监 Ashley Stevens 表示:“有两种基本方法。这取决于你是否从上而下全面了解所有事物,还是从下而上审视设计,即先做某件事,然后将其与其他事物联系起来。自上而下的方法要简单得多,因为你知道要讨论什么,也知道系统中所有内容是如何分区的。例如,你知道整个系统的内存映射。你知道那里有什么,而如果你有一个系统,你打算连接到任意的芯片、第三方或其他任何东西。那么由于多种原因,它会变得更加复杂。其中之一就是验证,因为当你采用自上而下的方法时,你可以一起验证整个系统。但是如果你采用自下而上的方法,如果我们没有系统的另一部分,那么你就需要非常明确的接口,无论是硬件还是软件。”
除了快速的数据移动之外,数据还需要保持完整,处理和移动数据的能力也同样如此。
是德科技信号完整性应用科学家兼高速数字应用产品经理 Chun-Ting “Tim” Wang Lee 表示:“在芯片中,由于所有芯片都是分开的,因此我们拥有许多不同的芯片到芯片连接,这意味着信号完整性变得非常重要。当然,当你拥有不同的芯片时,电源也会位于不同的芯片上。你要如何将电源分配给所有其他芯片?这就是为什么电源完整性也会成为芯片中的一个问题。而且,一旦你有电源完整性问题,就会有热完整性问题。它会加剧问题。”
在最近的 Chiplet 峰会上,许多专家都表达了同样的看法。Cadence 的 Voltus 产品管理组总监 Rajat Chaudhry 表示:“在较旧的 SoC 设计风格中,你知道你有一个可以开始设计的封装,假设你将在设计的电源引脚上获得一定的干净电源。现在你有多个 chiplet,你必须为整个系统设置早期模型,无论你使用哪种封装风格。你必须为电源完整性而这样做,但它也可以用于探索哪种方法更适合你的系统。什么样的技术或多芯片封装风格可行,可以满足你想要做的事情的约束?这是 chiplet 最大的变化之一。所以现在最重要的是尽早确保你是完全错误还是大致正确?你真的能让这个系统从电源完整性的角度正常工作吗?”
图 2:使用不同材料的多芯片聚合和优化。
热完整性又增加了另一个挑战。热应力会导致基板翘曲,基板越薄,越容易翘曲。这对于需要特殊处理的有机中介层来说尤其成问题,但它也会影响大型硅中介层。基板越薄,通过该基板的互连越短,互连可以是硅/基板通孔或微凸块。较短的距离可提高整体性能并减少驱动信号所需的功率,但翘曲会变得更加成问题。它可能导致通孔错位,尤其是热膨胀系数不同时,而这反过来会对性能、功率和信号完整性产生负面影响。
桥接是另一种选择,而且越来越多地将其与中介层混合使用。实际上,这些桥接和中介层被分割成更小的部分以最大限度地减少热效应,但这种方法本身也带来了一系列问题。
Synopsys 的 Posner 表示:“这不仅仅是一座桥梁。你可以拥有多座桥梁。它们仍然受到相同的压力和应变,但由于它是一个横截面,因此影响较小。但随着整个封装的整体尺寸增加,热膨胀仍将发挥作用。如果你看看数据中心部署的一些架构,你就会明白为什么桥接器适合。这些是紧密链接的计算集群,实际计算是在其中扩展的。有非常紧密的基于中介层的链接,但外围设备可能会连接到 I/O 芯片,该芯片可能位于有机基板上。这适合这种桥接架构,混合和匹配非常密集的互连,然后是更宽、更低的每毫米带宽互连。”
权衡因应用而异
并非所有芯片都是一样的,也不是所有芯片在压力下或不同的封装配置下都会表现相同。
“我们看到,不同应用中使用的芯片的差异化越来越明显,”弗劳恩霍夫 IIS自适应系统工程部高效电子负责人 Andy Heinig 表示。“在工业和汽车领域,芯片必须更加坚固。这意味着温度循环、机械坚固性、振动测试。这与我们在数据中心看到的情况完全不同。在芯片发展的早期,似乎你可以对所有应用使用相同的集成技术、相同的 IP 和相同的东西。但事实并非如此。你需要针对不同应用提供非常具体的封装解决方案和 IP。”
这也会影响小芯片的成本。“如果你看看汽车行业,每个封装的成本可能只有 20 美元,”Heinig 说。“在数据中心,每个封装的成本可能高达 2,000 美元。根据不同类型的封装,成本范围很大。我们需要不同价格类别的不同封装类型。”
结论
小芯片提供了极大的设计自由,并有可能大幅提高性能和功率。事实上,人们普遍担心可能没有足够的功率来运行正在规划的所有 AI 数据中心。
西门子 EDA首席执行官 Mike Ellow 指出:“就为所有电子设备供电所需的电力而言,我们正处于一个发展轨迹上,因此,我们的最佳利益就是尽量减少这一发展轨迹。全球所需的数据中心数量将会增加。但在现有数据中心的电力占用空间中,您能否将容量增加三倍、四倍或五倍,并回收与之相关的资源?这是一个有趣的问题?”
这也需要更多地关注实际工作量、经济性和物理定律,所有这些都可能阻碍架构师推动这种方法的发展。先进芯片设计的未来无疑是异构的,但它也非常复杂。适应这种方法并找出什么可以最好地实现自动化以及如何实现自动化需要时间。有很多旋钮需要转动,目前仍有很多问题,比如什么在哪里最有效以及为什么。
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4023期内容,欢迎关注。
来源:小李科技讲堂