Chiplet 如何破解 AI 算力困局?

360影视 日韩动漫 2025-05-16 17:10 1

摘要:semiengineering与 Arm 生态系统开发总监 Marc Meunier、 Cadence AI IP 产品营销总监 Jason Lawley、 Expedera 营销副总裁 Paul Karazuba、Keysight 高级总监 Alexande

AI 时代的芯片设计革命:从单一 SoC 到 Chiplet 生态。

semiengineering与 Arm 生态系统开发总监 Marc Meunier、 Cadence AI IP 产品营销总监 Jason Lawley、 Expedera 营销副总裁 Paul Karazuba、Keysight 高级总监 Alexander Petr、Quadric 首席营销官 Steve Roddy、西门子 EDA 高级综合部门项目总监 Russ Klein 和 Synopsys 战略项目和系统解决方案执行总监 Frank Schirrmeister 一起探讨了更多计算的需求和小芯片不断扩大的作用。以下是讨论的摘录。

Meunier:从人工智能的应用趋势来看,我们看到云领域正在蓬勃发展,包括更大规模的模型、多模态模型的引入以及大型语言模型(LLM)课程长度的增加。这推动了计算能力的发展,也带来了对更强大系统的需求,但却遭遇了功率预算有限的困境。因此,我们看到这种情况在大型云领域有所体现。我们也看到人工智能正在向企业和边缘计算领域扩散。我们看到的趋势是需要多样化的结构和多样化的系统来满足不同应用中不同人工智能模型的不同需求。

Lawley:纵观应用领域,我们发现有些公司走向了极端。有些公司专注于超低功耗、小型入耳式设备,并希望在其中添加 AI。也有些公司走向了另一个极端,比如 ADAS,他们拥有海量视频流,并试图计算所有这些数据。所有这些公司都有一个共同点,那就是功耗始终至关重要。因此,无论应用是什么,它们都有一定的功耗预算。我们称之为物理 AI—— 让 AI 有机会在无需电源的地方发挥作用。我们的重点是尝试利用我们的 IP 和 Chiplet 战略来解决这些领域的问题。

Karazuba:就 AI 加速器趋势而言,我们看到的是模型规模越来越大的趋势。这是一种向未知领域的发展,过去可能存在预先订购的模型 —— 但现在,随着 LLM、VLM 和其他类似模型的快速发展,人们期望 AI 能够处理所有这些。这意味着需要庞大、功能强大的软件堆栈和庞大、功能强大的硬件核心。在边缘计算领域,情况略有不同。当然,人们渴望使用 LLM,而且在很多情况下,人们渴望在边缘计算领域完全使用 LLM。但随之而来的是前面提到的功耗问题,我们看到很多客户主要转向多模态模型。我们看到很多客户正在探索小型语言模型作为 LLM 的替代方案。我们还看到客户开始探索 Transformer 的替代方案 —— 比如 Mamba,它可以降低内存占用。您将获得更快的推理速度,从而解决使用 LLM 和 VLM 时遇到的简单电源和内存问题。

Petr:在电源管理方面,我们看到大量光子技术的应用,这只是为了开发新的堆叠和通信技术,以便更好地利用电源。我们看到人们正在努力将功耗降低 1%,从而显著提升系统性能。在边缘计算领域,一个大趋势是在自主系统中部署神经网络(不仅仅是 LLM)。我们在汽车、无人机和人形机器人中都看到了这一点。我们也看到,围绕神经网络设计的 6G 技术被部署在接收器和发射器中,以便实时做出智能决策。因此,我们看到人工智能代理领域正在推动大量边缘硬件需求。

Roddy:我们看到了几个关键的变化。首先,大多数硅片设计师越来越意识到他们必须应对模型中的不确定性。模型在不断变化 ——LLM、SLM、VLM—— 这都无关紧要。几乎每个人醒来时都会想到:“现在是 2025 年,太好了。我要设计新的硅片。我不知道三年后当我生产出来时,我的客户会用它来做什么。” 因此,人们越来越重视灵活性,以便能够运行任何新事物。我们看到的另一个变化是可扩展性,这就是 Chiplet 的用武之地。在很多系统和应用程序中,公司都希望构建具有所需最低限度 AI 功能的基础模型硅片,并希望具备一定的扩展能力,无论是第二块芯片还是一个 Chiplet。我们清楚地看到,在汽车领域,有 10 万美元的汽车、5 万美元的汽车和入门级汽车,人们希望投资于单一平台并具有一定的可扩展性。但在人工智能 PC 和安防摄像头等应用中,你也能看到这种情况。因此,可扩展性和灵活性实际上是我们在多个领域反复看到的两件事。

Klein:我们发现,我们的客户群在推理方面有很多共鸣。人们试图将推理功能放入嵌入式系统中,而嵌入式系统的计算或功耗预算有限。能够将推理从处理器转移到定制的加速器上,可以显著提高性能,并显著降低功耗。因此,它解决了这两个问题。模型复杂性的增加促使许多客户开始考虑这种程度的定制,而过去他们可以使用 IP 或一系列处理单元。现在,更高程度的定制使他们能够获得更高的性能和更高的效率。

Schirrmeister:我们看到的趋势有两类。第一类是应用趋势。我们的行业充满规律,在应用领域,如果你听黄仁勋等人的演讲,你会发现他们谈论的是三条规律 —— 从上到下驱动一切的扩展规律。首先是训练前的扩展,即正式学习。

其次是训练后的扩展,即指导和辅导。第三是测试时的扩展推理,即模型的长期思考。这些规律在应用端驱动着一切。从数据中心到边缘,再到网络,各种各样的需求基本上都是从那里涓涓细流而下的。第二类趋势位于底层,也就是实现技术层面,你会看到计算、内存和互连的趋势和损耗。如果你只关注互连,即纵向 / 横向扩展,你会发现数据中心的内存阻碍了数据到计算、处理以及这些规律的传输。所有这些都推动了前所未有的 AI 加速器定制需求,进而催生了在各种工作负载驱动的流程中进行验证的需求。

因此,您需要最终处理您的 AI 工作负载,并查看您的 IP 在子系统、芯片组以及系统内的多芯片集成环境中的性能表现。从应用的角度来看,底层受限,而顶层却在疯狂增长,这导致了对架构智能化的需求。

Meunier:今年的 Chiplet 峰会令人大开眼界,让我们得以了解这项技术的演变以及市场对 Chiplet 的兴趣,而且它与 AI 息息相关。AI 将成为 Chiplet 的重要加速器。在如何封装以及如何实现 Chiplet 之间的互操作性方面,该领域仍有许多问题需要解决。但它为 AI 提供的是将加速器与计算紧密耦合的能力,并能够完成原本在效率或功耗方面受限的任务。当你将加速器与计算核心紧密耦合时,首先想到的一点就是能够扩展通常使用 HBM 内存的加速器所占用的内存空间。例如,你可以扩展 AI 加速器的内存空间,以利用连接到 CPU 的资源 ——DDR 内存或 CXL。因此,这些优化不仅仅是延迟和速度。它们还包括能够利用除了加速器之外的常规计算空间中的资源,同时最大程度地降低对延迟和速度的影响。

Schirrmeister:Chiplet 很有趣、很必要,而且不可避免。对我们来说,由于我们都做好了准备,它是复杂性危机的一个可喜的成果。但它确实会带来各种不同的影响,因此我们正在与 Arm 在生态系统方面合作,整合协议、查询和集线器接口以及 CHI(一致性和内存接口)实现。你们支持这些功能的哪些版本和哪些功能?对于服务器基础系统架构 (SBSA) 之类的系统,你需要确保验证这些结果。我专注于验证,以及对非常具体的验证技术的需求,例如互连验证,你需要通过计算单元运行大量的浸泡数据(Arm 称之为浸泡数据)。该计算单元连接到某种一致性设备。在芯片之间,它连接到 AI 加速器,并将所有驱动力都驱动到该加速器。但 AI 加速器内部可能不使用一致性,因此你必须与计算单元共享内存。从验证的角度来看,你只是增加了另一个千万亿个周期来验证。 Chiplet 领域的验证挑战在本就颇具挑战性且令人望而生畏的基础上又上升到了一个新的高度。它涉及延迟变化、更多的热效应、封装带来的多重效应等等。

Lawley:我们经常讨论 Chiplet 的 “四个 C” 原则。首先,成本效益。这意味着能够根据应用需求选择合适的工艺节点。其次,定制化。这意味着能够选择 AI,尤其是选择在特定 Chiplet 上部署合适规模的 AI。第三,可配置性。这使得您可以集成不同的 Chiplet,并在拥有 I/O 和计算能力的情况下进行选择,现在您需要不同规模的 AI。无论您的目标应用是什么,您都可以集成该 AI。您希望在明年或三年后拥有这种能力,届时可能需要新的架构来添加新的 AI。Chiplet 让您能够做到这一点,而无需破坏您正在构建的整个生态系统。我们正在研究如何实现这些目标,不仅从 AI 的角度,而且从整个生态系统的角度。

Roddy:Chiplet 最初是用于数据中心的巨型、超级昂贵、800 瓦的巨型集群,那里有充足的冷却设备等。但这种情况正在慢慢减少。我的手机还没有搭载 50 美元的应用处理器,该处理器使用四五个低成本封装的 chiplet,但这种情况正在发生。

如今,它是数据中心、汽车,可能还有其他一些不为人知的市场。但我们正在迅速接近这些市场,我们正在回到一个有趣的转折点,即我们如何看待 SoC 领域的设计起点。谁会砸下 2 亿美元去制造一个昂贵的 3nm 单片 SoC?设计起点将变得像以前一样多。30 多年前,我在 LSI Logic 工作,我们一家公司每年能生产 1,500 个 ASIC。每天都有大量的设计启动,因为它们的成本高达 5 万美元,而且每家系统公司都可以自行启动设计。我们会回到这个阶段。当你回到这样一个水平:大多数设计只需要六到十二个芯片,并将它们组装成一个廉价的封装,也许你可以自己设计一个逻辑单元,也许是模拟单元,也许它位于成本更低的旧节点上,而非常先进的节点组件将以模块化计算的形式出现。

Arm 将提供 1、2、4、8 和 16 核的芯片,我只需选择我需要的那个。我不需要重新设计那个部分。我只需利用它即可。这将是一场翻天覆地的变化,而人工智能是其中的一个关键要素,因为现在人们渴望模块化。其他公司也会有同样的需求。十年后,这场讨论将会非常有趣。所有这些设计启动以及如何实现所有这些,将会出现一系列其他问题。

Petr:Chiplet 并非新鲜事物。在各个领域,Chiplet 的应用由来已久。其主要驱动力基本上是集成挑战。技术尚未整合。这种情况我们屡见不鲜。例如,III-V 族材料无法应用于 CMOS 工艺。PCB 层面也是如此,整个行业都在朝着 IP 集成的方向发展。Chiplet 是介于两者之间的自然状态,基本上是将各种技术堆叠在一起。成本是其中一个驱动因素。为什么非要采用最小节点?如果其他节点也能做到,然后直接封装,那就太浪费钱了。

那么,Chiplet 的目标是什么?您希望将各种技术拼接在一起,实现多大的灵活性?如今,根据成本和能效,您可以选择不同的集成路径,并选择合适的集成度。这就是当今 Chiplet 发展的驱动力。

来源:半导体产业纵横

相关推荐