摘要:英特尔在Hot Chips 2025大会上详细介绍了将在明年量产的下一代至强E核处理器Clearwater Forest,采用18A工艺制造、Foveros Direct 3D先进封装,单路具备至高288个CPU核心。
英特尔在Hot Chips 2025大会上详细介绍了将在明年量产的下一代至强E核处理器Clearwater Forest,采用18A工艺制造、Foveros Direct 3D先进封装,单路具备至高288个CPU核心。
就像至强6系列被划分为P核和E核版本,下一代至强家族也分为仅P核的Diamond Rapids和仅E核的Clear Water Forest系列。P核家族针对性能进行了优化,能够处理更计算密集型和AI工作负载,而仅E核的家族则针对效率进行了优化,能够处理高密度/扩展工作负载。
英特尔Clearwater Forest基于18A工艺,采用背面金属与环绕栅极相结合的方式,带来的好处远不止FET Z轴的微缩。18A节点降低了栅极电容,从而提升了核心逻辑的能效;实现了更高的单元密度,单元利用率超90%;改进了信号布线,有助于降低RC延迟,进一步提升效率;最后,还实现了低损耗的电力传输,损耗降低了4 - 5%。
在架构方面,英特尔为Clearwater Forest采用了其Darkmont E-Core设计,这是对 Sierra Forest中使用的Sierra Glen E-Core的更新。Clearwater Forest"相较Sierra Forest有着17%的IPC改进,这得益于更宽的 3×3解码前端、更准确的分支预测、更宽的乱序引擎和执行引擎、优化的核心存储子系统。
前端具有64KB的指令缓存,还有3个3指令宽度的指令解码器,这些解码器每个处理周期可以解码9条指令,从而使得指令带宽提升了50%。此外,前端还配备了一个更加精准的分支预测器,它可能运用了深度分支历史记录以及更大的结构尺寸。
乱序引擎也得到了升级,分配宽度达到8(增加了60%),退休宽度达到16(增加了2倍),从而提升了执行的并行性。乱序窗口的入口大小增加了60%,达到416个单位,而26个执行端口比上一代增加了50%。
执行引擎拥有26个执行端口,用于处理各种工作负载,而专用硬件则提供了更高的效率。整数和矢量执行单元增加了2倍,加载地址生成增加了1.5倍,而存储地址生成则提升了2倍。
核心内存子系统将三负载增加了50%,而两存储保持不变。提前加载可能有助于减少延迟。深度缓冲支持多达128个未决的L2缺失(增加了2倍)。此外,Clearwater Forest还配备了高级预取器。
英特尔还为Clearwater Forest至强处理器采用了一种新的模块化架构,每个4核集群配备4MB统一L2缓存,延迟周期为17,最多可达288MB的L2。L2缓存还提供了更高的带宽,最高可达原速度的2倍,也就是400GB/s。每个4核集群有8MB的LLC,由于芯片上有72个这样的集群,因此整个芯片的LLC总容量达到了576MB。
根据SpecIntRate'17的测试结果,IPC(Instruction Per Cycle,即每周期指令数,是衡量处理器性能的一个重要指标)提升了17%。每个核心与L2缓存共享200GB/s的带宽,而35GB/s的结构互连将集群连接在一起。
英特尔在构建Clearwater Forest时采用了全3D架构,总共有12个基于18A制程的能效核CPU芯粒,这些芯粒位于3个单独的基底芯片上,包括结构(Fabric)、LLC(最后一级缓存)、内存控制器和I/O,这些基底芯片基于Intel 3制程工艺节点。中介层上有两个基于 Intel 7制程的I/O芯粒,提供高速I/O、结构和加速器。通信由英特尔的EMIB(嵌入式多芯片互连桥接)互连解决方案处理。
Clearwater Forest还采用了单片网格一致性结构,这种结构利用更短的路径、更多的金属资源以及高密度互连来提升能效。
最后,英特尔分享了一些双路Clearwater E-Core Xeon解决方案的性能指标。这些CPU支持12通道DDR5-8000内存,在双路服务器中内存容量可达3TB,内存带宽高达1300GB/s。相比之下,英特尔的Sierra Forest支持12通道DDR5-6400 DRAM。该平台支持2×96 PCIe Gen5和64个CXL通道,144个UPI(576GB/s),而576核+1152MB LLC的解决方案,可达到高达59TF/s的性能,提供5000GB/s的原始带宽。
来源:CHIP奇谱