摘要:这个想法乍一看似乎很有吸引力。想象一下,如果存储设备(如 SSD)可以处理它们所保存的部分信息,那么在存储器和 CPU 之间移动的数据就会减少。从理论上讲,它可能有助于节省电量、减少数据传输需求并加快计算速度。
本文由半导体产业纵横(ID:ICVIEWS)编译自allaboutcircuits
如今已经有一些公司开始寻找新方法将部分 CPU 工作负载转移到 SSD。
计算存储的通用概念是死胡同,但利用固态硬盘的大量板载带宽的有针对性的加速器可能会有益于高性能计算。
几年前,业内人士开始讨论计算存储的概念。它被吹捧为如何最大限度地提高 CPU 处理能力这一古老问题的潜在答案。
这个想法乍一看似乎很有吸引力。想象一下,如果存储设备(如 SSD)可以处理它们所保存的部分信息,那么在存储器和 CPU 之间移动的数据就会减少。从理论上讲,它可能有助于节省电量、减少数据传输需求并加快计算速度。
然而,与许多看似革命性的想法一样,目前还没有办法将这一概念转化为商业应用——主要是因为每个用例都非常独特,而且根本不可扩展。
当工程师和开发人员谈论计算存储时,他们经常会提出不切实际的想法:“如果我们可以在驱动器上运行 Linux,并且为其配备更大的处理器,会怎么样?”虽然这个想法看起来很有创意,但缺乏重点和实际应用。这是一种被误导的思维,过于复杂,并且受技术理想主义的驱动。最终,它不会带来预期的好处。
了解 NAND 存储技术创新可以带来更好的方法,将处理负担转移到 SSD 上。使用定制的加速方法,我们可以专注于存储设备最适合的任务:将固定操作应用于逻辑块寻址 (LBA) 范围。
SSD 中的专用加速器可处理不需要过多功率或复杂性的特定任务。例如,硬件加速器可以非常高的速度执行特定操作:
符合条件的大型数据集。基于对象的擦除编码。校验和验证。在不相关的信息到达 CPU 之前就将其过滤掉。这样可以实现更快、更高效的数据处理,尤其是在数据中心或超级计算集群等高需求环境中。通过在 SSD 级别处理数据,您可以减少需要跨 PCIe 总线或通过网络移动的数据量。这可以缓解拥塞、缓解带宽限制并提高整体性能。
通过高度特定任务,这些加速器可以提供显著的好处,而不会增加大量成本或功耗。加速的SSD可以更快地处理大量数据,同时消耗的电量比传统处理器更少。重要的是,这种方法可以扩展到多个驱动器,从而创建一个更高效的并行系统,其性能优于传统的CPU绑定处理。
主机 CPU 可以比单个 SSD 更快地完成上述所有任务。但是,分配给非操作系统任务的总 CPU DRAM 带宽存在实际限制。此外,将数据从 SSD 移动到 DRAM 会消耗 CPU 可用 DDR 带宽的大约一半。
考虑到全闪存存储机箱可以有 30、60 甚至 90 个 SSD,这为设备提供了大量的卸载能力。具有 90 个 Gen6 SSD 的机箱可以以 2.5 TB/s 的速度处理数据,而不会影响任何 CPU 资源。在这种情况下,SSD 执行预过滤和预计算任务,而 CPU 则管理更重要的操作。
如今已经有一些公司开始寻找新方法将部分 CPU 工作负载转移到 SSD,这比定向加速器更进了一步。这包括将 CPU 集群添加到存储阵列。这里最大的区别在于,CPU 集群不是用于计算,而是用于实际运行 Web 服务或微服务。它们显示为 PCIe 总线上额外的可寻址 CXL 服务。
以一个涉及大量流水线的 AI 项目为例。其中一个大型语言模型 (LLM) 生成数据并输出,然后另一个 LLM 接收并转换数据并将其发送给另一个 LLM,依此类推。
一个例子是 TED 演讲的视频翻译。可以使用多个 LLM 来执行不同的任务:
提取英文音频并将其转换成文本。将文本翻译成中文。使用名人的声音制作音轨。最终的成果是该名人用中文以同步的嘴唇动作发表演讲的全新视频。
这种复杂的操作涉及许多通常由 CPU 或 GPU 处理的小步骤,并且需要大量模型交换。为什么不能使用 SSD 在后台执行这些小步骤,同时使用主 CPU 将任务委托给这些加速器并执行其他更高级别的任务?在高性能计算 (HPC) 组织中,结果可能令人印象深刻。
HPC 集群拥有 100 PB 的数据存储量(包括双重和三重冗余)并不罕见。集群可以将工作负载分散到 100,000 个 SSD 上。突然之间,原本需要一两天才能完成的操作现在只需几秒钟即可完成。
在大型 HPC 阵列中,SSD 数量如此之多,以至于 SSD 的带宽超过了整个网络或 CPU 的带宽。正是在这里,我们意识到 SSD 可以实现智能化,还有巨大的未开发空间。
HPC 用例主要涉及速度和计算,而安全用例则主要涉及坚如磐石的 FIPS 140-3 兼容产品,这些产品提供的安全服务远远超出了 TPM 2.0 所实现的功能。
SSD 每秒可以执行数百次加密操作,例如签名和验证 — 如果服务器有 30 到 90 个 SSD,处理能力也会相应增加。每个 SSD 都可以充当独立的基于硬件的代理,具有可指向您的 HSM(硬件安全模块)服务器的信任根。
总的来说,所有这些驱动器的性能都超过了单个强大 CPU 的性能,因为 CPU 并非设计为数字签名算法 (DSA) 引擎。多 SSD 性能加上服务器中已安装的硬件,在增强安全性方面具有巨大优势。
虽然一部分业内人士仍然认为传统的通用计算存储概念最终不会有任何进展,但我们确实看到了另一种计算存储方法可以成为资产的用例。有针对性的加速器使特定操作变得不那么复杂。而且,考虑到 SSD 的大量板载带宽以及以新方式利用这种能力的潜在好处,可能会在不久的将来带来一些令人兴奋的应用。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
来源:半导体产业纵横