AI SSD是一剂什么样的药方?

360影视 日韩动漫 2025-09-08 11:15 2

摘要:试想一下大模型运转的场景:成百上千亿的参数需要实时调用,高并发推理场景下数据如潮水般涌向存储系统。HBM(高带宽内存)装不下持续增长的“货物”、HDD(机械硬盘)跟不上快速调取的节奏需求,性能与容量的双重局限,让大模型的潜力难以充分释放。

作者/雷晶

校对/Tina

策划/Eason

算力够了,数据存储却"卡住了"。

试想一下大模型运转的场景:成百上千亿的参数需要实时调用,高并发推理场景下数据如潮水般涌向存储系统。HBM(高带宽内存)装不下持续增长的“货物”、HDD(机械硬盘)跟不上快速调取的节奏需求,性能与容量的双重局限,让大模型的潜力难以充分释放。

这便是当前AI产业面临的困境。当大模型参数向着千亿级、万亿级持续突破,海量参数和高并发推理需求,正不断触及数据存储的天花板。

就在这样的行业困境下,专为AI场景量身打造的新一代存储产品,俨然成为了破解困局的利器。

SSD赛道正经历从传统存储硬件向智能存储解决方案的关键变革。早期由国外存储巨头主导技术标准与市场格局,如今随着国内存储产业的技术成熟与AI算力需求的爆发,国内厂商正加速在AI SSD领域实现技术突破与场景渗透,逐步重塑行业竞争版图。

当前AI SSD行业的真实现状究竟如何?所谓的“增长风口”是否只是短期热度?未来AI SSD该如何突破技术与市场的双重壁垒,找到可持续的发展路径?第一新声带着这些关键疑问,试图立足行业一线视角,厘清AI SSD在发展进程中沉淀的核心能力与现存痛点。

01 HBM、HDD拖了大模型后腿

随着大模型时代的到来,存储的逻辑正在被彻底改写。存储的创新不再局限于自身领域,而是与算力、网络、算法以及各个功能模块深度绑定,在产业链的多个环节迸发新的可能。

以大模型训练和推理为例,训练过程既需要存储海量数据库,又要实时高效地保存检查点等工作记录,对存储介质的容量和效能提出双重高要求。

而另一边,HBM供应告罄、HDD性能不足的双重瓶颈又在敲醒警钟。

在AI训练的算力金字塔中,HBM处于核心位置。它通过3D堆叠和硅通孔技术,实现了单颗1.2TB/s的带宽,成为GPU处理万亿参数的“数据高速公路”。

但这条高速公路并非畅通无阻,HBM正面临着三重枷锁。

一是产能跟不上导致的供需失衡。以行内头部企业为例,美光和SK海力士早在2025年第一季度就宣布全年HBM产能售罄,订单已排至2026年上半年。这种供需失衡也直接导致了HBM单颗成本增长,在高端AI服务器中成本占比逐渐拉高。

二是技术层面HBM正遭遇物理极限。当堆叠层数超过12层后会导致热量不好控制和生产合格产品比例下降的问题集中爆发。以SK海力士的12Hi HBM3E产品为例,其曾因信号完整性问题导致英伟达订单大幅缩减77%。

三是供应垄断加剧了产业困境。SK海力士、三星和美光控制着全球95%以上的HBM产能,英伟达单家就消耗了70%的产量。国产厂商虽已投产HBM产线,但在堆叠层数和传输速率上存在明显代差。这种技术壁垒使得HBM价格在2025年上涨15%-20%,进一步推高AI训练成本。

如果说HBM是大模型的高速缓存瓶颈,那么HDD则构成了数据搬运瓶颈,HDD也存在诸多局限。

一是吞吐量和延迟性能根本无法满足AI训练的高频需求。传统机械硬盘依赖物理磁头读写数据,顺序读写速度仅为200MB/s左右,是高端SSD的三十分之一。

二是HDD存在延迟问题。HDD的毫秒级延迟无法满足自动驾驶、高频交易等对延迟敏感的场景中产生的需求。据IDC数据显示,在高频交易等对延迟敏感的场景中,采用HDD的AI推理系统响应速度比SSD方案慢3-4倍,这直接导致HDD在AI存储市场的份额从2020年的77.4%骤降至2024年的57.3%。

三是成本优势的丧失加速了HDD的退场。虽然HDD单位存储成本仍比SSD低6倍,但全生命周期成本(TCO)已失去竞争力。以一块61.44TB容量的SSD为例,同样大小的机架空间,SSD能存储的数据量是HDD的十倍。这样五年下来仅电费就能省下70%,空间占用成本更是能降低90%。

除了HBM、HDD自身局限性外,大模型的进化速度也在倒逼存储基础设施重构。

第一,在数据采集阶段,“存不下”的问题开始凸显。随着AI基础设施投入加大,训练大参数模型需要海量语料,如何在实现数据的高效存储和便捷使用的同时控制成本,成为行业面临的首要挑战。

第二,在模型训练阶段,则面临“训不动”的困境。AI模型向超大参数、复杂结构演进,训练过程需处理万亿级别的参数更新与海量样本迭代,一旦存储系统无法及时响应训练过程中的数据调用需求,就会导致计算资源闲置、训练周期大幅延长,甚至出现训练任务中断的情况。

第三,在模型推理阶段,“推得慢”成为新的难题。AI的生产过程依赖推理,推理的体验直接影响用户感受。从过去简单的短序列问答,到如今多模态融合的长序列推理,短时间内快速处理和输出成为关键体验指标。

在AI时代的浪潮下,对存储系统的架构和设计有了新的要求。

02 AI SSD到底是什么?

面对这些需求与痛点,AI SSD应运而生,成为大模型时代的刚需。

AI SSD是什么呢?

AI SSD是专为人工智能工作负载优化的高性能、大容量固态硬盘,用于打破AI训推中存在的内存墙和容量墙两大瓶颈。

何为内存墙呢?简单来说,是指AI大模型依赖的HBM、DRAM(动态随机存储器)等高性能存储介质因容量有限无法承载模型参数,导致模型无法运行或者经常失忆,陷入有算力但用不上的空转状态。

何为容量墙呢?容量墙是指AI大模型依赖的海量数据因传统大容量存储介质性能差、体积大、能耗高,无法实现高效存储与快速调用,导致数据用不快,拖累整个流程效率。

针对这两大问题,AI SSD大致可分为两类。

第一类:解决内存墙的性能型AI SSD,主要用于扩展HBM,通过分级缓存推理数据满足低时延需求。

第二类:解决容量墙的容量型AI SSD,用于替代传统HDD,在保证大容量的同时,兼顾性能表现。

AI训练的算力军备竞赛中,存储性能已成为不可忽视的变量。

当前该赛道呈现国内外厂商同台竞技的格局。国内华为、忆恒创源、英韧科技等企业,从存储硬件性能突破、架构优化、场景适配等维度发力;国外美光、三星则凭借接口升级、技术创新抢占市场。

国内外厂商推出的多款旗舰产品,正从顺序读写速度、IOPS(每秒输入输出操作次数)、DWPD(每日全盘写入次数)等核心指标入手,解决AI训练中数据交互慢、算力浪费等关键问题,推动AI训练效率持续提升。

顺序读写是数据读写的一种特定方式,指数据在存储设备中是“连续存放”的,在读写时无需跳着找数据,直接按从头到尾的顺序依次操作,顺序读写速度即这种方式下的实际数据传输速度,是衡量AI SSD传输速度的重要指标。

在当前AI SSD产品中,国外厂商美光、铠侠旗下的产品顺序读分别可达到28GB/s和14.8GB/s,领先国内厂商。

而在性能赛道上,IOPS直接决定存储设备单位时间内处理数据请求的能力,高IOPS值可以解决传统存储I/O能力不足导致的小算力设备无法承载大模型微调的问题。

国内厂商中,华为最新发布的OceanDisk EX 560产品随机写可达1500K IOPS以上,属于业界最强。同比国外知名厂商,美光9650随机写仅为900K IOPS。

(单位:K IOPS)

而耐久性通常以DWPD(每日全盘写入次数)衡量,代表存储设备每天可支持的全盘数据擦写次数,高耐久性可应对AI训练中数据反复更新、高频擦写的需求,避免设备因频繁使用过早损耗,延长硬件生命周期。

华为的OceanDisk EX 560具备60 DWPD的超高耐久性,设备每天可支持60次全盘数据擦写,可适配千亿参数模型高频次训练场景,达到国内厂商中最高水平。国外厂商美光旗下产品7600仅支持每日3次全盘数据擦写。

此外,面对多模态训练数据的爆炸式增长,大容量AI SSD正成为刚需。

为应对海量非结构化数据存储与高速读写的挑战,国内外主流存储厂商纷纷推出专项产品,在容量、带宽和能效等关键指标上持续突破。目前,该赛道国内代表厂商为华为,海外则包括铠侠、美光与Solidigm等,均已有成熟的大容量解决方案落地。

容量大意味着单块SSD即可承载大规模多模态训练数据,无需通过多块小容量SSD拼接扩展,大幅降低了集群存储的硬件管理复杂度与兼容性风险。

(单位:TB)

在国内厂商中,华为的表现十分亮眼。其最新发布的OceanDisk LC 560其单盘物理容量达到了业界领先的245TB,这款产品专为集群训练场景设计,可将数据采集预处理效率提升6.6倍。

国外厂商中容量型AI SSD的产品不在少数。铠侠旗下的LC9系列SSD容量高达245TB,满足大型语言模型训练和检索增强生成推理对海量数据集存储的需求。

美光在6600 ION SSD产品上同样实现了245TB的单盘容量。该产品基于美光的G9 NAND打造,注重在高密度的同时提升能效和空间利用率,目标是构建大型AI数据湖和整合企业级数据中心基础设施。

Solidigm旗下的D5-P5336以122TB的容量成为容量型市场的另一强手,其读优化设计适合主流AI workload的读取密集型需求。

国内外厂商AI SSD产品上的差异化表现,实则是背后协同生态和技术路线的直观映射。

当前国内的AI存储竞争正从硬件比拼转向生态协同。华为联合11家伙伴启动AI SSD创新联盟,聚焦技术研发、场景孵化和标准制定三大方向。

而国际阵营则侧重跨领域技术整合。铠侠计划于2026年推出的AI SAQ软件,将使SSD具备自主处理AI检索任务的能力,这种"存储+AI"的深度融合有望重塑存储与计算的协作模式。而美光则是与北美云端服务商的定制化开发合作,使其AI SSD订单在2025年下半年迎来高峰。

从技术路线看,国内外厂商呈现差异化竞争态势。

国内厂商更注重"软硬协同"的实用主义策略,华为DiskBooster驱动,英韧科技AI加速引擎都是典型。而国际厂商则持续推进基础技术创新,从PCIe 6.0接口到XL-FLASH介质,构建起深厚的技术壁垒。

TrendForce的预测显示,随着AI服务器出货量激增,企业级SSD需求将保持25%的年增长率,其中北美市场占比超60%。

AI SSD从简单的存储设备,进化为AI算力释放的关键基础设施。当大模型竞赛进入深水区,存储性能的每一点提升都将转化为AI竞争力的代际优势,而这场静默的革命,才刚刚拉开序幕。

03 为什么是华为?

针对AI训练与推理场景带来的AI SSD,已实现了性能突破、容量扩容和寿命延长的技术构建。

作为国内厂商中亮眼的存在,华为AI SSD有着哪些创新的技术?

第一:全新XtremeLink架构

XtremeLink架构采用软硬协同的端到端优化方案,通过通路硬化+算法优化+NAND协同的三重设计,让AI SSD的性能实现突破。

要实现高性能,首先要解决数据传输的通路瓶颈。

华为自研主控架构核心突破在于数据流读写I/O全硬化与数控分离架构,相当于把传统SSD的单通道升级为高速双通道。

一方面,数据I/O全硬化让数据实现直通。无需经过软件层多次转发,直接通过硬件引擎完成闪存转换层查表、数据校验等核心操作,彻底消除软件转发带来的延迟损耗。

另一方面,华为创新采用数据I/O与管控命令分离设计。将数据传输与设备管控的指令拆分到两条独立通道,避免传统单通道中数据与指令抢资源的问题,大幅降低单通道负载压力。

这样既能保证数据传输的高速性,又能确保设备管控指令的实时性,让SSD在中高负载场景下仍能保持稳定性能,为后续性能提升奠定硬件基础。

解决了通路问题,还需应对AI场景中混合负载复杂的挑战。

华为通过端到端智能调度算法,根据不同负载特征动态优化信道传输策略,提升NAND闪存通道传输效率,从而提升SSD的整体性能表现。

高性能不仅需要“好路”与“好调度”,还需要NAND闪存与主控的深度适配。

不同厂商、不同规格的NAND闪存,其信号传输特性、擦写寿命存在差异,若采用通用适配方案,难以发挥潜力。华为通过NAND特质化算法协同调优,针对每款NAND的信号传输参数、时序特性进行定制化优化,确保主控与NAND之间的通信高效且稳定,性能潜力充分释放。

第二:业界首个满速率的大容量SSD盘

AI存储的容量焦虑并不小于性能需求。华为采用32Die高密堆叠技术,实现245TB的超大容量单盘。

大容量实现了,接下来是要保证数据传输速率与散热效率。华为AI SSD创新将SpeedFlex技术融入双层刚柔板设计,将更多闪存颗粒布局在立体空间中,使PCB的空间利用率提升1倍。同时,SpeedFlex技术还能优化散热路径,解决了多颗粒堆叠带来的发热问题。此外,华为还通过高速信号互联处理技术减少高速信号的传输距离,从而达到最优的读写性能。

第三:独创隔水舱技术

将SSD内部分为4个独立分区,每个分区独立运行,将故障影响半径降低至原来的1/4。

AI SSD不止于大,更在于大而可靠。在扩容的同时保障其可靠性同样重要。

传统SSD在故障的情况下会直接导致整盘都无法使用,为模型训练带来潜在风险。华为独创的隔水舱技术,将AI SSD内部分为四个区域,当某一分区出现故障时,仅该分区无法访问,其余3个分区仍能正常使用。此外,硬盘出现故障后,仅需对受损数据进行重构。以61.44TB的SSD为例,重构时间从过去的1.5天减少到8个小时,大大提升效率。

第四:DiskBooster驱动

利用智能多流和内存扩展技术,使盘级性能和可靠再得到更好的发挥。

AI场景的写入密集的特征,对SSD的寿命提出了严峻考验。DiskBooster本质上是在客户的应用以及AI SSD之间增加的一个驱动软件。通过驱动软件上的优化功能驱动AI SSD更强,在应用中发挥得更好。

智能多流技术是延长AI SSD寿命的核心抓手。在AI场景中,不同数据的生命周期差异显著。如果将所有数据混合存储,当部分短期数据失效时,需对整个存储块进行垃圾回收,就会产生大量无效写入,加速颗粒磨损。华为的智能多流技术能根据AI数据的生命周期特征,将不同类型的数据分配到独立的“数据流”中,分别存储在SSD的不同区块,减少颗粒磨损从而提升产品寿命。

而内存扩展技术则是通过智能调度算法来决定数据要放在哪里,保证性能和容量都得到充分利用。同时打破传统的存储路径在HBM、DRAM、AI SSD之间递进的单一路径模式,实现HBM直通数据到AI SSD,减少中转节点提高传输效率。

04 AI SSD演进存储新生态

AI SSD作为融合存储与计算的载体,正迅速成为新一代数据基础设施的关键力量。其发展主要呈现出三大趋势。

首先是容量的持续突破。3D NAND堆叠技术的持续突破,正在改写存储容量的天花板。同时,QLC等高密度技术也在推动单盘容量跃升,未来几年AI SSD容量达到512TB、1PB有望成现实。

其次是性能的跃迁。存算一体技术的突破进一步打破了传统存储的功能边界。通过算法革新使闪存芯片直接具备计算能力,新形态的AI SSD可支持上亿级并行计算任务,功耗仅为传统GPU方案的1/30。未来,SSD可能不仅是数据存储介质,更将承担部分简单计算任务,减少数据在存储与计算单元间的传输,大幅提升AI推理效率。

再者是场景的扩张。AI SSD的应用边界正从数据中心向千行百业延伸。IDC预测,到2028年全球企业级存储系统中全闪存阵列占比将超50%,企业级SSD出货容量将从2024年的219EB激增至517.6EB。存储行业的竞争焦点已从单一性能指标转向场景化解决方案。不同应用场景对存储的需求分化明显,也预示着AI SSD将进入细分市场的精耕时代,推动存储技术与行业应用的深度融合。

可以预见,在这场存储与智能融合的浪潮中,率先突破技术边界、构建场景化解决方案的企业,将引领下一轮数据基础设施的变革。

不过,行业仍需跨越技术标准统一、成本控制、算法与硬件适配效率等挑战。未来,AI SSD将成为驱动各行业数字化转型的“存力节点”,其行业价值与市场空间将迎来持续爆发。

来源:第一新声

相关推荐