专题报道 | 破局存算协同:如何筑牢AI时代的存力底座?

360影视 欧美动漫 2025-08-05 08:37 2

摘要:当数据存储的发展目标遇上AI大模型的爆发式算力需求,存力产业正经历从“容量竞赛”到“效能革命”的转折挑战。存算网协同也逐渐成为行业公认的贯通存力、算力与运力的核心路径,正在重塑包括芯片在内的全产业链生态格局。就存储侧而言,如何推动国产SSD从简单的存储介质升级

通信世界网消息(CWW)当数据存储的发展目标遇上AI大模型的爆发式算力需求,存力产业正经历从“容量竞赛”到“效能革命”的转折挑战。存算网协同也逐渐成为行业公认的贯通存力、算力与运力的核心路径,正在重塑包括芯片在内的全产业链生态格局。就存储侧而言,如何推动国产SSD从简单的存储介质升级为数据智能调度中枢,成为存力产业变革的关键目标。

日前,聚焦“算网一体化中的存力挑战”,工信智媒体(通信世界)以“存算协同的未来趋势与绿色生态构建”为讨论主题,邀请信通院、运营商、中兴通讯以及平头哥半导体等行业专家进行沙龙座谈,从全局视角切入,分析存力问题的现状、运营商业务需求及产业链动态,探索技术突破方向与生态合作路径。


存力困境:AI倒逼存算与时俱进

在传统存力时代,数据存储主要聚焦于数据的安全保存与基础读写功能。存储设备如同单纯的数据仓库,只是被动地接收和存储数据,缺乏对数据的智能管理与高效调度。

随着AI技术的迅猛发展,尤其是大模型、深度学习等应用的兴起,数据量爆发式增长的同时,数据类型也愈发复杂多样,这使得传统存力在应对AI需求时也暴露出资源分布不均、协同调度不足等诸多痛点。

中国信息通信研究院云计算与大数据研究所总工郭亮认为,大模型训练、推理对存储需求存在差异,对于训练来说,更关注的是TB级训练数据高并发读写和分布式写入,有效地缩短训练周期;对于推理来说,需要提供低延迟的读写和高IOPS的能力来确保模型的实时响应性。“对大模型推理来说,AI原生存储比较重要,也是行业关注的重点方向。”

中国联通研究院下一代互联网研究部总监曹畅指出,当前AI大模型训练和推理等核心场景,对存力提出了多维度的严苛要求:在数据处理能力上,需具备高IOPS和大带宽,满足高速读写需求;减少计算资源等待时间容量方面,要从TB级扩展到PB级以上,以容纳海量非结构化数据;低延迟访问对实时AI应用也至关重要,还需具备良好的可扩展性,适应数据量和模型规模的增长,并且在能耗与成本上进行优化。

随着AI大模型的快速迭代创新,冷数据逐渐变热,更多的热数据带动存储介质向全闪化演进。与此同时,大模型训练需要的数据源深度持续拓展,数据存储周期显著加长,也带动了行业对于大容量、低成本、高可靠存储技术的需求。

不仅如此,大模型训练中数据清洗阶段还需要存储提供多协议、高性能的支持以缩短数据预处理的时长。此外,为了有效地避免算力资源浪费,训练参数、数据等需要定期保存,作为Checkpoint需要具备快速读写的存储来高效利用算力资源,提高训练的效率。这些需求从不同的维度拉动了对先进存储的需求。

“先进存力提升的目标,不仅体现在容量规模上,更重要的是存力质量。”平头哥半导体产品总监周冠锋认为,高质量存力应具备高性能、低时延、高可靠、高能效、高性能平稳度、良好接口兼容性、高易用性及易部署等特征。“具体到AI训练对底层存储部件的核心要求是‘四角性能’:更高的读写速度、带宽、IOPS,以及更低的时延。”

国家层面的战略布局也为先进存储发展注入强劲动能。2024年工业和信息化部等六部门联合发布的《算力基础设施高质量发展行动计划》明确提出,到2025年我国存储总量要达到1800EB,且先进存储容量占比需超过30%。

由此可见,存力政策与技术的协同效应正在释放巨大市场空间。据IDC和Gartner预测,2025年中国存储产业上游产业链产值将超2600亿元,中下游产值则突破8000亿元,形成万亿级市场规模。

协同破局:存算网协同凝聚产业共识

人工智能与数字化转型正在重塑存储需求的结构与规模,存算网一体化成为提升资源效能的关键路径。从长远来看,存算网协同的深化离不开产业链各环节的精密配合,行业有待形成以标准为引领、场景为驱动、技术为支撑的生态体系。

中国信通院作为存算网协同发展的关键引领者与标准规范者,在产业研究、技术创新、生态共建等方面带领产业进步。

运营商作为核心践行者,以场景需求为导向,在技术探索、规模落地与生态构建中展现了主力军担当。在技术层面,运营商重点聚焦分级存储与架构创新,构建适配AI、云业务的多层次存储体系;在场景落地中,运营商以大规模集群运营为抓手,推动技术普惠;在生态层面,运营商锚定国产化与绿色低碳目标,引领产业协同。

谈及运营商如何推进存算协同以提升网络服务效率与质量时,中国移动数智化部发展规划处高级项目总监高从文认为,如何通过更有效的互联方式整合算力是算力发展的热点,包括计算芯片与HBM的带宽、卡间互联带宽、节点间互联带宽及机架间互联带宽等。

运营商基于层级业务特性,采用“分层存储+弹性计算+适配网络”的混合架构,如对于核心节点,优先保障可靠性(冗余设计),通过集中化部署降低单节点成本(如共享存储池减少重复投入)。对于边缘节点/接入节点,采用轻量化、低成本策略。

细化到技术层面,产业链上游的芯片厂商是存算协同技术创新的核心驱动力,通过技术创新,深化与存储生态的合作,支撑运营商各业务场景的存储需求。

从芯片层面,周冠锋指出,在SSD领域,无论是主控企业还是模组企业,都在集中精力卷“四角性能”。而除了这些性能,平头哥在实践中发现,用户对存储服务质量(QoS)以及中低压力下的带宽达成率也非常关注,而这两方面恰恰也是SSD设计过程中面临的难点。

从存储系统解决产品和方案角度来看,中兴通讯算力规划总工程师朱认为,SSD的带宽、IOPS以及时延是衡量AI存储的主要性能指标。除了读写时延绝对值外,低时延抖动对于AI应用的性能保障也非常关键。未来SSD除了在性能、密度、寿命方面继续不断提升之外,针对后续GEN6服务器特性以及CPU能力的提升,SSD的GEN6特性配合大容量预计是后续演进的一个重要方向。


闪存突围:SSD迈向成本与能效双优

正如数据有“热温冷”的分层特征,存储技术的选择与迭代也应适配数据特性。尤其是面对算力基础设施能耗的挑战,算力环节虽然常被视为核心焦点,但存力的适配性不足正以隐性方式加剧整体能耗负担。

当存力无法匹配算力需求时,GPU因数据供给不足将陷入“空转”;数据在存储与计算节点间的低效传输以及冷热数据混存导致的冗余能耗都是在变相加重能耗负担

因此,先进存力技术的突破也是能耗优化的关键支点。

值得注意的是,节能特性使SSD在“双碳”目标下占据独特优势。谈及节能SSD芯片在AI存力体系中有何战略地位,郭亮认为,SSD的能效比通常是HDD的5~10倍,PUE已被压缩到1.2以下的数据中心里,存储设备能耗占比开始凸显,SSD的引入可以进一步降低能源损耗。因此,SSD不仅是“先进”的技术符号,也比较契合当前产业的数智化发展需求。

谈及存储设备中引入SSD能发挥哪些具体作用,中国电信研究院战略所云网中心副主任分析师王田媛认为,鉴于SSD在高并发场景下能够支撑更高吞吐量的数据传输及读写速度,以及SSD本身的高密度、低能耗特性能够带来实际机房能耗的显著降低。在老旧IT系统改造/搬迁、网络及IT系统扩容的过程中,应充分考虑业务实际运行的性能要求,在实际资源容量规划、配置选型、方案设计中充分考虑引入SSD的必要性,逐步推进SSD在现网的应用推进实现降本增效及绿色节能

先进技术最终还需在产品与服务实践中验证。针对运营商推进算网一体化面临的存力高时延、低能效等痛点,SSD应如何发力?

SSD需聚焦降本增效,既要发挥性能优势,又要降低成本。周冠锋介绍道,“目前SSD核心构成包括主控、固件、DRAM和NAND Flash。其中主控和NAND功耗是整盘功耗的主要部分,降低主控能耗一直是平头哥半导体的持续探索方向。”

全球SSD主控芯片也大体可以分为两种技术路线:一种类似NPU的特定硬件设计,另一种更为软化,使用大量的通用CPU core堆叠。周冠锋认为,SSD的最优方案是提前SSD所有任务进行合理分解,明确哪些适合硬件实现、哪些适合CPU处理。

为了突破性能和能效的瓶颈,镇岳510 SSD主控芯片的架构设计是一种“紧耦合”架构,芯片硬件与芯片内运行的固件能够严丝合缝紧密配合,一方面SSD任务会被合理分解至固件和芯片硬件,既保留合理的灵活性,又提高执行效率;另一方面固件与硬件性能良好匹配,防止过设计现象。

朱堃认为,SSD的性能和功耗是一对矛盾,在设计时需要考虑在性能和单位容量功耗之间均衡;在能效设计方面建议SSD能够提供在线性能功耗策略设置能力,使得存储系统可以根据实际负载灵活做出调节。

运营商作为存力建设的主力军,在推动产业升级中扮演着关键角色。除了传统的容量、性能、可靠性指标,近年来其对国产化率、能效比、全生命周期成本的权重显著提升,这种“需求牵引”正倒逼产业链从“单一产品比拼”转向“系统级解决方案竞争”。

可以说,运营商的需求与行业期待在成为国产SSD崛起的关键推手。

具体到SSD如何满足性能与节能的双重需求,与会专家普遍认为QLC闪存更具有发展潜力。

高从文认为,在SSD应用初期,用户曾担忧其耐用性,随着近年应用经验的积累,用户已能系统把控业务的写入量情况,并合理选择适合业务需求的SSD产品。另一方面,随着SSD在数据存储介质中的占比逐渐提升,成本将受到更多关注。QLC NAND等价格更低的存储介质未来可能会有更多的应用场景。

另一位专家指出,不同应用场景对存储参数的要求存在差异。对于云的分布式存储系统而言,对单盘的性能要求不高,但对集群性能要求较高;在性能要求不高的场景下,成本是关键考量因素。QLC作为新介质,是降低存储成本、提升能效的有效手段。

此外,在关注性能和成本之余,一个设计优秀的SSD也应提高存储系统的运维能力周冠锋提醒,存储系统因为网络拥塞、某个时刻SSD内后台的不正常操作等都可能导致性能异常波动等故障,要想及时定位并排除故障是运维上的难题。目前行业上并没有统一的标准来规范SSD运行过程中的信息统计,哪些要记录,到什么精度,哪些需要实时等,这有赖于产业上下游的合作探索。

对此,朱堃补充道,除了基础运维之外,厂家可以通过引入智算的趋势判断、坏颗粒检测等技术能力和解决方案来打造差异化优势。

整体来看,国产存储产业正经历从“跟跑”到“并跑”的关键跨越。工信智媒体(通信世界)总编辑刘启诚最后总结道,未来要真正实现降本增效,既需要通过规模化采购摊薄成本,更需要构建“芯片-设备-系统-服务”的协同创新机制,避免陷入“低端同质化竞争”的泥潭。

总而言之,AI时代的存算变革已箭在弦上。存力作为数字经济的核心底座,其发展不仅关乎数据要素的高效利用,更决定着算力效能的释放与AI创新的边界。未来,唯有推动存力、算力、运力真正实现协同,才能充分释放数据价值,让存算网协同成为驱动数字经济高质量发展的澎湃动能。

提交有效问卷即可获得礼品

来源:通信世界

相关推荐