摘要：然而，风驰电掣的AI正在改变存储的市场地位。伴随人工智能向千行百业加速渗透，数据规模的爆发和数据资产的重估上升为主旋律，推动金融、制造、医疗、科研等领域的数智化进程迈向纵深——作为海量数据的核心载体，存储日益成为不可或缺的主角，为AI的逐步落地保驾护航。

在IT基础设施中，存储的“存在感”一直并不突出，性能、容量、可靠性是其安身立命的“基本修养”，当好配角似乎即是终极使命。

然而，风驰电掣的AI正在改变存储的市场地位。伴随人工智能向千行百业加速渗透，数据规模的爆发和数据资产的重估上升为主旋律，推动金融、制造、医疗、科研等领域的数智化进程迈向纵深——作为海量数据的核心载体，存储日益成为不可或缺的主角，为AI的逐步落地保驾护航。

事实上，AI前行的每一段旅程，都留下了存储蜕变的脚印。在百模混战时期，大模型训练“以快为美”，需要存储提供TB级带宽支撑和百万级IOPS的性能表现；在行业大模型风起云涌的阶段，过于分散的专业化数据亟待整合，要求存储具备强大的数据跨域调度能力；在大模型场景化应用遍地开花的节点，存储必须提升数据安全和可持续性访问水平，才能为高精度模型和高质量数据集构筑坚实底座。

显而易见，在AI新时代，衡量存储产品与解决方案的标尺已不同于以往，存储市场的既有格局也将发生重大变化。但令不少行业客户困惑的是，在做出购买决策之前缺乏权威的标准体系和专业指导，找到擅长与AI共舞的存储合作伙伴殊非易事。

近日，MLCommons协会发布最新MLPerf™ Storage v1.0 AI存储基准测试成绩，有助于行业客户拨云见日。其中，浪潮信息分布式存储平台AS13000G7表现出众，在3D-UNet和CosmoFlow两个模型共计8项测试中5次折桂，堪称AI存储新赛道的开路先锋。

如果说“打榜”是最好的试金石，能有效解决客户选型的燃眉之急，那么围绕AI的存储创新则要经历更长时间的磨砺和考验，淬炼之后的宝剑方能拥有无坚不摧的锋芒。

打造AI存储的新标尺：基准测试贴近真实场景

在传统IT领域，各种机构发起的打榜竞赛层出不穷，其实际含金量呈现出边际递减的态势。与之不同的是，由于AI发展速度非常迅猛，令人信服的基准测试并不多见，市场空白亟待填补。

就存储而言，虽然业界每年都会定期发布IO500榜单，但契合AI场景的专业定义与评测方法却付之阙如。作为影响力最广的国际AI性能基准评测组织，MLPerf™于2023年推出全球首个且唯一的AI/ML存储基准测试，旨在以架构中立、具有代表性和可重复的方式，打造衡量多元AI工作负载下存储系统能力的新标尺。

据浪潮信息分布式存储方案架构师Lance SUN透露：与此前的V0.5版本相比，今年的V1.0版本在保留3D-UNet的基础上，增加了Cosmoflow和Resnet50模型，并基于GPU利用率高达90%或70%的条件，以带宽和支持的模拟加速器数量为关键性能指标，评估单客户端或集群模式下存储系统的综合表现。

不难看出，MLPerf™ V1.0版的存储基准测试具备权威性与专业性，且更贴近AI应用的真实场景，因此吸引了全球13家领先存储厂商和研究机构积极参与。在本次测试中，浪潮信息采用3台AS13000G7搭建分布式存储集群，搭载ICFS自研分布式文件系统，在3D-UNet和CosmoFlow两大评测任务中共获得五项最佳成绩。

值得关注的是，3D-UNet是图像分割领域最具影响力的AI模型，存储设备只有具备高带宽、低时延等特性，才能保证GPU始终处于高利用率状态。在图像分割3D-UNet多客户端2评测任务中，浪潮信息为10个客户端264个加速器提供了高达360GB/s的集群聚合带宽，单个存储节点带宽达到120GB/s，最大限度释放出算力潜能。

与3D-UNet类似，CosmoFlow也是典型的数据密集型应用场景，其参数量在10万到20万之间，越小的模型对时延要求越高。在宇宙学分析CosmoFlow单客户端2和多客户端2评测任务中，浪潮信息存储分别达成18 GB/s和52 GB/s的带宽最佳成绩，成为AI for Science领域的新标杆。

探索AI存储的创新路径：两大平台×“三高”方向

从某种意义上讲，基准测试相当于AI存储加速进化的助推器，但在广阔无垠的新赛道上，要想实现可持续健康成长，必须找到扎实的平台与澎湃的动力。

以平台分类的角度看，软件定义存储和阵列存储是当下市场的两大系统。前者主要面向AI大模型中的海量、多模态非结构化数据，追求极致的性价比；后者重点满足AI推理及生产应用中，客户对存储可靠性和低时延的需求。

浪潮信息存储产品线副总经理刘希猛认为，这两大产品线都应围绕AI进行深度转型，打造人工智能时代高性能、高效率、高韧性的存储平台——覆盖数据全生命周期，实现多协议数据融合、多样系统协作与集成，进而构建完善的存储解决方案。

高性能是AI存储破局的利器，致力于满足混合AI负载对存储读写带宽、IOPS以及低时延的多元要求。在带宽方面，浪潮信息研发数控分离架构，通过客户端并行EC，极大降低数据流转拷贝，较上一代架构写性能和读性能分别提高110%、60%；在IOPS方面，通过对大小IO的智能识别和分类治理，实现小文件性能提升5倍，并结合缓存预读技术使训练加载速度提升10倍。

高效率是AI存储创新的基石，多管齐下解决全生命周期的数据难题。浪潮信息分布式存储产品部副总经理安祥文认为，存储技术创新不能脱离具体场景，必须深入理解AI训练各阶段面临的挑战，才能找到最优路径。例如：在数据归集阶段，数据来源广泛、格式多样，存储需根据数据源提供不同的接入协议；在数据准备阶段，通常采用大数据Spark组件和Clip等工具进行数据清洗和标注，若存储仅支持单一协议，既耗费时间也浪费空间。

针对上述痛点，浪潮信息分布式存储支持非结构化协议融合，避免不同协议下数据的拷贝，最高可节省50%的数据存储空间；同时，借助全局元数据共享技术实现统一的单一命名空间，支持跨平台、跨形态、跨地域的全局数据管理，在高速池上可实现10亿文件秒级检索。

高韧性是AI存储长远发展的保障，必须构建全方位的防护体系。浪潮信息一方面通过故障的快速恢复、故障前的精准预测，有效降低系统异常的性能影响，确保服务的连续性；另一方面，强化数据保护与安全防护能力，保证高质量数据的完整、一致和持续可访问。

勾勒AI存储的未来图景：仰望星空与脚踏实地并重

根据权威研究机构发布的报告，AI带来的增量存储市场预计在2023至2033年保持20.7%的复合年增长率，2033年的市场规模有望突破1380亿美元。

浪潮信息存储产品线副总经理刘希猛也看好AI对存储市场的拉动效应，他认为AI产业化与产业AI化是核心动力——AI产业化主要涉及模型训练、语料生产和算法优化，产业AI化则覆盖千行百业的数智化进程，二者相辅相成将驱动存储市场迈上更高台阶。

前景光明，但道路依然曲折，增强研发储备方能行稳致远。浪潮信息分布式存储研发部总经理张在贵表示，为了满足AI训练不断升级的需求，浪潮信息一直加大研发投入，在整体架构、软硬协同等层面不断谋求突破，业已取得丰硕成果。

以某互联网客户大模型的存储实践为例：该客户原平台运行大模型，每次断点恢复都超过10分钟，每2～4小时一次续训，导致GPU近10%的时间在等待，造成算力浪费。浪潮信息针对客户模型特点和存储所需性能做了方案优化，增加全闪提升性能，将断点续训时间降低到分钟级；基于融合存储方案，归集准备数据可直接用于训练推理，使数据汇集准备时间节省30%。

据了解，浪潮信息的AI存储解决方案已在大型智算中心、科研平台等严苛场景得到广泛应用，并赢得主流行业客户的高度认可。在仰望技术创新星空的同时，不忘脚踏实地的奋斗， AI存储的未来之路才会越走越宽广。

来源：IT创事记

标签：分布式浪潮信息刘希

本文地址：https://news.43u.com.cn/a/234505.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!