存储是人工智能的关键底座——《AI时代的存储基石》连载之一

360影视 欧美动漫 2025-05-19 11:52 2

摘要:2024 年2月发布的多模态生成式模型,标志着基础大模型正从单一数据处理向多维度信息整合演进。这类系统通过融合文本、图像、音频等多模态数据,实现更接近人类认 知的复杂信息处理能力,在医疗、交通、工业制造和气象预测等领域展现出显著应用 价值。近期,得到广泛采用的

编者按:

近日,益企研究院联手希捷发布了,该白皮书深入剖析了 AI 技术发展给数据存储带来的机遇与挑战,为各行业在 AI 浪潮下的存储决策提供了重要参考。

益企研究院将在近期摘取该白皮书的部分内容,以分享白皮书中的更多关于AI时代的存储洞察。

本期是系列连载的第一部分,作者为希捷科技市场营销高级副总裁Jason Feist。

自2022年底通用大模型技术取得突破以来,人工智能领域进入发展快车道。

2024 年2月发布的多模态生成式模型,标志着基础大模型正从单一数据处理向多维度信息整合演进。这类系统通过融合文本、图像、音频等多模态数据,实现更接近人类认 知的复杂信息处理能力,在医疗、交通、工业制造和气象预测等领域展现出显著应用 价值。近期,得到广泛采用的开源大模型通过系统性优化,在保持高性能的同时大幅 降低训练成本,引发行业广泛关注。而另一技术方案则通过大规模算力集群的部署,验证了算法效率与算力规模协同发展的重要性,为行业提供了多样化的技术路径参考。

从 2018 年始,希捷参与了益企研究院发起的数字中国万里行活动。几年来,数字中国万里行团队足迹遍布 “东数西算” 八大枢纽节点,考察了云计算、自动驾驶、高教、金 融、制造等相关行业上百个数据中心,见证了云计算、人工智能高速发展下的技术应用趋势和架构演进。

Jason Feist 希捷科技市场营销高级副总裁

2024 年,希捷科技再次联合益企研究院,针对不同行业场景深入调研和解读。我们 发现算力和存力的紧密结合,正推动着数字经济高质量发展。

基于本次调研,我们认为以下三个方面值得在更大的范围内进行探讨。

首先,随着数据的爆炸式增长,生成式AI应用走向普及,更丰富的内容、更频繁的复制以及更持久的数据留存,带来了更多的数据创建和存储需求。

根据市场研究机构 IDC 的预测, 到 2028 年, 全球预计将产生 394ZB 数据。而现代 数据中心存储的所有数据中,有 80% ~ 90% 是非结构化数据,包括文本文件、图像、视 频和电子邮件等,它们无法规则地纳入到传统数据库中。在 AI 赋能业务的过程中,企业利用数据的能力提升,带动数据存储、管理、使用的需求增长。用户越来越关注数 据存储容量、数据访问速度、设备与系统的能效等方面。

IDC:全球生成的数据中,只有不到 5% 会被保存下来。预计到 2028 年,存储在云端 的数据约 10ZB(具体构成如上图, HDD 占比约 80%,是 SSD 的 6 倍多) ,企业端约 6ZB,消费端约 4ZB

更重要的是,高质量数据是构建可信人工智能的支柱。数据的准确性、完整性、 一致 性和时效性直接影响着 AI 模型的训练效果和决策的可靠性。不准确的数据可能导致 模型产生错误的预测和判断。反之, 良好的数据管理,跟踪模型历史和数据脉络不仅可以帮助企业实现精准决策,还确保企业遵守人工智能法规。同时可以避免企业依赖于单一来源或者商业利益驱动下的专有数据,使 AI 模型更加全面准确地反映现实世 界情况,确保推理的可确定性。

其次,AI工作负载在不同阶段需要不同特点和类型的算力、存力支撑。

在大型数据中心部署中,AI 相关数据在使用和创建的无限循环中流动。工作流程的 每个阶段都需要不同组合的内存和存储设备。

AI 数据从源数据到训练模型、创建内容、存储内容、保留数据、重复利用数据的无限循环

AI 相关数据周而复始的无限循环从定义、查找和准备数据开始。通过网络访问的存 储便于共享和扩展,其中硬盘(HDD)能够长期保存原始数据并提供数据保护,固态盘(SSD)则充当可即时访问的数据层。在模型的训练过程中,先要快速地从存储 中加载数据到 HBM(高带宽内存)、DRAM 以及本地固态盘以供后续的计算密集型操作使用。网络硬盘和固态盘存储检查点,以保护和优化模型训练。推理过程中的内 容创建主要依靠 HBM、DRAM 和本地固态盘或硬盘完成。随后, 内容被存储起来,以 便不断进行优化。硬盘用于存储并保护内容的副本。在这一系列步骤之后,数据被妥善保存下来,成为构建可信赖 AI 的基础。最后,数据会被重新利用,为 AI 模型提供 反馈信息。网络硬盘和固态盘在不同的地理位置存储 AI 数据。

对模型训练来说,为了能够快速恢复训练,需要频繁创建检查点。大容量、高性能的 AI 存储系统能够显著节省训练所需的时间,并确保 AI 集群计算能力的高可用性。

数据的持续生成带来更多存储需求,而后者反过来又推动了数据生成和人工智能的进 化,形成了一种良性循环。

在大型数据中心部署中,大多数 AI 相关的数据最终都存储在大容量对象存储中

随着人工智能基础设施的更新,AI 工作负载在性能、容量和能耗方面对数据中心和边缘计算的存储提出了严峻挑战。数据的处理和存储在整个 AI 业务流程和生态系统中扮演着重要角色,而存储与计算共同构成了 AI 落地的关键基础设施。

最后,在AI相关的数据中心,对存储容量要求大幅增长,不同的存储介质在性能和可扩展性方面各具优势。

希捷的热辅助磁记录技术突破了硬盘面密度的增长瓶颈,有效提升了硬盘容量、性能和能效。

基于魔彩盒 3+(Mozaic 3+)技术的希捷银河新一代企业级硬盘,已经在超大规模数据中心部署。以希捷为代表的机械硬盘厂商与服务器厂商、最终用户紧密协作, 不断扩展存储能力,构建高可靠、高价值存储方案与服务, 以保证整体解决方案的性能 和稳定性,有效地激活数据价值。

结论

AI 时代,存储比以往任何时候都更为重要,因为它支撑着最核心的资产——数据。

在 AI 迅速发展的当下,数据成为了推动人工智能进步的关键要素。存储作为数据的载体,其重要性不言而喻。为了充分抓住 AI 带来的机遇,企业需要进行长期的、战略性的存储容量和性能规划。只有这样,才能满足 AI 对海量数据的存储需求,为人工智能的发展提供坚实的基础。

AI 生态系统的重构对计算、存储、网络等多种组件提出了更高的要求。存储作为人工智能大模型的关键基座, 不仅提供了数据存储和管理的基础支撑,还推动了生态互通。大模型缩放定律面临着算力、存力、能效等方面的挑战,计算与存储高度融合,才 能不断加速 AI 应用落地的步伐。

欲更好地理解该白皮书,您也可以访问益企研究院视频号,观看“《AI时代的存储基石》白皮书发布与解读”直播视频回放。

来源:DT时代

相关推荐