《AI时代的存储基石》白皮书发布与解读(上)

360影视 动漫周边 2025-04-07 19:15 1

摘要:日前,益企研究院携手希捷科技发布了《AI时代的存储基石》白皮书。该白皮书深入剖析了AI技术发展给数据存储带来的机遇与挑战,为各行业在AI浪潮下的存储决策提供了重要参考。

编者按:

日前,益企研究院携手希捷科技发布了《AI时代的存储基石》白皮书。该白皮书深入剖析了AI技术发展给数据存储带来的机遇与挑战,为各行业在AI浪潮下的存储决策提供了重要参考。

在白皮书发布的当天,益企研究院以为主题,通过视频号进行了直播。在直播中,益企研究院创始人、首席研究员张广彬(狒哥)、高级研究员张翼(翼哥)、高级研究员祁金华共同就白皮书的内容进行了详细的解读,深入探讨和交流了AI时代存储和存储架构的一些问题。

本文是此次直播的精彩观点整理的第一部分。


问题1:存储分为不同的形式、设备和系统,在AI时代,如何理解存力与算力的协同?


狒哥:首先引用一下希捷科技市场营销高级副总裁Jason Feist在这本白皮书前言里的一句话,体现了希捷作为行业领先的数据存储设备公司的洞察。他表示,随着数据的爆炸式增长,生成式AI应用走向普及,更丰富的内容、更频繁的复制以及更持久的数据留存,带来了更多的数据创建和存储需求。


AI生成的内容,一般都会被保留下来,不会轻易删除。以大模型应用为例,无论是元宝、通义千问,还是DeepSeek,都不会轻易删除你问的历史问题。

那就会带来更多的数据创建和存储的需求,随着AI的发展,对于存储的容量需求必然会越来越多。

而对于存储的性能需求,则是在AI的不同生命周期,需要以不同的方式去满足。

上面展示了不同的存储设备,大家可以看到,在数据流转过程中,不能只靠内存(DRAM),或是HBM(高带宽内存)或者SSD(固态盘)、HDD(硬盘)等某一种存储来实现数据存储的需求,而是要依赖不同的介质形成系统合力来解决存储的问题。


问题2:OpenAI创始人之一Ilya Sutskever最近半年在多次公开演讲中说,虽然计算在增长,但数据却没有增长,预训练已经终结。这是不是会动摇现有算力、存力的关系?或者说,是不是会意味着存力不重要了?


翼哥:Ilya的这个观点,核心内容是说,高质量的文本数据已经近乎穷尽了,这会导致未来更大规模参数的模型,会存在训练不足的可能性,这会给通用AI的发展留下阴影。

但实际上他说的只是纯文本数据,而我们可以用于训练的数据,可以是多模态的数据。比如说典型的诸如自动驾驶的训练,就需要大量的视频片段,甚至包括合成数据。所以说,随着多模态训练和对物理世界的理解需求的AI出现,需要更多的数据去参与训练,也就意味着存力依然重要,甚至因为多模态训练的需求而变得更加重要了。

狒哥:英伟达(NVIDIA)CEO黄仁勋近年来在GTC的主题演讲上都会有与自动驾驶相关的环节。自动驾驶在过去的这些年已经取得了一些进展,大家在世界各地的实验道路甚至是真实道路上,都看到过一些自动驾驶的汽车,的确是在多模态的训练领域有一些重大的需求。

即便回到大模型本身,黄仁勋也在刚结束不久的GTC上提到三个基本要素:首先是如何解决数据的问题;第二是如何解决训练的问题;第三是如何实现规模化。在训练这一点,他重点提到的就是无需人工干预。

另外,尽管不是模型或者算法方面的专家,但是从个人的观察来看,DeepSeek训练其V3或者R1的时候,实际使用的数据量也不是特别大。

参考十年前谷歌AlphaGo的训练过程,我们或许在大模型的训练过程中,也不一定要无穷无尽的数据。

另外,一些后训练和微调的环节,也需要数据和存储,尤其是行业数据这些非公开数据的使用。当然,DeepSeek带来的热潮,也会带动推理的市场。大家都可以较低成本部署DeepSeek之后,可以有大量的数据被用来做推理。之前这些数据可能跟AI并不相关,现在就都变成AI相关数据了。

综合来看,有可能以后所有数据都与AI相关,这就整体带动了AI相关市场的数据量。


问题3:AI生命周期中,都会遭遇数据存储问题。在你们看来,有哪些环节的数据存储目前是受忽略的?


狒哥:大模型的全生命周期,一般来说可以分为数据准备阶段、训练阶段(开发)和推理阶段(使用)。

在整个生命周期过程中,数据其实不仅是在不同的存储之间流转,甚至会在内存(Memory)和存储(Storage)之间流转,会在不同的算力设备CPU、GPU之间流转。

从上面的图来看,在大模型生命周期中,数据分为了五个阶段,中间的三个阶段是跟训练相关的。而数据呢,会在CPU、GPU以及硬盘(HDD)和固态盘(SSD)之间流转,整体来说体现得比较形象。


问题4:数据准备、训练和推理三个阶段,数据存储有什么不一样?


翼哥:在数据准备阶段,数据量比较大,但是对存储的性能要求并不那么高。相对来说,大家在这个阶段使用的都是硬盘。

狒哥:大家以为训练耗时最长,但可能准备数据花的时间更长,即准备数据比真正训练消耗的时间还多。

GPU是很好的算力设备,但是它的能力在于很强的并发处理能力,尚不擅长做一些特别复杂的处理,这就要用到CPU的能力。需要利用CPU来完成数据的转换,在这个过程中,瓶颈可能就在CPU而不是GPU。

从上面Meta的例子可知,从能耗的角度来看,在训练阶段占据的能耗甚至会不超过50%。因此,我们可以知道在很多时候,存储其实不是瓶颈,反而CPU会是瓶颈。


问题5:除了上面所提的数据采集阶段,那在训练和推理阶段,存储的需求又是什么呢?


翼哥:我们在撰写白皮书的过程中,发现大模型训练的检查点数据,并不一定要写入到SSD。

狒哥:所谓检查点(checkpoint),就是在训练过程中应对中断的一种技术手段。根据Meta去年公布的Llama 3的训练来说,它有54天的预训练周期,平均不到3小时就会出现一次意外中断,如下图所示。

因此,大模型预训练企业就借鉴了HPC领域的一个概念——检查点技术,就是定期给训练状态做一个快照。方法是等训练进行到一定阶段,就将训练暂停,然后将GPU中的数据转移到存储设备中,如果训练由于设备错误等原因被中断,再由最近的或者选择一个检查点进行恢复,这就是检查点的工作原理。

在训练过程中,计算与I/O(Checkpointing)的交替进行(来源:NVIDIA)

翼哥:算力设备在创建检查点的时候,GPU会暂停。大家都知道,GPU目前是非常贵的一个产品,如果它闲着,那就是浪费。所以,应该尽可能快的完成检查点的保存工作。

最符合直觉的一个做法,就是应该把检查点写入到高性能的SSD存储设备,但实际上,把检查点写入SSD并不是检查点备份这项工作的结束。因为企业不能把检查点数据长期保存在本地SSD上面,它必须传送到网络上的存储集群。

那么,在这种情况下,SSD快速写的优势就被消解了。

另外,创建检查点的操作会越来越频繁。上面提及Meta的检查点创建周期应不超过两个小时,而在实际上,很多企业已经把检查点周期一再缩短,从半个小时到15分钟甚至更短的都有。可能因为集群规模越大,故障出现的可能性就越高。

在如此频繁的检查点创建过程中,即便是本地SSD也无法承担这样的写入频率。一些企业就有了新的思路,那就是先把检查点数据转移到(CPU的)内存中,然后GPU继续进行训练,由CPU主导,将检查点的存储过程跳过本地SSD,异步将相关数据写入网络存储。

在这个过程中,网络存储采用的是SDD闪存盘还是HDD硬盘,已经不再重要了。只要网络速度满足需求,集群整体的性能能够满足需求,就能够完成检查点存储和恢复的需要。

狒哥:这种异步操作的好处是,GPU将检查点数据从GPU的内存(显存)中转移到CPU的内存中,将检查点的快照制作与存储,解耦成了两个步骤,那就能够很快的解放GPU的负载。检查点的快照制作一般只需要数秒即可完成,这样GPU继续预训练工作,CPU去完成检查点数据的存储。

那么在异步状态下,写入检查点数据所花费的时间,(理论上)只要小于检查点生成的时间间隔即可,企业就没有必要追求极致性能的检查点存储设备,从这一点来说,可以兼顾性能和效率。


问题6:在推理阶段有什么不一样的存储需求?


翼哥:其实在推理阶段,除了RAG的向量数据库之外,设备对存储的性能要求也并没有大家想象的那么高。在推理阶段,生成Token对算力和内存的压力可能会比较大,但是对存储和网络带宽等都不会有太大压力。

不过,推理的广泛应用,会导致数据生产的能力大幅度增加。现在只要利用大模型,就能够很方便的实现文生图片、文生视频,这其中已经不太需要图片设计师和视频工作者的专业能力了。

这就导致人类的数据生产能力大爆发,跟之前相比,甚至都不是十倍百倍的关系,而是千倍万倍的增长。

(未完待续)

来源:DT时代

相关推荐