摘要:近期,DeepSeek推出的3FS分布式存储系统凭借其创新性技术突破,迅速成为行业焦点。作为专为AI训练场景设计的存储解决方案,3FS通过硬件加速、场景化优化及分布式架构的深度融合,成功打破传统存储架构的桎梏,为万亿参数模型训练提供了坚实底座。其链式复制机制、
近期,DeepSeek推出的3FS分布式存储系统凭借其创新性技术突破,迅速成为行业焦点。作为专为AI训练场景设计的存储解决方案,3FS通过硬件加速、场景化优化及分布式架构的深度融合,成功打破传统存储架构的桎梏,为万亿参数模型训练提供了坚实底座。其链式复制机制、FFRecord格式优化等创新设计,不仅重新定义了AI存储的技术标准,更标志着专用存储系统在支撑超大规模模型训练中的不可替代性。
在这场存储技术革新中,曙光存储ParaStor与3FS展现出高度的技术趋同性,二者通过相似的技术路径共同推动着AI基础设施的进化,在此基础上还具备国产化的生态优势。
曙光存储ParaStor和3FS均以RDMA技术为核心,通过零拷贝机制将网络延迟降至微秒级,使200Gbps网卡利用率突破90%。在此基础上,两者创新性引入硬件卸载技术,将数据校验、协议解析等任务交由智能网卡处理。
实测显示,硬件卸载可使存储读响应时间缩短40%,同时释放30%以上CPU算力用于模型训练。这种“存储即服务”的设计理念,彻底颠覆了传统存储依赖CPU资源的模式,为AI集群释放出更多算力空间。
针对AI训练特有的小文件高并发、数据访问局部性及混合负载特性,曙光存储ParaStor和3FS均构建了多层优化体系:
✅ 元数据分片技术:将百万量级小文件的元数据请求分散至多个控制节点,使查询吞吐量提升5倍以上,支撑万级客户端并发访问。
✅ 智能预取与缓存分层:通过分析训练任务的数据访问模式,提前将数据从HDD预加载至NVMe缓存,使ResNet-152单epoch训练时间缩短18%。
✅ QoS感知调度引擎:动态分配带宽与IO优先级,确保模型训练关键路径的服务质量。
为满足大模型训练对海量数据的需求,曙光存储ParaStor与3FS均采用去中心化架构:
✅ 全局命名空间:整合跨地域、跨介质存储资源,支持千亿文件统一管理。
✅ 无状态弹性扩展:节点可在线扩展至数千个,容量与性能随节点增加线性提升,在GPT-3级场景中实现超1TB/s聚合带宽。
✅ 自适应纠删码策略:对热数据采用多副本保障性能,温冷数据采用EC 8+3编码,使空间利用率突破85%。
在共性技术之外,曙光ParaStor依托国产硬件生态优势,实现了自研SSD控制器与智能网卡的协同优化,在国产AI芯片适配性上展现出独特价值。这种自主可控的技术路径,不仅提升了系统的稳定性与安全性,更为我国AI产业发展提供了坚实的基础设施保障。
3FS的技术突破与ParaStor的国产化创新,共同印证了一个行业共识:硬件加速、场景化优化与分布式架构的深度融合,是突破“存储墙”的必由之路。曙光ParaStor在吸收行业先进经验的同时,以国产化生态为支点,正在构建更具适应性与竞争力的AI存储解决方案,为加速我国AI技术发展提供强劲动力。
来源:中科曙光