摘要:今天,千卡GPU算力已成为大模型的起步点,万卡计算集群成为大模型训练的标配。计算规模的指数增加进一步催生了海量数据,而算力和数据的爆发式增长为用户带来诸多挑战:
作者:于佳卉
今天,千卡GPU算力已成为大模型的起步点,万卡计算集群成为大模型训练的标配。计算规模的指数增加进一步催生了海量数据,而算力和数据的爆发式增长为用户带来诸多挑战:
如何为大模型训练提供高速、可靠的IO能力?如何高安全低成本地长期存储数据?如何满足日益严格的数据监管与合规要求?
在近日IBM举行的互联网数据与人工智能技术沙龙中,来自IBM、百度云和腾讯云的技术专家带来了他们对数据存储与AI技术的思考和实践。
从“+AI”向“AI+”的深刻跃迁
根据IBM企业高管2022-2024 AI采用度调查,2022至2024年,引入AI企业的比例预计将提升约3倍,且AI投资的回报率不容小觑:企业投资AI后平均带来的营收增长达6.3%,AI成熟度越高的企业营收增长的比例越高。
伴随着AI技术的成熟,企业从过去把AI作为附加组件嵌入业务流程,到现在将其视作支撑业务智能化、拉动增长的核心动力。
IBM大中华区存储事业部总经理吴磊形容这一转变为从“+AI”向“AI+”的跃迁。他强调,企业应通过规模化部署,把人工智能与企业应用和数据全面打通,赋能业务智能化。
作为AI领域的先行者,IBM从上个世纪90年代就开始了对人工智能领域的投资,从“深蓝”计算机到Watson系统,过去十几年IBM在AI领域写下了自己的页页篇章。近年来IBM聚焦“混合云+AI”战略,并推出Watsonx企业级 AI 与数据平台,帮助企业在跨业务场景中快速训练和部署AI能力。
吴磊表示,过去的113年里,经历了主机时代、PC机时代,到如今的混合云、人工智能与量子计算时代,IBM始终保持着创业公司的心态,不断迭代和演进。未来将继续与国内厂商深度合作,为更多企业做好技术服务。
百度云的冷数据管理新思路
与AI技术的飞速发展并行的,是数据体量的急剧膨胀,尤其是“冷数据”——那些很少被访问却必须长期存储的数据。根据百度数据冷热统计,超冷数据的占比已经超过10%。
百度智能云存储架构师侯进超表示,面对不断增长的海量数据,传统硬盘存储逐渐无法满足成本控制需求。“相比HDD盘,磁带库拥有巨大的成本优势,将超冷数据存储在磁带库里,能够显著降低存储成本。”
为此,百度云引入了Aries云存储系统。Aries磁带库架构的特点是微服务化、超大规模、多模型集成、多介质支持和面向故障设计。目前,Aries管理了数万台高密度/JBOD存储服务器,总数据量超过数十EB,单集群超过4EB。
据介绍,Aries磁带库架构的设计思路有三点:数据物理聚集写入、位置相关的取回调度和大文件头部数据放磁盘。
具体来说,数据物理聚集写入在于很多业务数据之间存在关联性,将这些有关联的数据以物理聚集的方式存储在一起,将来取回时就会更加高效。
位置相关的取回调度,则是取回数据的过程中,调度服务将处于同一位置的数据尽量一次性多取回,以提升取回效率。
磁带存储凭借其低成本和长生命周期,成为冷数据存储的理想选择,契合了备份和归档等场景的需求。而在更“热”的AI业务场景下,如何将存储技术与AI大模型结合,利用存储技术为AI应用提供高效、可扩展的基础,则是数据存储的另一个关键问题。
腾讯云COS Date Lake向智能数据湖演进
在AI应用的全链条中,从数据采集、特征工程到模型训练和推理,每个环节对数据的需求各不相同,而数据往往散落在不同的平台和系统中。
为了实现数据在不同计算平台间的自由流动,降低存储成本,简化数据的生命周期管理,数据湖成为了不可或缺的解决方案。通过统一存储,数据湖能够打破数据孤岛,为大规模AI训练提供灵活高效的数据支撑。
面向AIGC多种业务场景,腾讯云推出了对象存储COS、GooseFS产品系列和数据万象等产品,为数据集上云、模型训练、推理应用到内容智理中的数据存储提供支持,实现了高效、低成本的数据管理方案。
腾讯云对象存储高级产品经理熊建刚表示,腾讯云数据湖结合AI大模型能力,从传统的孤立数据分析和机器学习,演进到跨业务的数据融合。通过AI大模型对数据的多模态特征提取,为大数据处理、智能检索、资产管理提供了基础能力。
他进一步指出,从数据预处理到模型训练和推理的每一个环节,都需要针对不同的需求对数据湖进行加速。将数据持久化存储在COS数据湖中,训练数据按需通过数据加速服务GooseFS拉取到云上或者IDC计算端,可做到一份数据集多地训练。
此外,为了方便数据湖用户在海量数据中搜索图文内容,腾讯云还推出了万象图文大模型,通过对图片、文本多类模态的语音理解和特征抽取,建模图文之间的相似度,可实现图文检索、图像标签等应用。其多模态特征表达能力也可以扩展到文本与视频的特征提取和匹配,从而实现文本视频检索。
AI技术的持续演进,注定会带来一个充满挑战与机遇的时代。如果说AI在不断推升计算需求,那么数据存储则是在背后默默支撑这一切的基石。企业唯有不断突破现有技术瓶颈,才有可能在数据洪流到来时稳步前行。
来源:微迅科技