摘要:12月6日,亚马逊云计算年度峰会(re:Invent 2024)在拉斯维加斯闭幕。本次大会亚马逊全方位展示了其在各项科技上的创新,该系列技术足以改变行业的发展轨迹,同时也为云和互联网大规模基础设施的未来演进提供了创新启示。
12月6日,亚马逊云计算年度峰会(re:Invent 2024)在拉斯维加斯闭幕。本次大会亚马逊全方位展示了其在各项科技上的创新,该系列技术足以改变行业的发展轨迹,同时也为云和互联网大规模基础设施的未来演进提供了创新启示。
在本次亚马逊的发布上,出现了一个核心话题:重新定义服务器架构,重新定义存储架构,来解决计算与存储紧密耦合带来的资源利用低效、容量扩展性、系统可管理性等问题。
为何亚马逊坚持要重新定义传统服务器架构?
近年业务量陡增,EC2实例数不断增长,亚马逊意识到,传统的服务器架构在超大规模下逐渐暴露出了诸多问题,必须得从整个基础设施技术栈进行创新。计算与网络副总裁Dave Brown阐述道:
固定算存比导致的管理复杂:在架构设计阶段初期,存储服务器计算与存储的比率即已确定。一旦服务器完成部署,CPU、内存和存储容量之间的特定比率便无法更改,这导致后期的扩容和管理变的十分复杂。而随着近年来硬盘容量的显著增长(单盘容量从2006年的百GB级,到如今高达20TB),进一步导致愈发难以管理。
全闪时代计算与存储的性能无法充分释放:在走入SSD时代之前,固定算存比来打造存储型服务器是常态。举例来讲,对于一个传统的分布式存储系统而言,由于厚重的软件栈,HDD单盘的性能带宽约100MB/s,而CPU单核的性能带宽也接近100MB/s,对于一颗48核CPU的服务器正常只能配置大约40块盘。在业务体验、空间能耗等因素驱动下,更加先进的全闪介质骤然降临,一切都变了。SSD性能较HDD提升数十倍,单盘带宽达14.5GB/s——这意味着需要数十颗CPU来“喂饱”存储,否则便是浪费存储的性能优势,再用陈旧的固定算存比去设计IT架构,似乎便行不通了。
一台重4200磅服务器的勇敢尝试
面对固定的计算与存储比率难以管理挑战,亚马逊只能通过增加硬盘容量和数量来提升存储系统的容量。最初,使用相对简单的配置,如一台服务器中放置12或24个硬盘。随着硬盘技术的进步,存储系统在管理更大硬盘池方面变得更为高效。通过不断提高硬盘数量,从每台服务器36个硬盘增至72个,始终在密度和可管理性之间寻求最佳平衡。
随后亚马逊雄心勃勃启动了极限存储密度工程项目“Barge”,它是一台包含288个机械硬盘的巨型存储服务器。想象一下,288个机械硬盘是什么概念呢?以主流的20TB的硬盘容量计算,这一台服务器相当于拥有近6PB的原始存储空间,相当于早期亚马逊某些数据中心的总存储容量。
这是亚马逊为突破存储密度极限而进行的一次大胆尝试,但它也让亚马逊深刻认识到密度限制的教训。首要教训是物理约束的严峻性,每个机架的重量达到了惊人的4500磅(约两吨),导致亚马逊不得不加固地板,精心规划部署位置,并使用专用运输设备完成搬运。
此外,将288个硬盘集中在一起,还产生了恐怖的“振动交响乐”。当288个机械硬盘以7200转/分钟的速度旋转时,振动效应就会变得十分强烈,系统性能和可靠性大打折扣。还此外有软件复杂性瓶颈,单台主机需要管理288个硬盘,将亚马逊的软件系统推向了极限,需要考虑所有不同的故障模式、复杂的数据放置算法,以及在如此庞大的硬盘池中保持性能均衡的挑战。
但最关键的是关于“爆炸半径”(Blast radius)的教训。当Barge服务器发生故障时,系统会瞬间面临6PB数据无法使用的风险,即使提前有外部冗余,恢复这些数据也需要大量时间。
巨型服务器带来的诸多挑战,致使亚马逊不得不放弃Barge极高存储密度项目。
无盘服务器架构的全新构思
可以看到,传统算、存紧密耦合的架构,在超大规模数据中心时存在诸多挑战。所幸,一种计算和存储解耦的分离式架构(Disaggregation)概念开始变得极具吸引力:如果可以找到一种方法,在保持服务所需的直接访问和性能的同时,让计算和存储能够独立扩展,是不是就找到容量与可管理性之间的最佳平衡点?
无盘服务器架构方案的诞生。亚马逊计算与网络副总裁Dave Brown介绍到: "我们通过将数据处理Nitro(DPU)卡直接嵌入到JBOD机箱中,实现存储的分离,将服务器无盘化。这样既保留了硬盘和存储服务所需的直接访问,也摆脱了物理约束……由于Nitro专为高性能和低延迟设计,因此能在网络访问时,仍提供硬盘的原生性能,这是我们数据中心的实际情况。得益于分离式存储架构(Disaggregated storage architecture),任何故障的硬盘都可通过几次API调用快速从服务中移除,并以热插拔形式进行维护、被健康的硬盘替换。因此,硬盘故障不再是问题。"
“爆炸半径”显著降低。在分离式存储架构下,存储单节点的故障几乎变得无关紧要,由于硬盘在网络上可以独立寻址,可简单的启动新的计算实例来重新连接所有硬盘,通常几分钟内即可完成。这样,无需任何数据迁移,也没有复杂的重建过程,只需重新连接并恢复操作,显著减少了“爆炸半径”(blast radius),并实际上提高了恢复速度。
规划更简单、迭代更灵活。亚马逊直言终于成功突破了多年来存储架构的固定比率的限制。如今,更小故障域、更快恢复速度、更具韧性的服务,让用户的资源规划更加简单。最重要的是,这个分离式存储架构成为了一种新的语言,为未来的硬件革新奠定了不断进化的基础。
不只是亚马逊,在中国早有先行者在探索新型存算分离架构
如果在互联网上,尝试搜寻“分离式存储架构”和“disaggregated storage architecture”,可以发现学术界和产业界都在积极的研究这个新型存算分离架构。
比如清华大学在2022年11月发布一篇论文《新型存算分离架构技术展望》,该论文详尽分析了当前云和互联网的业务挑战,以及新型存算分离架构的典型特征:
无盘化的服务器,新型存算分离架构将服务器本地盘拉远构成无盘化(diskless)服务器和远端存储池,同时还通过远程内存池扩展本地内存,实现了真正意义上的存算解耦,可极大提升存储资源利用率。
多样化的网络协议,从当前的IP或FC协议扩展到 CXL+NoF+IP 协议组合,使得网络时延降低到亚微秒级别、加速SSD池化、满足HDD等慢速介质访问诉求。
专用化的数据处理器。数据存储、访问等操作不再由通用处理器负责,而是卸载到专用数据处理器。此外,特定的数据操作可据此进行加速,如纠删码、加密压缩、网络通信等。
极高性能和存力密度的存储系统。分离式存储系统(disaggregate storage)是新型架构的重要组件,作为持久化数据的底座,在存储介质的集约化管理基础上,结合芯片、介质的深度协同设计,整合当前系统、盘两级的空间管理,通过大比例纠删码算法减少冗余资源开销比例。
统一的存储资源管理。在新型存算分离架构下,存储作为部件集成,云和互联网大规模数据中心呈现数据量大、基础设施大而杂、硬盘数量数以万计。那么就需要一个统一的管理运维平台管理存储资源,统一运维管理平台可以降低管理复杂度,避免大量人力浪费,帮助企业降低TCO。
最后论文作者表示,面向云和互联网场景的新型存算分离架构受计算、网络、存储等技术驱动,需要顺应未来数据中心可组合式架构(Composable Infrastructure)趋势。如此,未来的大规模基础设施才能以其灵活的架构,精细化的资源利用率、绿色低碳等优势为产业带来全新的发展。
除了清华大学外,我们还看到,在同年12月22日,由中国计算机学会(CCF)信息存储专委会主编、十余家企业联合撰写的《数据中心Diskless架构》白皮书正式发布。
白皮书系统阐述了Diskless架构技术原理,Diskless架构将服务器本地盘拉远,构成Diskless的服务器和远端存储池,将资源彻底解耦池化再重组整合,真正实现各类硬件的独立扩展及灵活共享。此外,Diskless架构突破了传统以通用CPU为中心的处理逻辑,使数据处理等CPU不擅长的任务被DPU等替代,实现能效比最优的硬件组合。
但构建数据中心Diskless架构,目前仍面临技术、生态方面的挑战,一些领域还处于探索阶段。如何与现有生态应用进行结合与上层应用协同,需要产业界、学术界专家共同探索解决。当前,天翼云、中国电子云、中科驭数、华为、得瑞领新等企业已积极投入到Diskless架构的实践中,华为也率先推出了面向云/互联网Diskless架构的产品OceanDisk。
从亚马逊re:Invent 2024大会的曙光中,计算无存储、存储无计算的分离式架构,似乎已成为必然之间的未来之选,相信不久后,这一数据中心架构的新范式能听见更深远的回响。
来源:科技商业