从Graviton创新之路看亚马逊云科技的解题方式

摘要:从Nitro系统的初次亮相,到Amazon Graviton、Amazon Trainium、Amazon Inferentia的接连推出,一场从底层硬件到应用层的技术革新悄然展开。这不仅是一次技术上的自我革新,也是一种将硬件创新与云服务深度结合的独特探索。

作者:王聪彬

从Nitro系统的初次亮相,到Amazon Graviton、Amazon Trainium、Amazon Inferentia的接连推出,一场从底层硬件到应用层的技术革新悄然展开。这不仅是一次技术上的自我革新,也是一种将硬件创新与云服务深度结合的独特探索。

在这场革新中,Graviton无疑是最具代表性的存在,其充分体现了亚马逊云科技从用户需求出发,不断追求极致的创新精神内核。推出Graviton的驱动力主要有两个目标,第一,满足现代化应用对计算架构日益复杂的要求;第二,为客户提供更优性价比的选择,把最终选择权交给客户。

亚马逊云科技也兑现了这些承诺,从高性能计算到机器学习,再到大规模生产的云服务,Graviton展现了跨领域的广泛适配能力,十年间书写了自研芯片的新篇章。

芯片里的极致追求

“经验没有压缩算法”是亚马逊CEO Andy Jassy经常谈到的一句经典论断。做云是如此,做芯片亦是如此。

打造自主设计的Arm服务器芯片已成为大多数云服务商的共同选择。这不仅是出于成本优势的考量,更重要的是能够实现高度定制化,从底层基础设施入手,根据特定用例进行优化,提升整体性能和效率。

亚马逊云科技已经拥有超过十年“自研芯片”的历程,从2013年亚马逊高级副总裁兼杰出工程师James Hamilton提出开发定制硬件业务策略,并被亚马逊云科技领导层所采纳。这一决策的初衷是为客户提供更多创新可能,同时也源于公司在这领城看到的巨大潜力。

2015年亚马逊云服务收购了以色列芯片企业Annapurna Labs;2017年亚马逊云科技发布了由Annapurna Labs开发的首选自研芯片Amazon Nitro;2018年re:Invent设计推出基于ARM架构的第一代Amazon Graviton,以及首代专为推理任务设计的Amazon Inferentia;2022年发布了专注于机器学习训练的Amazon Trainium。

到2022年四大自研芯片产品组合基本已经初见雏形,每个系列都在不断迭代更新。

亚马逊云科技的一系列定制芯片和加速器均由Annapurna Labs团队负责设计和制造,并在Graviton系列的设计、生产和封装中持续创新,不断提升性能和效率。

James Hamilton在2022年的亚马逊云科技芯片创新日(Silicon Innovation Day)上,特别提到Nitro System的创新,称其为亚马逊云科技硬件架构的“无名英雄”。自收购Annapurna Labs以来,Nitro系统的开发步伐显著加快,成为推动亚马逊云科技硬件创新的重要驱动力。

十年沉淀,一颗芯

目前亚马逊云科技已推出的四大自研芯片产品组合包括:六代Nitro系统、四代Graviton、两代Trainium和Inferentia。

过去五年,亚马逊云科技先后推出了四代Amazon Graviton实例。目前,基于Amazon Graviton的Amazon EC2实例已超过150多个,全球部署的Graviton处理器数量突破200万颗,客户数量超过50,000家。其中,Amazon EC2前100大客户中有90%以上选择了基于Graviton的实例。

每一代的Amazon Graviton都会比上一代有两位数的性能提升,同时显著降低了单位算力的能耗:

2020年 Graviton2:相比第一代,处理器性能提升7倍,计算核心数量多达4倍,缓存达到2倍,内存速度提高5倍。

2021年 Graviton3:单核性能较Graviton2提升25%,浮点性能提升2倍。与同类其他EC2实例相比,能耗降低60%,并首次在云计算芯片中采用了性能更强、功耗更低的DDR5内存。

2022年 Graviton3E:针对浮点和向量指令运算进行了优化,基于Graviton3E推出的Hpc7g实例,矢量指令性能较Graviton3提升35%。

2023年 Graviton4:性能再提升30%,独立核心数量增加50%以上,内存带宽提升75%以上。

目前基于Graviton4的EC2实例包括,M8g通用型、C8g高性能计算型、X8g和R8g内存优化型实例。基于Graviton的托管服务包括,Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。

随着机器学习应用加速,企业对更具成本优势的GPU需求日益增长,亚马逊云科技在数年前就开始投入专用于机器学习训练和推理的芯片研发。

2022年,推出了首款训练专用芯片Trainium。针对常见的机器学习模型,基于Trainium的实例相比传统GPU实例性能提升140%,成本最多降低70%,为客户提供了高效且经济的解决方案。

随着模型进入大规模生产阶段,推理成本被逐渐拉高,2018年,亚马逊云科技发布了针对推理的Inferentia芯片,在2022 re:Invent全球大会上发布了新一代推理芯片Inferentia 2。

一颗芯片的跨领域适配

企业在最初对于使用Arm芯片会有一定的的担忧,但是通过多年发展,越来越多的客户通过Graviton为其应用提供最佳性价比。

云成本管理和优化平台Vantage调查显示,2024第一季度,在Amazon EC2 M7系列通用实例的成本支出方面,采用Graviton的M7g系列已经超过三分之一(34.5%);2024年第二季度,在Amazon RDS、Amazon ElastiCache和Amazon OpenSearch托管服务中,客户选择使用基于Graviton已超越了Intel。

现在Graviton已经支持了广泛的应用场景:

高性能计算领域,Graviton的多核和高效能特点使其非常适合科学计算、基因组学分析、天气预报等需要强大计算能力的任务。

机器学习领域,Graviton在运行TensorFlow、PyTorch等深度学习框架时有出色表现,适合模型训练和推理任务,尤其在需要大量数据处理和矩阵计算的场景下。

人工智能领域,Graviton同样可以高效支持AI应用的推理部分,如图像识别、自然语言处理等实时AI任务,提供低延迟的计算环境。

容器化应用构建领域,Graviton对多种容器编排工具(如ECS、EKS、Kubernetes等)和镜像仓库(如ECR、Docker Hub等)的支持,方便用户在Graviton上部署和管理容器化应用,适合微服务架构和DevOps环境。

数据分析领域,Graviton可以在EMR、Spark等大数据分析框架上运行,支持批处理和流式数据分析等场景,适合实时数据分析和处理大规模数据集。流行的Spark框架在Graviton3上能获得16.7%的成本节约。

数据处理领域,无论是批量数据处理还是实时流处理,Graviton都能通过优化的实例类型提供高效的处理能力,适合ETL、数据清洗、预处理等任务。

Epic Games自2021年起就在《堡垒之夜》中大规模应用Graviton,在测试中,即使是对延迟要求极高的游戏,Graviton3实例C7g也表现出色,且显著提升了性价比。目前Epic Games已使用上万颗Graviton芯片支撑游戏业务,不仅服务于《堡垒之夜》,也覆盖所有基于虚幻引擎的游戏服务器。在虚幻5引擎的教学游戏Lyra Starter Game测试中,Graviton4相较Graviton3性价比提升超过25%,相较Intel Sapphire Rapids和AMD Genoa提升30%至35%。

亚马逊也是Graviton的代表用户,在2021年Prime Day,亚马逊首次使用Graviton2支持的EC2实例,支持12种核心零售服务,这是Graviton实例首次大规模应用于高峰活动。到2024年Prime Day,亚马逊使用了超过25万个Graviton芯片为超过5800种不同的Amazon.com服务提供支持,是2023年的两倍。

在宣布Amazon EC2 X8g实例正式可用的博客中,亚马逊云科技副总裁兼首席布道师Jeff Barr展示了Graviton4开发期间的实例集群快照,指出EC2内存优化型实例可加速EDA电子设计自动化。同时,快照显示亚马逊云科技环境具备强大的弹性调度能力,峰值时数十万个内核同时运行,规模达正常使用的5倍。

像这样的案例比比皆是,亚马逊云科技通过自研芯片,重新定义了云计算的性能与性价比基准,为现代化应用提供了高度优化的计算架构,引领了云计算硬件的创新方向。

来源:至顶网

相关推荐