摘要:一栋不起眼的建筑坐落在美国德克萨斯州奥斯汀一个富裕地区(被称为The Domain),大楼的第九层就是全球最具影响力的研究实验室之一,为现代AI提供动力。
一栋不起眼的建筑坐落在美国德克萨斯州奥斯汀一个富裕地区(被称为The Domain),大楼的第九层就是全球最具影响力的研究实验室之一,为现代AI提供动力。
近日媒体参观了AWS的Annapurna Labs实验室,这家云计算巨头在这里秘密设计和测试下一代AI加速器Trainium和定制云计算芯片Graviton。
实验室是一个即使Amazon公司员工也严格限制进入的区域。AWS硅芯片工程总监Rami Sinno详细介绍说,AWS为Trainium芯片招募了一支才华横溢的工程师团队并展开艰巨工作,当时这还是一项完全隐秘的计划。Sinno从Arm公司加入AWS,自该项目成立以来就带来了大规模项目的管理经验。
“我们组建了一个团队,使命是提供云规模的最佳机器学习加速器,这令人感到兴奋,因为当时正处于高性能、低成本、大规模AI服务器的早期阶段。”
团队从一张白纸开始构建架构,使用Amazon惯用的反向思考方法,从客户想要什么开始,想出最适合他们需求的技术。Sinno说:“我们对这种新架构的大胆押注得到了回报,因为现在我们的数据中心拥有多代Inferentia和Trainium芯片。”
该实验室的成果将在12月2日至6日于拉斯维加斯举行的AWS年度大会re:Invent上得到重点展示,作为今年规模最大的云计算会议,大会预计将重点关注AI,这并不令人感到意外。人们普遍预计AWS将在此次大会上推出新的AI芯片,以此从谷歌和微软等其厂商那里抢占AI的发展势头,迄今为止这些厂商取得的成果比Amazon更为突出。
Amazon因为在AI方面似乎有些落后而受到一些批评,但theCUBE Research首席分析师Shelly Kramer不同意这一观点,她说:“Amazon在AI方面取得了一些令人印象深刻的成就,并建立战略合作伙伴关系以实现价值。Amazon需要做得更好的是更有效把这些故事讲述出来。”
Trainium芯片
AI的关键作用
奥斯汀工厂并不是安纳普尔纳最大的实验室空间,最大的实验室是在以色列特拉维夫;员工也在加拿大多伦多的另一个地方工作。这个实验室空间专门用于安置机器学习服务器以及AWS的AI芯片Trainium和Inferentia的硬件和软件开发工程师。在同一层楼,工程师们在测试和开发Graviton的软件。
Annapurna的AI芯片业务及其研究,在Amazon保持AI竞争优势的战略中发挥着关键作用。在AI驱动的智能助手方面,Amazon已经落后于大型科技竞争对手,据报道,Amazon Alexa助手的生成式AI版本一再推迟。谷歌和苹果等竞争对手在过去几个月推出了更智能的AI数字助手。
AWS在re:Invent 2023大会上发布了最新一代Trainium2芯片,开启了AI训练的新时代,使训练新模型所需的资金和功耗比以前更少。与2022年发布的上一代相比,新芯片的成本可能节省50%,能耗降低高达29%,同样的芯片可以提供比第一代快4倍的训练速度。
据报道,OpenAI竞争对手Anthropic PBC已开始测试Trainium2了。这些芯片目前用于训练该公司的下一代Claude大型语言模型系列,需要大量的时间和计算。
Sinno解释说:“AI训练尤其需要很长时间,训练一个模型并不需要几秒钟时间,而是以小时、天甚至几周来衡量的——正常运行时间对客户来说极其重要。在训练的过程中,服务器掉线是无法忍受的。因此,我们从早期设计阶段就投入了大量精力来扩展数据中心质量,为我们的客户提供正常运行时间。”
实验室内部,一个微型数据中心。
实验室内部
在奥斯汀实验室,AWS还集成、测试和制作芯片所集成的硬件,以及定制硅片所交互的主板和机架的原型,这为开发和测试进入数据中心的所有设备创造了一种低成本的解决方案。把工作都集中在建筑物的同一层,意味着可以加快开发过程、快速制作原型和测试。
奥斯汀实验室有两个实验室,分别位于建筑物的两端。“安静实验室”是测试接近最终产品的地方。芯片和芯片板连接在一起,以便加拿大和以色列远程办公的软件工程师可以运行诊断程序。
穿过两组门就是安静实验室,这是一个小前厅,是从喧闹的隔间和会议室到井然有序的实验室的一个必要过渡。实验室里工作的人出奇地少,一排排的工位上摆满了用于主动测试的硬件组件。每个实验室的架子几乎都伸到天花板,里面放着备件、大量工具和专用网络插件,用于与异地工程师一起进行虚拟测试。
安静实验室四周环绕着俯瞰The Domain的落地窗,这似乎是一个鼓舞人心的开发场所。整个布局中提供了端到端测试所需的空间,最大限度地减少了硬件和软件方面其他工程团队需要来回移动部件的次数。从3D打印到Dremel电动工具包,实验室的部分区域可能会被误认为是业余爱好者的工作室。
Sinno说:“我们仍处于机器学习的早期阶段,因为我们还处于早期阶段,所以设计团队必须能够以非常快的节奏向客户提供产品。因为如果我们的团队需要五年时间才能交付服务器的话,那么可能会有两代新的AI工作负载,而我们的服务器无法达到这个目标。”
Sinno详细介绍了安静实验室的设备和整体设置,强调拥有一个设备齐全的空间的重要性。他说,通过实现现场和场外团队之间的实时协作,AWS就能够把开发时间缩短数月甚至数年,而这是把产品更快推向市场的一个竞争优势。
Kramer表示:“我非常喜欢Amazon的实时协作工作流程,这就是它的价值所在。在当今快速发展的技术生态系统中,时间就是金钱——加快开发时间对产品成功起着重要作用,这是不言而喻的。”
“大声实验室”是AWS测试下一代重大产品的地方。它之所以被称为大声实验室,是因为需要大量风扇来保持机器凉爽,耳塞是防止听力损失或损伤的必需品,这让Sinno在参观期间可以大声回答问题,让问答环节变得几乎有点滑稽可笑。
Loud Lab的布局几乎和Quiet Lab是相同的,不过考虑到维护机器所需的条件,室内人员的工作会受到限制。实验室的建设始于新冠疫情封锁期间,不仅要考虑疫情期间的即时办公需求,还要考虑员工、机器和他们所在的建筑物的未来需求,其结果就是实验室空间迅速发展,旨在满足AI领域的迫切需求,企业急切地寻求投资回报。
Sinno无法公开分享太多关于Loud Lab的信息,但这些前瞻性的举措表明,一个团队正处于大事件的边缘,兴奋不已。AWS似乎正在重新思考堆栈的几乎每个方面,以推动实现AI科幻梦想所必需的创新。
去年Amazon概述了一项广泛的AI战略,包括与Anthropic合作,本月Amazon向这家AI初创公司投资40亿美元,此前5月份该公司投资了27.5亿美元。Amazon还扩大了AI产品的范围,包括将更先进的基础模型引入托管生成式AI应用服务Bedrock进行训练和部署,这表明Amazon的计划并未放缓。
Graviton四代产品齐头并进。图片:亚马逊
AWS云计算主力:Graviton
虽然Trainium提供了高性能AI和机器学习工作负载,但基于Arm的Graviton系列芯片代表了AWS为Elastic Compute Cloud工作负载提供节能高性能定制芯片达到了巅峰。
AWS高级首席工程师Aku Saidi表示,Graviton的主要硬件设计和一些固件是在以色列的Annapurna工厂完成的,但奥斯汀实验室的重点是软件,两边的团队之间进行了大量远程协作,以使整个芯片整合在一起。
Graviton4是在今年7月发布的,和2022年5月发布的Graviton3相比,性能提高了30%,内存带宽提高了75%。Graviton平台始于2018年的Graviton1,基础技术是EC2平台的Nitro,这是一个轻量级的虚拟机管理程序,允许对计算、存储、内存和网络进行虚拟化。当时AWS想要一个完全集成的平台。
AWS在Graviton系列上定制硅片的节奏非常快——每代大约一年半。Saidi说,为了保持这种节奏,AWS从第一天起就让硬件团队和软件团队之间进行了紧密集成。
“我们从一开始就在开发将用于部署的软件,在物理芯片之前,我们有这些大型仿真器和模拟器,让我们可以在其上运行实际的软件。因此,我们可以在连接到真实Nitro卡的模拟器中运行虚拟机,进行正常交易,以证明一切都是正常的,改进软件和流程,这让我们能够快速地行动起来。”
Saidi说,凭借团队之间这种程度的整合,团队能够在几周内将芯片从规划阶段转移到他们的一个开发数据中心。“这非常强大,”他补充道。
Graviton在AWS云中的发展,极大地提升了AWS的整体能力和可用性。Saidi说:“现在我们的数据中心拥有超过200万个Graviton芯片,2018年的时候还是零,”Saidi说。
在发布时Amazon表示,Graviton4芯片将被作为RC2 Rg8实例的一部分在EC2中提供,这使客户能够针对高性能数据库运行改进的执行功能,为大数据分析提供改善的内存。Graviton4芯片也是X8g内存优化实例的一部分,据称这些实例是迄今为止最节能的,具有所有同类EC2 Graviton实例中最佳的性价比。与上一代相比,新实例提供3倍的内存和虚拟CPU,并包括2倍的Elastic Block Store带宽和2倍的网络带宽。
AWS在re:Invent大会上表示,随着企业在计算云中广泛部署新芯片,AWS将在更多实力类型中支持Graviton4。AWS预计将宣布推出下一代定制Trainium2芯片,该芯片将在新的Amazon Elastic Compute Cloud(EC2)、Trn2实例集群中提供。
鉴于AWS的AI发展轨迹和大型语言模型的快速增长,他们很可能会强调如何使用新实例为使用大型语言模型和支持向量数据库的应用提供支持。随着更好的软件和硬件设计推广到数据中心,AWS还可能在其硬件上推出新的能效指标,因为全栈设计有助于降低功耗。
奥斯汀实验室不仅为AI芯片提供软件和测试,而且还在实际推出之前测试和试用整个数据中心就绪的服务器系统,这使Annapurna能够了解芯片在现场是如何与设备协同工作的,并提供诊断、测试和进一步改进的机会。
结合AWS的AI芯片设计能力,这使Annapurna实验室成为Amazon高风险AI战略的核心,客户也将在re:Invent大会上发现这是否足从微软和谷歌等厂商那里抢占先机。
来源:至顶网