摘要:与能力同步增长的,是指数级增长的资源需求。国际能源署(IEA)在1月发布的报告中估计,2026年全球数据中心、人工智能和加密货币行业的电力消耗可能会翻倍,大大高于未来三年全球其他电力需求增速。
在近10年的不断探索之下,真正的AI时代离我们越来越近。从各种大语言基础模型,再到如今不断出现的多模态模型技术突破,AI的能力从未停止过增长的步伐。
与能力同步增长的,是指数级增长的资源需求。国际能源署(IEA)在1月发布的报告中估计,2026年全球数据中心、人工智能和加密货币行业的电力消耗可能会翻倍,大大高于未来三年全球其他电力需求增速。
如何更高效地支撑AI发展?同时提升效率和经济效益?先天资源更集中,因此效率也更高的云计算显然是唯一答案。
虽然趋势已经非常明确,但随着 PC 互联网和移动互联网时代的落幕,传统的云计算架构开始显得过时。特别是临近AI时代,“新技术”和“新应用”提出了众多的“新需求”和“新挑战”,无一不在推动云计算行业从底层技术、关键组件到解决方案等多个层面进行全面的变革。
换言之,谁能够在云计算行业中,最有远见、最有规划地抢先完成这一系列变革,就将在未来数年的云计算竞赛中占有先机。
对于这个重大挑战和机遇,在互联网时代一直走在行业最前列的亚马逊云科技,一直有着自己的想法。
在这周开幕的亚马逊云科技re:Invent 2024上,亚马逊云科技再次向全球展示了他们对于云计算、AI、产业和生态的最新见解,并且带来了一系列足以改变行业发展轨迹的创新。
回顾云计算的发展历史,虽然技术变革已经发生了数次,但基本逻辑万变不离其宗——在不断增强计算能力的同时,通过各种云计算技术,将这种能力灵活高效地提供给客户。
而这一逻辑,也贯彻主题全面“AI化”的亚马逊云科技re:Invent 2024之中。
芯片+工具,打造最强计算力解决方案
亚马逊云科技去年在re:Invent上发布了全新AI处理器Trainium2,在本届大会上,这款产品终于走向了大规模实例应用。
为了发挥出这颗用于模型训练的新芯片实力,亚马逊云科技本次还“祭出”了另外两项创新:直接将芯片高速连接在一起的NeuronLink技术,和服务器机架之间超高速互联的“10p10u”(千台服务器10Pb网络容量且延迟仅有10微秒)网络。
在它们的帮助下,Trainium2新实例展现出了极强的计算能力:
由16颗Trainium2驱动的EC2 Trn2 Instances实例,整体性价比对比目前GPU竞品解决方案高30~40%;
由64颗Trainium2驱动EC2 Trn2 UltraServers实例,更是能提供高达83.2 FP8 Pflops的恐怖运算能力。
在打造出超强性能的同时,亚马逊云科技也拿出了充分释放Trainium2这头“性能猛兽”的新工具。
其一是全新的、让开发者可以直接访问芯片底层的Neuron Kernel Interface (NKl)接口。这款工具让开发者可以对芯片进行最深层的调试和优化,以更经济高效的方式构建AI应用程序。
另外一个是Amazon Bedrock新提供的“延迟优化推理选项”(Latency-optimized inference)。这个新功能通过进一步降低推理处理流程中的延迟,诸如Claude、Llama等基础大模型在亚马逊云科技实例中的运行速度再次超过了其他云计算厂商。
得益于这一创新,Anthropic的Claude 3.5 Haiku基础大模型的推理运行速度直接提升了60%,堪称效果显著。
这一比例也折射出了当前云端计算能力发展的关键:厂商除了不断应用更新更强的芯片,也需要在工具和解决方案环节加大投入,提升实际使用效果。
亚马逊云科技目前也正朝着这一方向努力,围绕其Graviton4处理器、Trainium2训练芯片、Inferentia2推理芯片、Nitro安全芯片等多款自研芯片,不断打造更强大的实例、工具、解决方案,共同组成目前行业内最先进的计算力解决方案。
超越算力,打造下一代“云计算”
如果说打造足够强大、好用的计算力已经很困难,那么,如何将这些计算力转化为AI应用解决方案和能力提供给客户,才是云计算厂商进入AI时代的最大挑战。
在今年早些时候,外媒对于今年新接任亚马逊CEO的Matt Garman的采访中,他曾提到:“我们不像很多竞争对手,选择了退后一步,深入思考其客户,无论是初创企业还是大型企业,如何能最好地将这项技术融入他们的应用程序,并利用他们自己的独特数据。”
而这一思路给出的实际解决方案,就是本次大会上全新升级的两款超级产品:为生成式AI全生命周期提供一站式服务的Amazon SageMaker和提供上百种业界领先大模型的Amazon Bedrock。
先说Amazon SageMaker发布于2017年底,之前的定位一直是个基于云计算的机器学习服务。在过去Amazon SageMaker的主要功能被重新命名为Amazon SageMaker AI的基础上,此次又引入了子产品Amazon SageMaker HyperPod,后者重点优化训练过程中的效率问题。
包括能充分利用云端峰谷资源来解决训练时间和降低成本的Hyper Pod flexible training plans,以及最大化提升资源使用率,让用户可以实时监控效率的HyperPod Task Governance。
假如用户本身希望调第三方AI应用,只要他们是亚马逊云科技的合作伙伴,就可以通过Amazon SageMaker AI实现调用,同时直接享受到亚马逊云科技诸多的技术和功能创新,实现效果的一步到位。
因为大模型的实际应用和实践快速增长,Amazon Bedrock的创新显得更加“密集”。
虽然目前各种基础大模型众多,但是企业内部为了保证大模型输出的结果、自身数据的保密性,越来越倾向于使用自己的数据对基础大模型进行二次训练。
对此Amazon Bedrock就提供了两个新功能:能够快速蒸馏高效小尺寸模型的Model Distillation和能够利用自动化推理检查的 Automated Reasoning checks。
而有了这两项新功能,企业不仅可以在更短的时间、更少成本的前提下训练出自己的模型,还能同时主动应对模型幻觉,进一步提升模型的精准度,并且缩小模型体积。实现自有大模型一步到位的优化。
针对多样化的推理场景,亚马逊云科技此次则带来了企业AI应用解决方案poolside、高质量图片生成Stable Diffusion 3.5和高质量视频生成Luma Al等行业最领先的第三方大模型。
与这些关键大模型一起引入的,还有诸多其他从通用到专用的第三方模型,他们共同组成了全新的Amazon Bedrock Marketplace。用户目前已经可以在这个平台上轻松调用超过100个大模型。
在大模型可用数量大幅增长的基础上,亚马逊云科技还带来了Amazon Bedrock Intelligent Prompt Routing和Amazon Bedrock multi-agent collaboration两项创新,前者可以自动为Prompt提供最适合的模型,后者则可以在无需大量代码工作的前提下,将任务并行交给多个大模型完成。
打造完这一整套大模型能力解决方案的同时,亚马逊云科技也“顺手”解决了用户的数据需求:全新的Amazon Kendra Generative Al index连接了超过40个企业级数据源,彻底扫除客户打造AI应用过程中的数据难题。
GraphRAG是Amazon Bedrock Knowledge Base新增的另一项支持,它可以充分利用知识图的特性来帮助模型生成更加相关的输出。而对于大量非结构化的多模态数据,Amazon Bedrock Guardrails Multimodal toxicity detection这一新功能可以自动化将它们转换为结构化数据,更好地服务AI和分析应用。
抛开这些创新的技术细节,亚马逊云科技此次对于Amazon SageMaker和Amazon Bedrock创新的数量之多、环节之全、投入之大,堪称重磅。
这也充分反映出了当前云计算行业的机遇和挑战,要想在AI时代发挥出云计算更多的能力,实现更多的成绩,就必须结合实际用户的需求,全方位优化和创新云计算的能力和解决方案。
用人话来说,就是要在互联网时代已经“重塑”过云计算的基础上,再次全方位“重塑”云计算。
重塑自己,“顺手”重塑未来
在一个多月之前公布的2024年第三季度财报中,亚马逊不仅营收超预期、盈利远超预期,亚马逊云科技 和广告收入基本符合预期,且云业务同比收入增幅有加速趋势,四季度营业利润的指引区间中位数更是高于市场预测。
整个成绩可谓无懈可击。也反应了当前亚马逊云科技在继续力推云服务的同时,全身心投入到“AI 军备竞赛” 这个选择的正确性。
这一切成绩的根源,最早可以追溯到亚马逊云科技前CEO Andy Jassy,其在2020年的分享:“重塑”,而且是坚持不懈地重塑。
亚马逊云科技现任CEO Matt Garman在采访中也专门强调了:“客户之所以选择亚马逊云科技,是因为我们提供了最全面、最优秀的服务。人们之所以依赖我们,是因为我们在安全性和运营性能方面遥遥领先,并且我们帮助他们创新和快速发展。我们必须继续推动这个发展路线图。”
这种即便领先,依旧孜孜不倦引领行业创新,帮助客户创造成功的信念,不仅推动着云计算产业的发展,也在塑造亚马逊云科技的未来。
来源:虎嗅APP