摘要：Amazon Nova，这是亚麻云自研的基础模型，一出场就很炸裂，从评测结果看，具备年度最佳表现，吊打同级别的GPT、Gemimi、Claude等模型。

花了一周时间，总算补完了re:Invent 2024全球大会“云春晚”的主要节目。

干货太多，让我有点不知道从哪儿讲起了。挑个重点吧，讲讲亚马逊云科技的大模型版图。

先上一张图，一图看懂“亚麻云”的大模型布局。

针对上图，我们再画个重点，把最最重磅的产品列列↓

▋特别重磅❶：

Amazon Nova，这是亚麻云自研的基础模型，一出场就很炸裂，从评测结果看，具备年度最佳表现，吊打同级别的GPT、Gemimi、Claude等模型。

▋特别重磅❷：

Amazon Trainium3芯片，用于大模型训练的算力怪兽，这颗芯片采用3nm工艺，将于2025年正式发布，是现有Trainium 2芯片性能的两倍，能效提高40%。

此外还有EC2 Trn2实例，性价比高30~40%，单节点就能提供20.8 PFLOPS算力@FP8，以及基于亚麻云专有网络互联技术NeuronLink来构建的算力巨无霸UltraServer。

▋特别重磅❸：

Amazon Bedrock模型服务平台重大更新，提供上百个业界顶级大模型，满足客户所有场景需求（包括著名的Claude 3.5、Llama 3、poolside、Stable Diffusion3.5和Luma AI，以及新鲜出炉的Amazon Nova）。

Bedrock提供全托管的一站式服务：模型选择、推理成本优化、模型定制、安全审核、Agents构建和编排。重点功能“模型蒸馏”，请记住，后面要考。

▋特别重磅❹：

Amazon SageMaker 全家桶重大升级，整合了A云几乎所有的数据集成、清洗、分析的工具和服务，并在智能湖仓（LakeHouse）之上，增加了Zero-ETL的数据编织能力。

在这个全家桶里，一份数据集可以用于多个场景，不同的数据集也可以跨源服务于某个场景（甚至不需要做ETL/ELT)，也不需要在各种服务里反复切换。

▋特别重磅❺：

Amazon Q AI智能助手面向开发场景和商业场景都做了重大更新。

最激动人心的是，它可以自动化完成诸如「VM工作负载迁移到云原生架构、.net应用迁移到Linux应用、IBM主机应用迁移」这些当下既刚需又Boring的工作。

好了，接下来，我来逐层拆解一下这幅大模型版图。

01、基础设施层

先看最下面的基础设施层，搞大模型离不开存算网的配套，而亚麻云则是把云上存算网的能力，直接拉满了。

基础设施层：计算

首先，算力是巨头们争夺的焦点，Amazon在计算芯片上持续发力，而且是“四箭齐发”，布局相当全面。

面向训练场景的Trainium系列、面向推理场景的Inferentia系列、面向通用计算场景的Graviton系列，以及面向DPU场景用于云基础设施卸载和加速的Nitro芯片。

单个芯片性能“再炸裂”也只是纸面算力，只有成系统、易维护、可交付，而且实际扛活的时候不打折扣、不撂挑子，才算是把纸面算力真正兑现。

亚麻云的牛掰之处在于，将这些自研芯片的算力/能力，用近乎无损的云化方式以服务来交付，自动化、免维护、按需扩展、高性价比…

只有这样，算力的“原子弹”，才能变成人人会用、好用的“加特林”。

对于广大AI用户来讲，这个“加特林”，就是那些立等可取的训练实例、推理实例…，信手拈来，快速投入模型训推任务即可。

比如新鲜出炉的EC2 Trn2实例，集成了16个Trainium2芯片，基于亚麻云独创的NeuronLink技术互联（对比下NVLink），单节点提供20.8 PLOPS算力@FP8，比GPU实例性价比高出30%-40%。

↓

当然，还有更吊炸天的UltraServers，组合更多的Trainium2芯片，变身超级服务器，抱团扛更大的活，比如万亿参数级别的大模型。

UltraServer的互联还是采用A家自有的NeuronLink，带宽达到2TB/s，延迟仅为1μs。

UltraServers可以进一步组合，形成更大的超级集群，让成千上万的Trainium2协同工作，超强算力、海量HBM内存、无阻塞互联。

不止如此，在大会现场，亚麻云还投下了一颗重磅算力炸弹，宣布将在2025年发布第三代训练专用芯片：Amazon Trainium3。

Trainium3是Amazon首款3nm芯片，性能是Trainium2的两倍，能效提升40%。（预计是第一代的8倍）

Amazon为啥像那些半导体公司一样，狂卷算力芯片？

只因大模型、GenAI的计算负载，与传统云工作负载有很大不同，经典云计算的杀手锏是Scale out，你可以组合一堆“老破小”服务器，通过横向扩展的方式来干大活。

但是，大模型越来越卷的参数量，对算力带来了前所未有的挑战。

这些逆天的巨量算力需求，并不能完全通过“Scale out大法”来解决，对单个计算单元的能力要求非常高，既需要Scale out，也需要Scale up。

上面那些发布，展示了亚麻云对未来的预判和决心：①构建单体能力更强的计算节点（Scale up）；②构建规模更大、效率更高的计算集群（Scale up）。

所以，才有了不断迭代的Trainium系列芯片、计算实例，和基于NeuronLink持续扩展的超级服务器（UltraServer）、超级集群（UltraCluster）。

这种“Scale out+up”架构能打吗，来看下面这个战例↓

Claude模型的母公司Anthropic，正在联合亚麻云构建Rainier项目：该项目基于UltraServer，组成包含数十万Trainium2芯片的超级集群，提供超过当前5倍的算力（EP级），用于训练下一代Claude模型。

还不止如此，不要忘了，除了Trainium系列，亚麻云还有算力芯片全家桶：Inferentia系列、Graviton系列，以及Nitro System。

“全家”上阵，各施所长，各显其能，那才叫一个真能打。

连Apple这样的大佬，都跑来为之捧场，介绍他们基于Graviton3、Inferentia2和Trainium2来构建Apple Intelligence的实践经验。

当然，亚麻云也有这足够的号召力和生态能力。

除了基于自研芯片提供大模型的训推服务，还最新发布了基于N记Blackwell芯片P6系列实例，该实例比当前GPU快2.5倍，又是一个大提升。

跑GPU最爽的地方在哪儿？当然是亚麻云。

基础设施层：存储

Amazon S3，是亚麻云2006上线以来的第一款服务，这一次，针对大模型对数据的海量需求，S3又迎来了两项重磅更新。

第一项是Amazon S3 Tables，这是全新的存储桶（buckets）格式，相当于完全的Apache Iceberg数据湖服务，用于大型分析数据集。

这种“新桶”，可以大幅提高Iceberg表的性能和扩展性，相比以前，现在每个表都是一级资源，查询性能提升3倍，事务处理能力提升10倍。并提供表级安全性和更优的成本。

如何利用S3 Tables快速查询分析并与Amazon云上分析服务联动

第二项更新是Amazon S3 Metadata元数据服务，这项服务可以帮助用户从存储在S3中的PB甚至EB级数据中，大海捞针，迅速找到需要的数据。

S3 Metadata可以自动从对象中捕获元数据，并近实时地存储到S3 Tables中，便于后续查询，并能在对象发生变化时，分钟级更新对应元数据。

无论是应对海量数据的分析查询需求，还是为大模型训练准备和供应优质数据饲料，S3的这两项更新，都非常应景。

基础设施层：网络

网络我们不多说，但AI时代网络的重要性不容小觑：更大带宽、更低延迟、更高可靠性。

亚麻云怎么做的呢？节点内部，他们有NeuronLink高速互联，而节点之间，他们推出了“10p10u网络”，也就是第二代UltraCluster网络架构。

“10p10u”支持20000+卡集群规模，网络容量超过10PB，延迟低于10μs。

10p10u网络可以支撑Trainium2 UltraServer之间的互联需求，每台超级服务器都需要接近13TB的网络带宽。

为了达到这样的目标，Amazon集结了一系列的黑科技，包括Nitro万卡的端侧网络加速和保序、定制的EFA网络接口、专用的光缆中继连接器、Firefly光纤插头、SIDR管理协议等等。

Amazon Nitro网卡演进史

当然对于智算网络来讲，光拼带宽和时延还不够，还需要可靠性、安全性、可管理性、性价比等等，以及如何落地到场景，为Bedrock、Amazon Q的开发者提供网络服务…

Amazon给出了一系列的方案，篇幅有限我不展开了，大家看图吧。

02、数据层

无论是传统的分析场景、ML场景，还是如今的大模型训调推场景，数据和数据质量重要性，不言而喻。

但是，从各种异构的数据源收集数据、对海量不同格式数据进行清洗、快速精准查找有价值的数据…，历来都是大难题。

这次，亚麻云给出了“终极解决方案”。

数据层：Amazon SageMaker

Amazon SageMaker重装上阵。

新一代的SageMaker，统一了数据、分析和AI工作流，针对大模型时代客户面临的数据分析、模型训练、资源成本等关键难题，提供一站式的工具和服务。

比如，基于SageMaker Unified Studio，用户可以在统一入口下，使用Amazon所有的数据和AI服务（流处理、数据处理、SQL分析、模型开发、GenAI应用开发、BI、搜索分析）。

如此，数据不需要搬来搬去，工具和服务也不需要来回切换，数据一统、服务一统、工作流一统，效率大大提升。

新SageMaker还提供了面向应用程序的Zero-ETL能力（就是这两年大火的数据编织DataFabirc），不需要构建和管理数据管道，不需要数据迁移，原地就可以即席分析第三方跨源数据。

同时，Amazon再次表现出对Iceberg的“偏爱”，发布了SageMaker Lakehouse。

这是一套兼容Apache Iceberg的数据湖服务，针对所有类型数据源提供简单统一的数据接入与访问控制，让数据集成更加简单，为大模型提供优质充足“饲料”更加容易。

03、模型层

模型层的更加激动人心，一是Amazon的自有模型，二是全托管模型服务平台。

模型层：自有基础模型Nova

Amazon自己的预训练模型震撼出炉，一发就是个王炸组合↓

Amazon Nova基础模型共包括四大模型，从小到大：用于简单任务的超高性价比文字处理Micro模型；低成本的Lite多模态模型；兼具准确性、速度和成本的Pro多模态模型；用于复杂的推理任务同时也可进行蒸馏定制的Premier多模态模型。

功能方面，Nova模型支持微调（Fine-tuning)，蒸馏（Distillation）训练更小的模型。

同时，Nova模型与Bedrock知识库深度集成，可用于RAG，以根据自有数据生成响应。

性能层面，Amazon Nova模型与同类模型相比，Nova在所有基准测试中都是相等或更好，极具竞争力。（对比GPT、Gemini、Claude3.5）

除了这四个基础模型，还发布了图像生成模型Amazon Nova Canvas、视频生成模型Amazon Nova Reel。

同样，在功能和性能层面，Amazon后发制人，Canvas跟业界顶流产品相比，表现更优（分别对比DALL·E 3和SD 3.5 Large）。

Amazon还有进一步动作，将在2025年提供Speech-to-Speech（语音到语音）和Any-to-Any（多模态到多模态）模型。

模型层：Bedrock全托管模型服务

其实，在过去的一年，Amazon已经反复给大家秀过Bedrock这个平台的实力了。

这是一个全托管的模型服务平台，是构建和拓展大模型应用的最简单方式，提供模型选择、成本优化、模型定制、安全审核、Agents构建和编排等一站式服务。

在Bedrock上，你可以选择业界最领先的开源和商业模型，无需关注基础设施的部署和管理，包括来自全球9家领先AI公司的高性能基础模型↓

比如著名的商业模型Claude 3.5、著名开源模型Llama 3、开发者最爱模型poolside、著名图像生成模型Stable Diffusion3.5、黑马级视频生成模型Luma AI等等。

同时，通过大模型Marketplace，额外提供100多款通用和行业模型，按需选择。

选择合适的基础模型只是第一步，Bedrock还提供一系列的模型优化和定制手段，相比于传统的Fine-Tuning手段，这次亚麻云发布了模型蒸馏功能。

蒸馏，顾名思义，把“水分”蒸出去，在不影响性能的前提下，缩小模型体积（参数量），最终获得一个更有性价比、更低推理延迟的定制模型。

此外，Bedrock还提供了提示词缓存、智能提示词路由等功能，进一步进行推理优化、降本提速。

前者可以让特定模型效率提升85%、成本降低90%，后者在无损质量、不影响准确性的情况下，让推理成本再降低30%。

这么说吧，亚麻云处心积虑的琢磨着如何帮助客户省钱，过去卖云是这样，现在搞大模型也是这样。

模型定制和优化好了，下一步需要构建具体的大模型应用，Bedrock又拿出了几项法宝，分别是↓

1、Amazon Bedrock的知识库：让用户通过自动化的RAG工作流程，更好地利用私有数据。
2、Amazon Bedrock Guardrails：为大模型的生成内容提供安全保护，可阻止高达85%的有害内容（包括多模态有害内容，如图像数据），并支持自动推理检查，防止因幻觉产生的事实性错误。
3、多Agents协作：构建、部署和编排多个Agents，协同处理复杂的多步骤任务。