AI 应用有望带动推理算力需求,云厂商持续加码 ASIC

360影视 欧美动漫 2025-03-11 10:50 2

摘要:从chatgpt3发布以来,大语言模型的推理的成本以指数级别下降,单美元可以生成的token 数量持续增长。同时模型的能力也持续增加。相较于最早的chat gpt3,目前的主流模型都可以通过更低的推理成本达到更高的智能水平。

1、推理降本趋势明显,ASIC 方案性价比凸显

chatgpt3 发布以来,大语言模型的推理的成本以指数级别下降,单美元可以生成的token 数量持续增长。同时模型的能力也持续增加。相较于最早的 chat gpt3,目前的主流模型都可以通过更低的推理成本达到更高的智能水平。

在 2021 年 1 月,GPT3 是唯一可以达到 MMLU 42 分的大语言模型,当时百万 token 的成本在 60 美元,截至 2024 年 11 月,由 together.ai 提供的 Llama 3.2B 可以同样达到 MMLU 42 分的水平,但百万 token 的成本以及降低到 0.06 美元。而可以达到 MMLU 83 分的大语言模型中,Llama 3.1 70B 截至2024 年 11 月百万 token 的成本已经小于 1 美元。根据 A16z Infrastructure 测算,推理成本每年降低幅度约 10 倍。

目前模型的能力提升,除了模型的预训练以外,推理的算法升级也不断落地,通过包括强化学习、MOE 等方法提升模型推理能力。我们认为:模型的推理成本快速降低,有望带动应用的爆发,而应用爆发将带动更多的推理算力需求,同时推理算法的迭代也带动更多算力需求。我们认为大量的推理算力以及降本诉求将有效带动 ASIC 的需求增长。

ASIC 相比 GPU,主要优势在于性价比。ASIC 采用定制化设计,可以针对云厂商的业务,以及模型做定制开发,将其中常用的算子直接固化到硬件当中,可以大幅提升运算效率,同时降低功耗。另外 GPU 主流厂商如英伟达产品具有较高毛利率,采用 ASIC 在单价上也有望降低。

2.谷歌、亚马逊加码 ASIC,其他 CSP 有望跟进

目前北美云厂商积极布局 ASIC,已经实现规模化生产的 ASIC 包括谷歌的 TPU、亚马逊的Trainium 与 Inferentia、微软的 Maia 以及 Meta 的 MTIA,其中谷歌和亚马逊的产品在2025 年已经开始实现较大规模出货。我们认为其他云厂商 ASIC 在成熟度逐渐提升后,未来也具备较大的增长空间。

另外 Openai 等厂商也在积极布局 ASIC,未来有望进入量产。谷歌 TPU 在 24 年已经推出第六代产品当中用于推理的 v6e 产品,与 TPU v5e 相比,Trillium TPU 每一芯片峰值计算效能提升了 4.7 倍,为相当惊人的表现。TPU V6e 将HBM 的容量与带宽提升 1 倍,芯片间互连网络带宽也提高了一倍。此外,v6e 还配备了第三代 SparseCore,这是处理超大嵌体的专用加速器,常用于处理进阶排名与推荐工作负载。

V6e 可以更快速地训练下一代基础模型,并以较短的延迟时间与较低成本提供模型服务。与 TPU v5e 相比,TPU V6E 的能源效率高出 67%。从数量来看,TPU 是目前 ASIC 当中最为主要的产品之一。根据 Digitimes 测算,2023 年TPU 在 ASIC 的市占率约 71%,2024 年全球 ASIC 出货达到 345 万颗,其中 TPU 占比提升至74%。根据 Omidia 测算,2024 年 TPU 的销售额在 60~90 亿美元。

亚马逊 Trainium2 已经推出,2024、2025 年出货增长迅猛。根据 Trendforce,AWS 的出货成长力道强劲,24 年年增率突破 200%。预计 2025 年 AWS 出货量将成长 70%以上,并更聚焦往 Trainium 芯片发展,投入 AWS 公有云基础设施及电商平台等 AI 应用。

AWS Trainium2 芯片的效能比第一代 Trainium 提升高达 4 倍。以 Trainium2 为基础的 Amazon EC2 Trn2 实例专为生成式 AI 而建置,是用于训练和部署具有数千亿到数万亿以上参数的模型的最强大 EC2 实例。Trn2 实例的价格效能比目前一代 GPU 型 EC2P5e 和 P5en 实例更好 30-40%。Trn2 实例配备 16 个 Trainium2 芯片,这些芯片透过NeuronLink 实现互连。

Trn2 UltraServer 是全新的 EC2 产品,非常适合需要比独立 EC2实例所能提供更多内存和内存带宽的最大型模型。UltraServer 设计使用 NeuronLink 将四个 Trn2 实例中的 64 个 Trainium2 芯片联机至一个节点中。对于推理而言,UltraServer 可协助提供业界领先的响应时间,进而创造出最佳的实时体验。对于训练而言,与独立实例相比,UltraServers 会透过更快的协同通讯来提高模型平行性的模型训练速度和效率。

目前包括 Adobe、AI 新创公司 Poolside、数据平台服务 Databricks 以及高通都通过Trainium2 处理器训练其 AI 模型,其中,高通在云端计算 AI 模型后再将其传送至边缘端。另外苹果也在采用亚马逊ASIC芯片提供的服务,应用于Siri,Apple Maps和Apple Music。苹果使用亚马逊的 Inferentia 和 Graviton 芯片来服务搜索服务。

Meta ASIC MTIA 已经推出第二代,目前主要用于模型推理,Meta 预计 26 年将有用于训练的 ASIC 推出。MTIA 使用台积电 5nm 工艺制造,具有 90W 的热设计功耗(TDP),显著降低了功耗需求,使其在数据中心中更易于管理。同时,该处理器采用 16 通道 LPDDR5 内存,配备 128GB 的内存配置,为高效数据处理提供了强有力的支撑。根据 Meta 24Q4 业绩会,目前 MTIA 主要用于模型推理以及推荐类任务,预计 26 年 MTIA 将用于训练当中。

微软也已经推出 MAIA 100 ASIC,采用 5nm 制程,64GB HBM2E。考虑微软 Azure 云具有较大体量,同时微软具备 Copilot 等终端 AI 应用场景,我们预计未来微软 ASIC 也将发力。

除了北美四大 CSP 以外,我们预计未来领先的模型厂商如 openai、deepseek 等也将开发ASIC。根据《经济日报》,openai 预计将采用台积电 3nm 以及 A16 制程生产 ASIC,目前已经向台积电预定 A16 产能,预计 openai 的 ASIC 将在 26 年年底进入量产。OpenAI、甲骨文和软银合作建立星际之门项目,预计投资 5000 亿美元用于人工智能基础设施建设,考虑星际之门项目的高投资,我们预计 openai 的 ASIC 未来也将有较大规模出货量。

更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

来源:思瀚研究院

相关推荐