事实证明,全程充分利用 AI 大脑并非运行模型的最高效方式

360影视 欧美动漫 2025-05-27 22:52 2

摘要:即使在中国之外,模型构建者也越来越多地转向混合专家 (MoE) 架构,并辅以新兴的压缩技术,以降低部署大语言模型 (LLMs) 时所需的计算资源。自从 ChatGPT 引发生成式 AI 热潮近三年以来,人们终于开始考虑这些模型运行成本的问题。

特色 如果你这几年一直在关注 AI 发展,你会发现一个不变的趋势:模型越大通常越聪明,但运行起来也更困难。

这一点在那些受限于美国最先进 AI 芯片使用的地区尤其成问题——例如中国。

即使在中国之外,模型构建者也越来越多地转向混合专家 (MoE) 架构,并辅以新兴的压缩技术,以降低部署大语言模型 (LLMs) 时所需的计算资源。自从 ChatGPT 引发生成式 AI 热潮近三年以来,人们终于开始考虑这些模型运行成本的问题。

需要明确的是,我们之前见过像 Mistral AI 的 Mixtral 这样的 MoE 模型,但直到最近一年左右,这项技术才真正开始流行起来。

在过去几个月中,我们看到来自 Microsoft、Google、IBM、Meta、DeepSeek 和 Alibaba 等公司的新一代开源权重大语言模型涌现,它们均基于某种混合专家 (MoE) 架构。

原因很简单:这种架构比传统的“密集型”模型架构高效得多。

突破内存瓶颈

最早在 90 年代初的一篇题为 "Adaptive Mixtures of Local Experts" 的论文中就描述了这一基本思想,其核心理念是,与其使用一个在各方面都有所涉猎的庞大模型,不如将工作分配给任意数量的小型子模型或“专家”。

理论上,每个专家都可以针对某个特定领域的任务进行优化,比如编程、数学或者写作。不幸的是,很少有模型构建者详细说明构成其 MoE 模型的各个专家,且每个模型中专家的数量也各不相同。关键点在于,在任一时刻,只有模型的一小部分在被调用。

例如,DeepSeek 的 V3 模型由 256 个路由专家以及一个共享专家组成。但每个 Token 只会激活 8 个路由专家,加上共享专家。

正因为如此,MoE 模型在质量上往往无法与同等规模的密集型模型相提并论。例如,阿里巴巴的 Qwen3-30B-A3B MoE 模型在阿里巴巴自家基准测试中始终落后于密集型的 Qwen3-32B 模型。

如果基准测试结果可信,相较于 MoE 架构所带来的效率飞跃,这种质量损失显得微不足道。较少的激活参数也意味着,为达到某一性能水平所需的内存带宽不再与存储模型权重所需的容量成正比。

换句话说,MoE 模型或许依旧需要大量内存,但并非所有内存都必须是超高速或价格极高的 HBM。

为说明这一点,我们来比较一下 Meta 最大的密集型模型 Llama 3.1 405B 与几乎同等大小但采用 MoE 架构、拥有 170 亿激活参数的 Llama 4 Maverick 的系统需求。

诸如批处理大小、浮点运算性能以及键值缓存等因素都影响实际性能,但我们至少可以通过将模型在给定精度下(8 位模型每个参数 1 字节)以 GB 为单位的大小乘以目标每秒 Token 数(批量大小为一)来大致估算模型的最低带宽要求。

若要运行 Llama 3.1 405B 的 8 位量化版本——稍后将详细介绍量化——你需要超过 405 GB 的 vRAM 以及至少 20 TB/s 的内存带宽,以实现每秒生成 50 个 Token 的文本速度。

作为对照,Nvidia 基于 HGX H100 的系统——我们提醒一下,这类系统直到最近售价通常在 30 万美元或更多——仅配备 640 GB 的 HBM3 和大约 26.8 TB/s 的总带宽。如果你想运行完整的 16 位模型,还至少需要两台这样的系统。

相比之下,Llama 4 Maverick 占用相同内存,但仅需要不到 1 TB/s 的带宽便能达到相同性能。这是因为仅有相当于 170 亿参数的模型专家用于生成输出。

这意味着,在同样的硬件上,Llama 4 Maverick 生成文本的速度应比 Llama 3.1 405B 快一个数量级。

另一方面,如果性能并非最关键的问题,你现在可以用更便宜、虽然速度较慢的 GDDR6、GDDR7 甚至在 Intel 最新 Xeon 系列中使用的 DDR 来运行许多这些模型。

Nvidia 本周在 Computex 上宣布的全新 RTX Pro 服务器正是针对这一需求而设计。与昂贵、耗电且需要先进封装技术集成的高带宽内存 (HBM) 不同,这些系统中每台包含的 8 个 RTX Pro 6000 GPU 都配备了 96 GB 的 GDDR7 内存——这与现代游戏显卡中所使用的内存相同。

综合来看,这些系统总共提供高达 768 GB 的 vRAM 和 12.8 TB/s 的总带宽——完全足以支持 Llama 4 Maverick 在每秒数百个 Token 的情况下平稳运行。

Nvidia 尚未公布定价,但考虑到这类显卡的工作站版本目前零售价格在 8,500 美元左右,我们不会惊讶如果它们的售价低于以前 HGX H100 的一半。

话虽如此,MoE 并不意味着 HBM 堆叠 GPU 的时代就此终结。我们不指望会看到 Llama 4 Behemoth(假设它最终会发布)在不使用一整架 GPU 服务器的情况下运行。

尽管其激活参数仅约为 Llama 3.1 405B 的一半,但其总参数量达到了 2 万亿。如今市场上没有一台传统 GPU 服务器能够容纳完整的 16 位模型及随之而来的百万 Token 以上的上下文窗口。

CPU 终于迎来了 AI 的春天了吗?

根据您的使用场景,您甚至可能完全不需要 GPU——这在高端加速器进口受限的地区显得尤为有用。

今年四月,Intel 展示了一个配备全套 8800 MT/s MCRDIMM 的双路 Xeon 6 平台,在运行 Llama 4 Maverick 时实现了每秒 240 个 Token 的吞吐量,且平均每个 Token 的输出延迟不到 100 毫秒。

简单来说,这个平台能够为大约 24 个并发用户保持每用户每秒 10 个或更多的 Token。

Intel 未公布单用户(批次为 1)的性能数据——这也不是什么特别重要的现实指标——但粗略计算显示,单用户性能最多大约为每秒 100 个 Token。

话虽如此,除非你没有更好的选择或者有非常特殊的需求,否则基于 CPU 的推理运算经济性仍在很大程度上取决于你的具体使用场景。

裁剪权重:剪枝与量化

MoE 架构确实能降低部署大型模型时所需的内存带宽,但它们对保存权重所需的内存容量并无帮助。正如前文所提,即便在 8 位精度下,Llama 4 Maverick 仍需超过 400 GB 的内存来运行,不管有多少参数处于激活状态。

然而,新兴的剪枝技术和量化技术在稍作改进后,有望在不影响质量的前提下将内存需求减半。

Nvidia 已经押注于剪枝技术有一段时间了。这家 GPU 巨头已发布了多款经剪枝的版本——这些模型将冗余或较不重要的权重剔除——基于 Meta 的 Llama 3 模型。

此外,Nvidia 还是首批在 2022 年扩展对 8 位浮点数据类型支持的厂商之一,并且在 2024 年以其 Blackwell 架构的发布再次支持了 4 位浮点数据类型。与此同时,AMD 首批支持原生 FP4 的芯片预计下月问世。

虽然原生硬件支持这些数据类型不是绝对必要,但通常能降低在大规模部署时遇到运算瓶颈的可能性。

与此同时,我们已经看到多家模型构建者开始采用低精度数据类型,包括 Meta、Microsoft、Alibaba 以及其他提供八位甚至四位量化版本模型的公司。

我们之前已经深入探讨过量化,但简单来说,其核心在于将模型权重从原生精度(通常为 BF16)压缩到 FP8 或 INT4。这有效地将模型的内存带宽和容量需求减半甚至四分之一,但以牺牲一定的质量为代价。

总体上,从 16 位降到 8 位所引起的质量损失通常不明显,而一些模型构建者(DeepSeek 在内)甚至从一开始就采用了 FP8 精度进行训练。但如果再减少 4 位,质量损失就会相当显著。因此,许多后训练的量化方法,如 GGUF,不会对所有权重一视同仁,而是保留部分权重在更高精度下,以限制损失。

上个月,Google 展示了量化感知训练 (QAT) 技术,将其 Gemma 3 模型压缩了 4 倍,同时仍达到接近原生 BF16 的质量。

QAT 的原理是在训练过程中模拟低精度运算。Google 表示,对一个未经校准的模型进行大约 5,000 步的 QAT 处理后,在转换为 INT4 时,其困惑度(用于衡量量化损失的指标)的下降幅度减少了 54%。

另一种基于 QAT 的量化方法名为 Bitnet,目标更低,将模型压缩到仅 1.58 位,约为原始大小的十分之一。

整合各项技术

将 MoE 与 4 位量化技术结合使用时,在受到 Blackwell Ultra 严苛价格冲击而导致的带宽限制,或者因为 “Uncle Sam” 的贸易政策使 HBM 比黄金更为珍贵的情况下,效果尤为显著。

对于其他所有情况,这两项技术中的任意一种均可以显著降低运行更大、更高性能模型的设备和运营成本——前提是你能找到它们的有价值用途。

如果找不到,你至少可以从中得到一些安慰:最近 IBM 对 2,000 位 CEO 的调查显示,只有四分之一的 AI 部署实现了其所承诺的投资回报。

来源:至顶网一点号

相关推荐