AI大模型推理优化（附原文pdf文档和DeepSeek资料下载）

摘要：大模型推理引擎采用了多种定制化的优化技术，针对预填充和解码阶段进行优化。大多数引擎都使用了 KV Caching 避免解码阶段的重复计算，使用缓存的上下文，只计算最新一个 Token。引入连续批处理和混合批处理，进一步优化解码阶段性能；对多个请求的分组预填充、

大模型推理引擎采用了多种定制化的优化技术，针对预填充和解码阶段进行优化。大多数引擎都使用了 KV Caching 避免解码阶段的重复计算，使用缓存的上下文，只计算最新一个 Token。引入连续批处理和混合批处理，进一步优化解码阶段性能；对多个请求的分组预填充、分组解码可以更好利用GPU资源。解码阶段使用算子融合和硬件特有的加速计算核，减少每个token生成的开销。算子融合, 比如, 将 LayerNorm, 矩阵乘, 激活函数融合成一个算子, 减少访存和 Kernel Launch 的开销。量化是另一个主要的优化方法。用 8比特或4比特整型,替换16比特或32比特浮点类型，对内存使用和带宽需求降低, 尤其是在解码阶段。量化模型可以缓存更多的 tokens , 处理更多的并发请求，提升计算速度。

通常 caching, batching, 算子优化, 量化是优化大模型推理服务的 token 吞吐、减少时延的基础方法。在推理引擎中支持这些技术对交付高质量大模型方案非常关键。

Transformer Decoder

注意力机制模块

大模型推理流程

大模型推理和服务流程

大模型推理引擎对比

大模型推理引擎后端硬件支持

大模型推理引擎使用的优化方法

推理请求把多个输入请求分组打包同时处理，提升硬件利用率和吞吐率。除了批大小外，调度方法也会显著影响推理性能。static batching 处理固定数量的请求，新请求需要等待当前批请求完成后，才能开始推理，增加了推理时延。dynamic batching, continuous batching 实时自适应批请求，可以减少推理时延、提升效率。

Dynamic Batching, 在新请求进来的时候，和现有批进行合并或添加到正在处理的进程中，优化资源利用率。实现动态批处理需要优化几个参数，最大等待时间、最小批大小、最大批大小。可能会由于动态改变批大小而引入开销，请求的提示词如果变动很大，或输出 token 长度变动很大，性能会下降。

Continuous batching 与 Dynamic Batching 相似，但新请求加入的时候不会中断正在处理的批样本，减少了推理时延。请求会连续地插入，最大化GPU和显存利用率。Continuous Batching 要求复杂的调度机制，新请求加入时不中断现有处理流程。高效的 KV Cache 管理也非常关键，经常和 PagedAttention 一起使用。推理引擎 llama.cpp, DeepSpeed-FastGen, vLLM 都使用了 Continuous Batching, 该方案来源于 Orca。

Nano-Batching 由 NanoFlow 引入, 对算子级别切分，单卡上并行计算、访存、网络通信操作, 最大化利用资源和提高吞吐率。算子粒度分为 attention、KV 生成、GEMM、多卡同步集合通信。动态调整 nano-batch 大小，优化每类资源，调度算法基于硬件资源和算子优化，合并了拓扑排序和贪婪搜索。nano-batching 并发处理可以提升资源利用率，增加了吞吐率，但调度复杂，会导致额外的开销，尤其是多卡处理的时候。

Chunked-prefill 在多卡环境中，内存约束的解码过程存在idle 状态，处理长提示词的时候，可能会增加时延，延误了较短的提示词请求。Chunked-Prefill 把长提示词拆分成多个片段，增量式处理。第一个片段开始解码的同时，后续的片段也可以进行预填充，两个截断可以并发计算，增强了资源利用率。Chunked-Prefill 也引入了调度的复杂度，需要进行更细粒度的批管理。KV Cache 的使用会激增，尤其是在预填充和解码同时计算的时候。比如，DeepSpeed-FastGen 切分提示词生成 tokens, 调度算法就会立即获取新请求，消除了等待时间。

2、并行优化

大模型过大，单卡上可能放不下。多卡多节点分布式并行处理，可以减少时延、增加利用率。并行算法受可用卡数量、互联带宽、访存层级、算力影响。主要方法有张量并行 TP、数据并行 DP、FSDP、流水线并行。当然也可以采用混合并行。

数据并行 DP在多卡或多节点上复制相同的模型，每个独立使用单独的数据推理。计算完成后，结果或权重搜集到一张卡上产生最后的结果。但如果使用的硬件性能有明显差异，整个系统性能就可能成为瓶颈。

FSDP在多卡上切分模型权重、梯度、优化器。删除了重复的内存占用。在某一网络层执行之前，汇聚该层所有参数。使用时才临时加载这层所有参数，用完之后就删除。它不是切分算子，所以执行简单，与模型兼容。每次计算之前都会进行 all-gather 操作，引入了通信开销。推理时性能下降。另外，如果某个网络层要求的内存特别大，大到单卡放不下的时候，运行就有困难。训练的时候，FSDP切分了激活和权重，节省了内存。但推理的时候，没有梯度和激活的重计算，内存节省有限。那推理的时候i就取决于模型的大小。vLLM, DeepSpeed-FastGen, SGLang 是支持FSDP的。

张量并行，也就是模型并行或模型切分，主要是多卡切分矩阵乘、Attention、全连接(矩阵乘)。每卡切到1个片段，后续合并中间结果。图示中把模型切到4卡上。比如矩阵乘 X*A=Y。A矩阵切分到多卡上，按行或列切分，集合通信算子汇聚结算结果，All-Reduce 或 All-Gather。每卡不需要保存所有权重，但有通信开销，切得不好也会降低效率。为了处理张量并行的通信瓶颈，尤其是TTFT时的性能下降，提出了新方法压缩通信数据，减少开销，提升推理性能。

流水线并行，把大模型不同网络层分配给不同卡。输入数据切分成 micro-batch , 遍历网络层流水线。每卡一层。

3、压缩

量化: 主要是节省内存、增加推理速度。推理引擎需要选择合适的计算核，运行量化模型。KV Cache 量化 在长上下文中减少内存使用。

大模型推理引擎支持的数据类型

4、Caching

Prompt Caching : 大模型的提示词通常包含复用文本，比如系统信息、通用指令，在对话系统，编程助手、文档处理中多次出现。优化这种同样内容的技术就是 Prompt Caching, 存储了常用文本的 attention states 片段，只计算新的片段，因此可以加速推理。但由于位置编码的存在，每次片段需要出现在相同的位置上。PML(Prompt Markup Language)定义了提示词的结构，识别出可以重用的片段，分配唯一的位置 ID 。PML使用模块级位置和层级。改善 Prompt Caching 准确率的一个方法是 embedding 相似度。使用余弦相似度计算 prompt embeddings, 这需要训练一个模型来对比这个相似度。