掀桌子了!满血版3万Tokens每秒,英伟达捅破DeepSeek推理性能天花板!关键技术全揭秘

360影视 国产动漫 2025-03-21 17:43 3

摘要:随着NVIDIA平台持续探索Blackwell Ultra GPU和Blackwell GPU架构的极限潜力,这些推理性能的天花板会不断被捅破。

30000个tokens每秒,太炸裂了!

刚刚,英伟达在2025GTC大会上宣布了创世界纪录的满血 DeepSeek-R1 推理性能。

DGX系统搭载八颗NVIDIA Blackwell GPU,在DeepSeek-R1模型(6710亿参数)推理任务中创下了世界纪录↓

单用户推理速度超过每秒250个token,峰值吞吐量超过每秒30000个token。

这一突破性的性能提升,得益于针对NVIDIA Blackwell架构深度优化的NVIDIA开放生态推理开发工具链。

但这还是只是牛刀小试↓

随着NVIDIA平台持续探索Blackwell Ultra GPU和Blackwell GPU架构的极限潜力,这些推理性能的天花板会不断被捅破。

图1. 在NVL8配置下运行TensorRT-LLM软件的NVIDIA B200 GPU,在满血DeepSeek-R1 671B模型上实现了每秒每位用户最高的已发布token生成速度。

单台DGX B200(8颗GPU)系统与单台DGX H200(8颗GPU)系统的性能对比:

B200和H200的测试数据分别来自3月和2月,使用内部版本的TensorRT-LLM工具。

测试条件:3月,输入长度为1,024个token,输出长度为2,048个token;1月和2月份,输入和输出均为1,024个token。

并发度设为1,B200系统使用FP4精度,H100和H200系统使用FP8精度。

图2. 通过硬件和软件的结合,NVIDIA自2025年1月以来将DeepSeek-R1 671B模型的吞吐量提高了约36倍,相当于每个token的成本降低了约32倍。

最大吞吐量(标准化为8颗GPU系统)对比:

包括单台DGX B200(8颗GPU)系统、单台DGX H200(8颗GPU)系统,以及两台DGX H100(各8颗GPU,共16颗GPU)系统。测试数据来自内部版本的TensorRT-LLM工具。

3月测试:输入1,024个token,输出2,048个token。

1月和2月测试:输入和输出均为1,024个token。

并发度设为最大值(MAX), B200使用FP4精度,H200和H100使用FP8精度。


NVIDIA 拥有全球规模最大的推理生态系统,帮助开发者灵活地打造针对自身部署需求的AI解决方案,无论目标是追求最佳用户体验还是最大效率,都可以轻松实现。

该生态系统不仅包括NVIDIA官方提供的开源工具,也涵盖了来自社区的丰富贡献,共同发挥最新一代Blackwell架构和软件技术的全部潜力。

Blackwell架构在性能上实现了大幅度提升,包括:

• 第五代Tensor Core搭载FP4精度加速,AI算力最高提升至前代的5倍;

• 第五代NVLink和NVLink Switch技术,相较前代NVLink带宽提高2倍;

• 支持规模更大的NVLink网络域扩展能力。

无论从单芯片性能还是数据中心整体规模来看,这些创新都是推动前沿大模型(如DeepSeek-R1)实现高吞吐量和低延迟推理的关键。

然而,仅凭强大的硬件基础设施不足以满足加速计算的需求,更重要的是配套一整套持续优化且快速更新的软件堆栈,以确保当前的高强度任务高效运行,同时为未来更具挑战性的任务做好准备。

为此,NVIDIA始终致力于优化技术栈的每一层,包括芯片、系统、库和算法,以实现卓越的工作负载性能。

以下将全面介绍NVIDIA推理生态系统的多项更新,涉及的重要软件组件包括:

• NVIDIA TensorRT-LLM

• NVIDIA TensorRT

• TensorRT Model Optimizer

• CUTLASS

• NVIDIA cuDNN

• 主流AI框架(PyTorch、JAX、TensorFlow等)

此外,英伟达还分享了最新的性能与精度数据,这些数据是在搭载8颗Blackwell GPU并使用两个NVLink Switch芯片互联的NVIDIA DGX B200系统上实测获得的。


太长不看的分界线

TensorRT生态系统:专为NVIDIA Blackwell优化的全家桶

NVIDIA TensorRT生态系统旨在帮助开发者充分优化在NVIDIA GPU上的生产环境推理部署。

该生态包含一系列库工具,支持AI模型从预处理、加速优化,到最终的生产环境部署,全流程均已针对最新的NVIDIA Blackwell架构实现深度优化。

与上一代Hopper架构相比,Blackwell架构在推理性能上持续展现出巨大的提升。

模型优化的第一步:TensorRT Model Optimizer

TensorRT Model Optimizer是实现推理速度优化的重要第一步。它提供了一系列先进的模型优化技术,包括:

• 量化(Quantization)

• 蒸馏(Distillation)

• 剪枝(Pruning)

• 稀疏化(Sparsity)

• 推测解码(Speculation Decoding)

这些技术能够大幅提升模型在推理阶段的运行效率。

最新发布的TensorRT Model Optimizer 0.25版本现已支持Blackwell架构上的FP4精度,适用于训练后量化(PTQ)与量化感知训练(QAT),进一步提升了推理计算吞吐量,并降低了下游推理框架的内存消耗。

专为大模型推理优化的TensorRT-LLM

模型优化完成后,高性能推理框架对于高效运行至关重要。TensorRT-LLM为开发者提供了丰富的工具箱,支持实现实时、高性价比、高能效的大模型(LLM)推理。

最新发布的TensorRT-LLM 0.17版本新增了对Blackwell架构的支持,并针对Blackwell的指令集、内存层次结构及FP4精度做了定制化优化。

基于PyTorch架构的TensorRT-LLM,通过为常见大模型推理操作提供高性能且灵活的内核(Kernels),以及先进的运行时特性。

包括动态批处理(in-flight batching)、KV缓存管理和推测式解码(speculative decoding),实现了卓越的性能表现。

主流深度学习框架及其他LLM推理框架的全面支持

目前,广泛使用的深度学习框架如PyTorch、JAX和TensorFlow均已升级,全面支持Blackwell架构下的训练与推理。

此外,社区热门的LLM服务框架如vLLM与Ollama也已适配Blackwell GPU,其他框架的支持也将在近期陆续跟进。

Blackwell配合TensorRT的软件堆栈带来显著推理性能提升

得益于Blackwell架构与TensorRT软件的协同优化,相较上一代Hopper架构,推理性能获得大幅提升。

这种性能增长的核心来自显著提高的计算能力、更大的内存带宽,以及高度优化的软件栈,共同确保了卓越的实际运行性能。

以社区广泛使用的大模型为例,包括DeepSeek-R1、Llama 3.1(405B参数)和Llama 3.3(70B参数),DGX B200平台在使用TensorRT推理软件与FP4精度的情况下,推理吞吐量已超过DGX H200平台的3倍以上,性能优势极为突出。

图3. 使用搭载NVIDIA Blackwell GPU的NVIDIA HGX B200以及FP4,与上一代运行FP8的GPU相比,Llama 3.1 70B、Llama 3.1 405B和DeepSeek-R1的推理吞吐量(tokens/sec)提升情况。

以下为初步规格,可能会有所更改。

TensorRT 模型优化器 v0.23.0。TensorRT-LLM v0.17.0。最大批量大小为 2048,实际批量大小通过 TensorRT-LLM Inflight Batching 动态调整。H200 FP16/BF16 GEMM + FP8 KV 缓存。B200 FP4 GEMM + FP8 KV 缓存。吞吐量提升。

Llama 3.3 70B: ISL 2048, OSL 128

Llama 3.1 405B: ISL 2048, OSL 128

DeepSeek-R1: ISL 1024, OSL 1024

在对模型进行量化以利用低精度计算的优势时,确保最小的精度损失对于生产部署至关重要。

对于 DeepSeek-R1,TensorRT 模型优化器的 FP4 训练后量化(PTQ)在各种数据集上相较于 FP8 基线表现出极小的精度损失,如表 1 所示。

表1. DeepSeek-R1模型在FP8/FP4精度下的MMLU/GSM8K/AIME24/GPQA/MATH-500准确率(PTQ量化后)

表2提供了基于BF16基准精度以及在流行的Llama 3.1 405B和Llama 3.3 70B模型上使用FP4量化后的准确性结果。

表2. Llama模型在BF16/FP4精度下的MMLU和GSM8K准确率(PTQ量化后)

在以低精度(例如FP4)部署时,如果可以获取微调数据集,则可以应用量化感知训练(QAT)来恢复精度。

为了展示QAT的价值,使用TensorRT模型优化器通过QAT将NVIDIA Nemotron 4 15B和Nemotron 4 340B模型量化为FP4,与BF16基准相比实现了无损的FP4量化(表3)。

表3. FP4 PTQ和QAT相对于BF16基准的vMMLU 5-shot准确率。模型优化器QAT实现了Nemotron 4 15B和Nemotron 4 340B的无损量化。

使用TensorRT与TensorRT Model Optimizer的FP4精度提升Blackwell平台图像生成效率

此前,NVIDIA的TensorRT和TensorRT Model Optimizer已通过INT8和FP8等8比特量化技术,大幅提升了扩散模型(Diffusion Models)在图像生成任务中的性能。

现在,随着NVIDIA Blackwell架构与FP4精度的出现,AI图像生成的效率再度实现了飞跃。

这一性能优势不仅适用于数据中心和专业平台,也同样惠及搭载NVIDIA GeForce RTX 50系列GPU的个人AI电脑(AI PC),使用户能在本地快速生成高质量图像。

由Black Forest Labs推出的Flux.1模型系列属于业内领先的文本到图像(Text-to-Image)生成模型,具有卓越的文本提示遵循能力,能够生成丰富复杂的场景。

开发者现已可从Black Forest Labs在Hugging Face上提供的模型库中下载FP4量化的Flux模型,并直接使用TensorRT进行部署。

这些FP4量化模型由Black Forest Labs团队利用TensorRT Model Optimizer提供的FP4工作流和配方(recipes)生成。

为突出展示FP4精度对Blackwell平台图像生成性能的提升,Flux.1-dev模型在FP4精度下与FP16相比:

• 图像生成吞吐量(每秒生成图像数)提升最高达3倍;

• 显存(VRAM)占用量压缩最高达5.2倍;

• 在性能显著提升的同时,生成图像的质量仍然保持不变(详见表4)。

图4. GeForce RTX 5090在FP4精度下,Flux.1-dev的图像吞吐量与其他精度在30步长下的对比。

在Flux.1-dev模型中,仅Transformer主干部分采用了FP4精度进行量化,而模型中的其他部分则依然保持BF16精度。

此外,TensorRT的DemoDiffusion工具提供了一种低显存(low-VRAM)模式。

在该模式下,T5、CLIP、VAE以及Flux.1-dev所用的FLUX Transformer模型会按需加载,任务完成后随即卸载。

这种策略使得FLUX模型的峰值显存占用不会超过上述四个子模型中单个模型的最大显存需求。

但相应地,这种加载和卸载模型的方式也会增加一定的推理延迟。

表4. Blackwell FP4显存使用量及与不同精度格式的节省情况对比

图5展示了使用FP4精度量化的Flux模型生成的示例图像,从中可明显看出,与使用BF16精度的基准模型相比,在给定提示词下生成图像的质量和内容保持了一致。

表5通过对1000张生成图像的定量评估,进一步验证了FP4模型在图像质量、相关性以及视觉吸引力方面的表现。

图5示例图像对应的提示词如下↓

上图提示词:

“两颗巨大的恒星在浩瀚宇宙中彼此环绕共舞,强大的引力使它们逐渐靠近。当其中一颗恒星坍缩为黑洞时,爆发出耀眼的能量,形成一道璀璨夺目的光辉,在宇宙的黑暗背景中熠熠生辉。四周旋转着的气体与尘埃云团环绕着这一壮观景象,展现着宇宙深处难以想象的巨大能量。Two colossal stars dance in the vastness of space, their intense gravitational forces pulling them closer together. As one star collapses into a black hole, it releases a brilliant burst of energy, creating a dazzling display of shimmering light against the cosmic backdrop. Swirling clouds of gas and dust encircle the spectacle, hinting at the unimaginable power contained within.”

下图提示词:

“画面的中央放置着一个真实感十足的球体,其表面覆盖着柔软蓬松的动物毛发。毛发细致逼真,呈现出自然、柔和的起伏动态。毛发所投射的阴影增强了画面的视觉效果,整体渲染效果细腻逼真,具有高质量的Octane渲染质感。A realistic sphere textured with the soft, fluffy fur of an animal sits in the center of the image on a plain colored background. The fur ripples with gentle, lifelike motion, and the shadows cast by the fur create an engaging visual effect. The render has a high-quality, octane appearance.”

图5. 在RTX 5090上,Blackwell FP4以一半的显存实现了Flux.1-dev模型3倍的推理性能,同时保持了相当的质量。

表5. 使用Image Reward、CLIP-IQA和CLIPScore对FP4图像质量的定量评估(数值越高越好)。

Flux.1-dev模型性能测试说明

•测试设置:Flux.1-dev模型,推理步数30步,共生成1,000张图像,采用TensorRT Model Optimizer v0.23.0 FP4配方进行量化。

•模拟环境:2025年1月24日,基于NVIDIA H100 GPU进行模拟测试。在TensorRT内核层面,此模拟与RTX 5090上的表现数学上完全一致,但实际运行于RTX 5090 GPU时可能会存在细微的分数差异。

TensorRT 10.8更新带来的性能提升

TensorRT 10.8版本现已支持Flux.1-Dev与Flux.1-Schnell模型在高端GeForce RTX 50系列GPU上的峰值FP4性能表现。

此外,借助新增的--low-vram(低显存)模式,即使是在显存容量受限的GeForce RTX 5070等GPU上,也能顺畅运行上述模型。

同时,TensorRT现在还支持运行由Black Forest Labs提供的Depth和Canny Flux ControlNet模型。开发者可立即使用TensorRT提供的demo/Diffusion工具体验相关功能。

cuDNN的深度学习原语已针对Blackwell架构优化

自2014年推出以来,NVIDIA cuDNN库一直是GPU上深度学习加速的核心组件。

它通过高度优化的深度学习基础原语实现,帮助PyTorch、TensorFlow和JAX等主流框架达到业内领先的性能表现。

凭借与框架的无缝集成及在多代GPU架构上的优化支持,cuDNN已经成为贯穿训练到推理全流程深度学习工作负载的性能引擎。

随着cuDNN 9.7版本的发布,NVIDIA正式将cuDNN对Blackwell架构的支持扩展到了数据中心和GeForce系列产品线。

当开发者将现有的cuDNN算子迁移到Blackwell架构的新一代Tensor Core上时,将显著提升性能表现。

新版库提供了高度优化的通用矩阵乘法(GEMM)API,充分发挥Blackwell架构在FP8和FP4区块缩放(Block-scaling)操作上的优势,屏蔽底层复杂性,使开发者更专注于上层的创新工作。

针对FP8精度的Flash Attention操作,cuDNN在Blackwell架构下取得了明显的性能提升:

• 前向传播(Forward Propagation)性能提升高达50%;

• 反向传播(Backward Propagation)性能提升更高达84%。

不仅如此,cuDNN还为Blackwell架构提供了高度优化且具有高级算子融合能力的GEMM操作。未来,cuDNN将进一步拓展算子融合支持,以持续推动深度学习工作负载性能的提升。

图6. NVIDIA Blackwell B200与NVIDIA Hopper H100之间的FP8 Flash Attention加速对比

借助CUTLASS打造高性能的Blackwell架构CUDA内核

自2017年首次推出以来,CUTLASS一直是研究人员和开发者在NVIDIA GPU上实现高性能CUDA内核的重要工具。

CUTLASS通过提供丰富的工具集,帮助开发者高效设计针对NVIDIA Tensor Core的自定义计算操作,例如通用矩阵乘法(GEMM)和卷积(Convolution)等,使硬件感知算法(Hardware-aware Algorithms)的开发变得更加高效。

这推动了FlashAttention等创新算法的出现,也确立了CUTLASS在GPU加速计算领域的重要地位。

此次CUTLASS 3.8版本的发布,全面增加了对NVIDIA最新Blackwell架构的支持,帮助开发者充分利用新一代Tensor Core所支持的所有新数据类型,包括最新的窄精度MX数据格式以及NVIDIA自研的FP4精度。

这一更新将使开发者能更有效地为自定义算法和生产工作负载进行性能优化,充分释放加速计算的最新潜力。

如图7所示,借助CUTLASS,我们在Tensor Core计算操作上的性能表现已经达到相对峰值性能的98%。

图7. 在不同NVIDIA Blackwell Tensor Core上可实现的相对峰值性能

测试在B200系统上进行,其中M=K=16384,N=17290。

CUTLASS为Blackwell架构引入Grouped GEMM和混合输入GEMM等热门功能

最新版本的CUTLASS还在Blackwell架构上引入了广受欢迎的功能,例如Grouped GEMM(分组GEMM)和Mixed Input GEMM(混合输入GEMM)计算:

• Grouped GEMM 能更高效地同时执行多个“专家”(Expert)计算,从而显著加速混合专家(MoE)模型的推理过程。

• Mixed Input GEMM 则可支持量化内核(Quantized Kernels),降低大型语言模型(LLM)权重在GPU上的显存占用,进一步提高GPU资源的使用效率。

Blackwell架构已获得OpenAI Triton编译器加持

此外,OpenAI Triton编译器现已新增了对NVIDIA Blackwell架构的支持。这一更新使开发者和研究人员能够借助基于Python的Triton编译器轻松调用Blackwell的最新架构特性。

OpenAI Triton现已充分利用Blackwell架构的创新优势,在多个关键应用场景下实现了接近最优的性能表现。


总结一下,NVIDIA Blackwell架构集成了众多突破性技术,大幅加速了生成式AI的推理性能,其中包括:

• 第二代Transformer Engine与FP4 Tensor Core;

• 第五代NVLink与NVLink Switch技术。

牛刀小试的成绩,NVIDIA宣布创下了满血版DeepSeek-R1模型推理性能的世界纪录:一套配备8颗Blackwell GPU的NVIDIA DGX系统,能实现单用户每秒超过250个token的推理速度,最大吞吐量更超过每秒30,000个token。

本文编译自英伟达官方博客

原文链接:https://developer.nvidia.com/blog/nvidia-bla

来源:特大号

相关推荐