摘要:英伟达创始人兼首席执行官黄仁勋在CES 2025(国际消费类电子产品展览会)发表了主题演讲,发布基于Blackwell架构的GeForce RTX 50系列消费级显卡。桌面平台首批产品分别为RTX 5090、RTX 5080、RTX 5070 Ti、RTX 5
英伟达创始人兼首席执行官黄仁勋在CES 2025(国际消费类电子产品展览会)发表了主题演讲,发布基于Blackwell架构的GeForce RTX 50系列消费级显卡。桌面平台首批产品分别为RTX 5090、RTX 5080、RTX 5070 Ti、RTX 5070、以及合规版RTX 5090 D,共有五款。此外,英伟达还带来了面向笔记本电脑的GeForce RTX 50系列移动GPU。
英伟达称,目前对于画面质量的追求已大幅度超越了摩尔定律所能够提供的运算性能,为此加入神经渲染势在必行,这是计算机图形学的下一个时代。通过将神经网络集成到渲染过程中,可以在性能、图像质量和交互性方面取得显著进步,从而提供全新的沉浸式体验。
在这次的Blackwell架构GPU上,新一代Tensor Core添加了对FP4浮点运算精度的支持。FP4是一种较低的量化方法,类似于文件压缩,可以减小模型推理过程中数据存储和计算量大小,提高计算效率,降低该过程对显存的要求。与大多数模型默认使用的FP16相比,FP4使用的显存不到其一半,并使GeForce RTX 50系列GPU的性能相比上一代提升高达2倍。通过利用NVIDIA TensorRT Model Optimizer提供的高级量化方法,这些增益几乎不会影响输出质量。
NVIDIA GeForce RTX 5090
由于加入了神经渲染,Blackwell架构GPU的SM设计也发生了变化,与Tensor Core的结合变得更加紧密,以便在传统渲染管线中加入AI相关的功能。同时Shader Core也不再区分处理INT32 / FP32以及仅FP32的部分,全部都可以操作INT32 / FP32。通过传统Shader Core与Tensor Core的进一步结合,打造出RTX神经着色器(RTX Neural Shaders),将小型神经网络带入可编程着色器中,应用范围包括辐射缓存、纹理压缩、材质、辐射场等。
The RTX Neural Shaders SDK允许开发者在RTX AI PC上训练他们的游戏数据和着色器代码,并使用Tensor Cores在运行时加速其神经表示和模型权重。在训练过程中,神经游戏数据与传统数据的输出进行比较,并经过多次循环进行优化。开发者可以使用Slang(一种将大型复杂函数拆分为更易处理的小部分的着色语言),以此简化训练过程。
这项突破性技术用于三种应用:RTX神经纹理压缩、RTX神经材质和神经网络辐射缓存(NRC)。RTX神经纹理压缩使用AI在不到一分钟的时间内压缩数千种纹理,在相同的视觉质量下可以节省高达7倍的显存占用;RTX神经材质是使用AI压缩通常保留给离线材质的复杂着色器代码,并且这些材质由多层组成,处理速度可提升5倍;神经网络辐射缓存使用在实时游戏数据上训练的神经网络,能更准确和高效地估计游戏场景中的间接光照,而大幅减少光线追踪的计算量。
在RT Core方面,英伟达主要提升了检测光线、路径与三角形相交的效能,现在检测能够以簇集方式进行,另外也有三角形簇集解压缩引擎。其中新增支持Linear-swept Spheres(LSS),可以减少渲染毛发所需的几何图形数量,并使用球体代替三角形以获得更准确的毛发形状拟合,具有更好的性能和较小的显存占用。
按照英伟达的说法,相比于首次加入RT Core的Turing架构,新一代Blackwell架构光线、路径与三角形相交的检测效率大概提升至原来的8倍,同时相比上一代Ada Lovelace架构,能节省约25%的显存使用率。
考虑到AI在游戏内的应用越来越普遍,如何分配显卡内部的多样化工作成为了新的问题。为此英伟达在Blackwell架构GPU上加入了AI Management Processor,可以根据不同的实际情况调整数据处理的优先权,以提升反映速度,维持运算效率。对于广泛应用的DLSS来说,可以多帧生成提供一致的画面生成时间。
Blackwell架构GPU除了整体设计的提升外,很重要一点是加入了对GDDR7的支持。与现有GDDR6使用的NRZ/PAM2或GDDT6X的PAM4信号编码机制不同,GDDR7采用的是PAM3信号编码机制。NRZ/PAM2每周期提供1位的数据传输,PAM4每周期提供2位的数据传输,而PAM3每两个周期的数据传输为3位。整体而言,能够降低耗电,带宽也得到了再次提升。
英伟达在电源效率上也下了不少功夫,不仅针对笔记本电脑使用的型号,台式机使用的GeForce RTX 50系列显卡也因此受惠。英伟达针对闲置运算单元,在原有基础上加入了电源轨闸控(Rail Gating),可单独微调非频繁操作区域的供电状况。
英伟达表示,Blackwell架构的频率调整速度相比Ada Lovelace架构快了上千倍,进入睡眠状态或者唤醒速度也提升了数个量级。这不仅能节省约50%的能源消耗,而且能更快地迎合运算的需求,带来更好的效能表现。
具备多帧生成功能的DLSS 4NVIDIA DLSS是一套由GeForce RTX Tensor Core驱动的神经渲染技术,可在提供清晰、高质量图像的同时提升帧率。在新一代Blackwell架构GPU上,引入了DLSS 4,具备多帧生成功能,在每个传统渲染的帧之间生成多达三个额外的帧。
DLSS 4还引入了自2020年发布DLSS 2.0以来对其AI模型的最大升级,DLSS光线重建、DLSS超分辨率和DLAA将由Transformer模型驱动,这是Transformer模型首次在图形领域的实时应用。DLSS Transformer模型通过改进的时间稳定性、减少鬼影以及运动中的更高细节来提升图像质量。
DLSS 3帧生成的AI模型使用游戏数据,如运动矢 向量和深度信息,以及来自GeForce RTX 40系列光流加速器的光流场来生成一个额外的帧。这种方式生成多个帧的成本过高,因为每次生成新帧都需要光流加速器和AI模型,并且性能开销会限制GPU,导致输入帧率降低。
DLSS 4多帧生成结合了多项Blackwell架构的硬件技术和DLSS创新,实现了多帧生成。新的帧生成AI模型快了40%,使用的显存减少了30%,并且只需每渲染一帧运行一次即可生成多帧。英伟达通过用一个非常高效的AI模型替换硬件光流加速器来加速光流场的生成,显著降低了生成额外帧的计算成本。
利用Blackwell架构GPU的第五代Tensor Core,AI处理性能提升了最多2.5倍。一旦生成了新的多个帧,它们就会被均匀地安排,以提供流畅的视觉体验。过去DLSS 3帧生成使用基于CPU的帧调度,其变异性可能会随着额外帧的增加而累积,导致每帧之间的帧调度不一致,影响流畅性。
为了解决生成多个帧的复杂性,Blackwell架构GPU使用Flip Metering,将帧率逻辑转移到显示引擎中,使得GPU能够更精确地管理显示时间。同时显示引擎还增强了两倍的像素处理能力,以支持更高的分辨率和刷新率,从而实现带有DLSS 4的Flip Metering。
对于游戏和应用,DLSS 4结合多帧生成、光线重建和超级分辨率技术,将帧率提升至普通渲染的最高8倍,并在从帧生成升级到多帧生成时,进一步提高帧率高达1.7倍,性能提升效果非常地明显。
之前DLSS使用卷积神经网络(CNN)通过分析局部上下文并在连续帧中跟踪这些区域的变化来生成新像素,经过六年的持续改进,已经达到了极限。新的DLSS Transformer模型使用了视觉 Transformer变压器,使自注意力机制操作能够评估整个帧中每个像素的相对重要性,并且跨越多个帧。
DLSS Transformer模型采用两倍于CNN模型的参数来实现对场景的更深层次理解,从而生成提供更高稳定性、减少鬼影、运动细节更多以及场景边缘更平滑的像素。在密集的光线追踪内容里,新的DLSS Transformer模型能大幅提升图像质量,在复杂的光照条件下会有更明显的优势,稳定性会加强,重影会减少,闪烁现象也会消失。DLSS光线重建、DLSS超分辨率和DLAA将由Transformer模型驱动,这是Transformer模型首次在图形领域的实时应用,它也将进一步提升RTX 20/30/40系列显卡的DLSS性能体验。预计在未来数年里,图像质量会持续提升。
入手GeForce RTX 50系列显卡的游戏玩家将能在75款游戏和应用中,利用DLSS多帧生成技术实现性能倍增。游戏的帧生成功能在GeForce RTX 50/40系列上也进行了升级,不但提升了性能,还减少了显存的使用。
过去四年里,NVIDIA Reflex已集成到超过100款游戏中,可以将PC延迟降低50%。在新一代Blackwell架构GPU上,带来了NVIDIA Reflex 2,结合了Reflex低延迟模式和新的Frame Warp技术,通过把最新的鼠标输入指令及时同步给渲染帧,及时更新渲染的游戏帧并在渲染帧被发送到显示器之前获取最新的鼠标信息,通过刷新渲染的游戏帧以进一步减少延迟,将PC延迟进一步降低多达75%。
在电子游戏里,玩家的每个动作都会经过复杂的计算,然后在屏幕上显示,其中的每一步都会增加延迟。来自键盘和鼠标的输入传输给游戏,由CPU进行计算其在游戏中的效果。操作的结果被置于渲染队列中,队列被传输给GPU进行渲染,最后输出到显示器。整个过程大概需要几十毫秒,但卡顿和其他滞后情况会增加延迟。
NVIDIA Reflex 2首次采用了Frame Warp技术,是另一种减少延迟的方法。当一个帧被GPU渲染时,CPU会根据最新鼠标或手柄输入计算工作流中下一帧的视角位置。Frame Warp从CPU采样新的视角位置,然后将GPU刚才渲染的帧扭转到最新的视角位置。在渲染帧被发送到显示器之前,在尽可能最新的时间进行扭转操作,确保屏幕上反映最新鼠标输入。
当Frame Warp转移游戏像素时,图像中会产生缝隙撕裂的空白像素,镜头位置的变化会让游戏场景中显示之前没有渲染的新像素。英伟达开发了一种优化了延迟的预测渲染算法,使用来自先前帧的视角、颜色和深度数据,对这些撕裂的空白像素进行准确的图像修复。玩家可以通过更新的视角看到没有撕裂的渲染帧,并降低了改变游戏内视角位置而产生的延迟。这有助于玩家更好地瞄准目标,更精准地跟踪敌人,提高命中率。
Ada Lovelace和之前的GPU架构上,在H.264和H.265视频中提供了对4:2:0色度采样的支持,Blackwell架构则增加了编码和解码4:2:2色度采样视频的能力,这将节省CPU的负担,加快创作速度。视频文件使用YUV颜色格式,与存储红色、绿色和蓝色(RGB)值不同,颜色被存储为亮度(Y)、蓝差色度(U) 和红差色度(V)。
在YUV 4:2:2视频中,完整的亮度值被保留,并且只保留原始色度颜色信息的一半。一个4:2:2压缩的视频帧只需要未压缩的4:4:4视频帧数据量的2/3,但相比4:2:0色度压缩帧提供了两倍的颜色分辨率。这意味着能在保留更多色彩信息的同时还能减少文件大小和带宽需求之间取得了更好的平衡,额外保留的色彩信息对于HDR内容特别有帮助,能提升拍摄和编辑及色彩校正的质量。
Blackwell架构GPU配备了第九代NVENC,支持H.264/H.265 4:2:2编码的8位和10位视频输出。另外由于GeForce RTX 50系列显卡还升级支持DisplayPort 2.1 UHBR20输出,单一通道支持20Gbps带宽,让用户可以体验到令人惊叹的HDR视觉效果、超高分辨率和更流畅的游戏体验。
来源:超能网