摘要:本次评测的RTX 5060 Ti依然与RTX 40系相同,分为8GB显存与16GB显存两个版本,其售价分别为3199元与3599元。其中8GB版与RTX 40系售价相同;16GB版则对应的便宜300元。
每一代最畅销的60级显卡终于发布,今天首先为大家带来NVIDIA GeForce RTX 5060 Ti 16GB显卡的评测。
本次评测的RTX 5060 Ti依然与RTX 40系相同,分为8GB显存与16GB显存两个版本,其售价分别为3199元与3599元。其中8GB版与RTX 40系售价相同;16GB版则对应的便宜300元。
8GB显存,相差400元,到底选择哪个版本合适?16GB显存放在RTX 5060 Ti这张显卡上,应用场景有哪些,本篇评测也将为大家详细讲解。
首先简短的结论给到大家,这张卡相比RTX 4060 Ti 8GB的综合性能提升约为25%,并且在特定环境下,可无压力上4K分辨率游戏。
1 微星 GeForce RTX 5060 Ti 16GB INSPIRE 2X 概览
本次RTX 5060 Ti 16GB没有FE版本,我们测试的产品为微星GeForce RTX 5060 Ti 16GB INSPIRE 2X MSRP版显卡,所以大部分外观的赏析直接略过,来看看RTX 5060 Ti 16GB的显卡规格。
从60级显卡开始,卡身更为迷你,目前我们所测试的几张显卡均为双风扇大小。而微星这张显卡的尺寸约为203×103×50mm,绝大部分ITX机箱都能兼容。
从背面来看RTX 5060 Ti 16GB依然采用极短的PCB设计,尾部可以看到大面积散热鳍片。
在视频输出接口上,RTX 5060 Ti 16GB采用了HDMI 2.1b*1 + DP2.1b*3的四接口设计。
其中DP 2.1b接口为UHBR20规格,可达 80Gbps 带宽,最高支持8K (7680x4320) @165Hz(DSC);4K (3840x2160) @480Hz(DSC)。另外需要注意的是,要达到 80Gbps 带宽需要DP80LL认证的线材。
本次RTX 5060 Ti 16GB的TDP实测结果为180W,搭载单8pin辅助供电。这一点对大部分想升级换代的玩家来说极为友好,既不用更换电源,也不用转接头。
2 NVIDIA RTX Blackwell架构
GeForce RTX 50系显卡由全新的NVIDIA Blackwell架构打造,本次评测的RTX 5060 Ti 16GB采用首次露面的GB206 GPU。
完整的GB206 GPU,核心面积为181mm²,晶体管数量为219亿,不过更多规格本次并未公布。
这里我们再以完整的GB202核心来看看架构整体的变化。完整的GB202核心包括12个图形处理集群(GPC);96个纹理处理集群(TPC);192个流式多处理器(SM),和一个512bit总位宽,包含16个32bit内存控制器的内存接口。
对应到我们熟悉的数字,则是24576个CUDA核心,192个RT Core;768个Tensor Core以及768个纹理单元。由于第5代Tensor Core采用了更高速的FP4运算,完整的GB202可达到恐怖的4000 AI TOPS;而第4代RT Core采用的新的几何运算模型,也让它可以达到360 RT TFLOPS。
RTX 5090 PCB
另外,每个SM单元中还包含两个FP64内核,总共384个。FP64内核主要目的是确保带有FP64代码的程序可正常运行,并确保准其确性。这对于某些专业领域来说至关重要,比如医学或专业计算领域。
GPC是GPU中占据主导地位的高级模块,所有关键的图形处理单元都位于GPC中。在RTX 50系中,GPC整体的布局变化不大。
每个GPC包含一个专用的光栅引擎,两个ROP分区。每个分区包含8个单独的ROP单元和8个TPC,每个TPC包含1个变形引擎和两个SM单元。
完整的GB202核心还包含128MB的L2缓存。大缓存的变更自RTX 40系显卡便已开始,所有程序都可以受益于这个高速大容量的缓存池,而光线跟踪(特别是路径跟踪)等复杂操作将产生巨大的好处。
SM单元是GPU架构中的核心组件,在GPU并行处理中发挥着关键作用,它通过其各种核心(CUDA,Tensor,RT),高效的warp调度,内存管理以及对AI等现代工作负载的支持实现大规模并行。本代RTX 50系显卡中SM单元的变化非常大,下面我们详细来了解一下。
完整的GB202核心包含192个SM单元,每个SM包含128个CUDA核心;1个第4代RT Core;4个第5代Tensor Core;4个纹理单元。1个256KB的寄存器文件和128KB的L1共享缓存,它可以根据图形和计算工作负载的需要配置不同的大小。
在Blackwell架构的SM单元中,INT32整数运算的数量增加了一倍。与Ada架构的SM单元相比,实现了INT32与FP32内核的完全统一。不过在时钟周期内,统一内核只能作为FP32或INT32内核运行。
与Blackwell架构一同推出的还有GDDR7显存,采用pam3信号技术,它有着更高频率与更低电压的特点。
本代RTX 5090配备28 Gbps GDDR7显存,峰值显存带宽可达1792GB/s/秒,而RTX 5080配备更高的30 Gbps时钟频率的GDDR7显存,峰值内存带宽可达960 GB/秒。结合新的引脚编码方案,GDDR7实现了显著增强的信噪比(SNR)。
通过增加信道密度、改进的pam3信噪比、先进的均衡方案、重新设计的时钟架构和增强的I/O训练,GDDR7提供了更高的带宽。这些进步还显著提高了能源效率,提供了更好的性能和延长电池寿命,特别是在移动端,或功率受限的系统中。
Blackwell 第4代RT Core
在第4代RT Core中,简单来说它相比Ada架构,在渲染光线追踪场景时,提供了两倍光线三角形相交测试吞吐量,并引入了Mega Geometry的结构算法。
Opacity Micromap Engine
不透明微引擎在Ada架构中已经引入,这里不再过多讲述,它主要的作用是优化光线追踪渲染,可大幅减轻着色器的工作负担。
比如树叶之类的复杂物体,不同的光线都会影响它的表现状态,以及树叶之间的光线反弹,所以对于光线追踪的计算量是巨大的。
不过Opacity Micromap Engine可以将光线追踪特性烘焙到不透明蒙版中,所以那些不规则形状和半透明的对象,也就能够更快更精准的渲染出来,从而极大减轻着色器的工作负担。
RTX Mega Geometry
除了上面提到的Opacity Micromap Engine,在Blackwell架构中,还引入了Mega Geometry(大型几何)的运算概念。其中包含了Triangle ClusterIntersection Engine、Linear Swept Spheres等新硬件。
新的Blackwell RT核心包含一个Triangle ClusterIntersection Engine三角形群集交集引擎,它能够进一步加速大型几何的光线追踪,同时它的工作还包含标准的光线三角形交集测试。Linear Swept Spheres则主要用于光线追踪中精细的几何形状,比如发丝。
RTX Mega Geometry的理念与虚幻5引擎的Nanite虚拟微多边形几何体系统相同,在现代游戏中,模型更加细致,需要渲染的工作量大幅增加,如果全部按照最精细的级别处理,将会耗费极大的计算资源,所以将LOD分级便应运而生。
简单来说,就是根据一个物体距离摄像机的远近,来调节物体的细节水平。此前《黑神话:悟空》便应用了这样的技术,它消除了LOD的繁琐任务,可以扫描并导入极高精细程度的模型。并且,这不会影响性能。仍然可以获得实时帧速率。
在RTX Mega Geometry中提供了新的BVH构建功能,它采用三角形集群作为一级基元。新的集群加速结构Cluster-level Acceleration Structures(CLAS)可以从256个三角形空间紧凑批次中生成,然后使用CLAS集合作为输入来构建最终的BVH。
不过虚幻5引擎并非专为Blackwell而设计,RTX Mega Geometry的工作只是更高效的让游戏引擎调用API。由于其输入参数完全由GPU内存驱动,游戏引擎可以在GPU上更高效的运行LOD选择、动画、剔除等逻辑。同时最大限度减少对CPU的往返,进而减少与BVH管理相关的CPU开销。
然而在更加精细化的游戏引擎中,按照传统的流程,应用程序必须从场景中的每一帧的所有对象中构建一个顶层加速结构。而随着更大的世界规模以及繁杂的场景物体,仅靠LOD分级仍然难以实现质的变化。
为了解决这个问题,RTX Mega Geometry引入了一种新型的顶层加速结构(TLAS),称为分区顶层加速结构(PTLAS)。
它无需在每一帧都从头开始构建一个新的TLAS,PTLAS能够辨别从一帧到另一帧,哪些对象是静态的。
应用程序通过将对象聚合到分区中,并仅更新那些已更改的对象来节省开销。
例如,游戏可以将静态游戏世界的各个部分放入所属的分区中,同时将动态对象分离到每帧重建的“全局分区”中。与传统的TLAS相比,请求的分区更新越少,节省的运行时开销就越大。
另外好消息是,RTX Mega Geometry可通过底层API进行扩展支持,适用于所有支持光线追踪的NVIDIA GPU,也就是从图灵架构(Turing)开始。
不过Blackwell的第4代RT Core是专门为RTXMega Geometry而设计的,硬件中的特殊集群引擎实现了几何和BVH数据的新压缩方案,同时是第3代RT Core光线三角形相交率的2倍。因此,Blackwell架构可以实现用更小的显存,更高效的处理这些内容。
Linear Swept Spheres (LSS)
LSS(线性扫描球体)是Blackwell架构中新增的图形语言,它极大地简化了复杂头发和毛发的渲染开销,并能提升质量。
此前渲染头发仍然需要最基础的三角形来表达物体,如图所示,发丝中的一个线段需要6个三角形,而一根头发便需要无数个三角形来确保其精度。比如我们的头发则需要600万个三角形来表达。
Blackwell架构的RT Core引入了LSS新语言的支持,它类似于镶嵌曲线,允许灵活地近似各种链型。并且球体也更适合发行构建。
LSS的引入可以让发型构建,减少3倍的数据量,速度大约快了2倍,并可以使用更少的显存,获得更高的帧数。
Blackwell 第5代Tensor Core
本代架构除了RT Core进行了改进升级,专门负责AI及高性能计算的Tensor Core也迎来了重大升级。
与NVIDIA Ada Tensor Core一样,Blackwell架构的Tensor Core支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。
Blackwell还增加了对FP4和FP6 Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。
FP4精度支持
FP4提供了一种较低的量化方法,类似于文件压缩,可以减小模型大小,提升生成速度。与FP16精度(大多数型号发布的默认方法)相比,FP4只需要不到一半的显存。FP4使用NVIDIA TensorRT提供的量化方法,几乎没有质量损失。
例如,目前最强的AI绘画模型FLUX.dev ,在FP16上需要超过23GB的显存,而这意味着它只能由每一代的期间产品RTX 4090,RTX 5090和专业GPU来支持。
而对于FP4,FLUX.dev测试对显存的需求将少于10GB,让更多80级和70级的显卡均能在本地运行。
在性能和效果对比上,使用带有FP16的RTX 4090,FLUX.dev模型可以通过30个步骤在15秒内生成图像。使用带有FP4的RTX 5090,只需5秒多一点就可以生成图像。
DLSS 4
DLSS 4是本代RTX 50系显卡带来的重大更新,对于玩家来说它也是最能实际感受到的。最新版本DLSS 4带来了新的多帧生成(MFG),具有更快的性能和更低的显存使用等特性。包含超分辨率(SR),光线重建(RR)和深度学习抗锯齿(DLAA)模型,可进一步增强图像质量和稳定性。
这些新技术由RTX 50系GPU和第5代Tensor Core支持,并由云端的NVIDIA Al超级计算机提供支持。不过对于手持RTX 40系或更早期显卡的玩家还无缘体会。DLSS 4新增的多帧生成,目前仅支持RTX 50系显卡。
Multi Frame Generation(多帧生成)
DLSS多帧生成能够通过每个传统渲染帧,生成多达三帧的额外帧来提高FPS。新的帧生成AI模型相比之前的帧生成方法快40%,使用的显存减少30%,并且每个渲染帧只需要运行一次就可以生成多个帧。高效的AI模型代替了上一代的硬件光流模型,从而加快了光流场的生成速度,并显著降低了生成额外帧的计算成本。
从生成帧的层面来说,上一代DLSS 3帧生成基于CPU的帧节奏,而这种方式可能会让生成的帧与额外的帧混合在一起,导致每帧之间的帧节奏不太一致,影响平滑性。
为了解决生成多帧的复杂性,Blackwell架构将帧节奏逻辑转移到显示引擎,使GPU能够更精确地管理显示时序,从而避免与额外帧混合的情况,进而提升帧生成的准确性及稳定性。
而第5代Tensor Core拥有更高的计算能力,这使得它们能够更快地执行计算光流和生成多帧的一系列AI模型。并更好地调度DLSS AI处理、图形渲染和帧速度算法。
Transformer模型
此前DLSS所用的模型为Convolutional Neural Network,即我们熟悉的卷积神经网络(CNN),CNN的工作原理是将像素局部聚集在一起,并以树的形式从低到高地进行分析数据。这种结构的计算效率很高,这也是为什么它被称为卷积神经网络。
而DLSS 4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光线重建和深度学习抗锯齿(DLAA),从而提高图像质量和渲染平滑度。基于Transformer模型体系结构的神经网络,擅长处理涉及顺序和结构化数据的任务。简单来说,就是Transformer能够抓住“重点”,可以更好地理解和渲染复杂场景。
与CNN模型相比,Transformer更容易在更大的像素窗口中识别更远距离的模式,具有一定的学习能力和“前瞻性”。
本代DLSS 4将基于CNN的神经网络结构,转变为基于Transformer的神经网络结构,在许多场景下图像质量都有着显著提升。
Shader Execution Reordering (SER) 2.0
Shader Execution Reordering(着色器重排序)是在RTX 40系架构中引入的一项技术,它可以使带有光追的程序有效地重组GPU上的大量并行线程,以最大限度地利用硬件。
因为连贯执行神经工作负载的线程可以直接发送到Tensor Core,所以SER也显著加速了神经着色。在Blackwell架构中,SER的核心重排序逻辑效率是原来的两倍,减少了重排序开销并提高了精度。从而进一步提高了该功能的有效性。这项功能更多地是为应用程序开发者而设计,它仅需一个小的API改动,即可执行重排序操作,进而提升总体项目的负载性能。
3 测试平台简介
首先介绍一下测试平台,为了保障RTX 5060 Ti 16GB显卡的性能发挥,我们的平台也再次进行了全面更新。
除了RTX 5060 Ti 16GB这张显卡,处理器选择了AMD R7 9800X3D。内存为32GB DDR5 6400MHz,系统版本为24H2。
为了方便观察DLSS 4在画质上的提升和4K高帧率带来的游戏变化。我们选择了EVNIA 32M2N8800 OLED显示器,这款显示器采用了4K@240Hz的高分高刷规格,可完美适配DLSS 4的多帧生成。而99%的DCI-P3色域覆盖,更可细致入微地观察Transformer模型带来的细节提升。
存储方面,选择了致态TiPlus7100 4T,其被称为“全能战士”,即使采用DRAMLess方案也能达到7000MB/s和6000MB/s的读写速度,近乎达到PCIe4.0的饱和带宽性能,可大幅提升操作系统/大型游戏/创作软件的响应和加载速度。
RTX 5060 Ti 16GB采用GB206核心,TSMC 4N定制工艺,芯片面积181mm2。值得注意的是,在RTX 50系显卡中,此前测试的产品均为PCIe×16 5.0带宽。而这张RTX 5060 Ti 16GB为PCIe×8 5.0带宽。显卡拥有4608个CUDA核心,Boost频率达到了2572MHz。采用16GB GDDR7显存,位宽为128bit,显存带宽达到了448 GB/s,光栅单元和纹理单元为48/144。
4 理论性能测试
下面先进行的是用来衡量显卡DX11理论性能的3DMARKFS套装:FS,FSE,FSU三者分别对应显卡在1080P、2K、4K的理论性能,取显卡分数实际测试结果如下:
在针对显卡DX11性能的3DMARK FS套装测试中,RTX 5060 Ti 16GB在三档分辨率中相较RTX 4060 Ti 8GB提升分别为,17%/23%/28%,综合提升约为23%。而相比RTX 5070的差距为23%/28%/32%,综合约为28%。
而在针对DX12环境下的Time Spy和Time Spy Extreme测试中,RTX 5060 Ti 16GB相较RTX 4060 Ti 8GB的提升分别为:TS提升18%;TSE提升18%,综合提升约为18%。相比RTX 5070的差距为28%/31%,综合约为29%。
PortRoyal是3DMARK中专门针对光追性能的测试项,RTX 5060 Ti 16GB相较RTX 4060 Ti 8GB的提升约为27%;相比RTX 5070的差距为27%。
综合来看,RTX 5060 Ti 16GB的理论性能相较RTX 4060 Ti 8GB的提升约为23%。
下面我们再来看看3DMARK中新增的一些具体应用场景的测试。
Speed Way这项测试结合了实时光线追踪和传统渲染技术来测量显卡性能。场景含有光线追踪反射、实时全局光照、网格着色器、体积照明、粒子和后处理效果。所以SW的测试基本可以看做次世代3A游戏基准。
RTX 5060 Ti 16GB对比RTX 4060 Ti 8GB,提升为28%;相比RTX 5070的差距约为30%。
在DLSS的理论测试中,有着较大变化,共分为两种模型。DLSS 2及DLSS 3采用上一代的CNN模型,而最新的多帧生成,则采用了Transformer模型,并且多帧生成可调节生成帧的数量。
从测试结果来看,DLSS 4 2X基本可以看作是DLSS 3的帧生成,而相比上一代DLSS 3,DLSS 4 4X模式下,帧数综合提升在72%左右。
其实在3DMARK DLSS的测试中,能够比较反应RTX 5060 Ti 16GB在4K分辨率下的帧数提升情况,下面我们就先来测试几款已支持DLSS 4的游戏。
5 DLSS 4性能测试
本次DLSS 4在解禁首日,便可支持75款游戏或应用。除了游戏中首发支持外,对于尚未集成的游戏,可在NVIDIA app中进行直接调节非常方便。
《黑神话:悟空》
在DLSS 4的测试中,首先来看刚刚加入DLSS 4的《黑神话:悟空》,作为一款玩家心中的年度最佳,虽然DLSS 4姗姗来迟,但通过实测显示,帧数提升非常大,如果想重温一遍当个风景党,也是不错的选择。
在《黑神话:悟空》的benchmark跑分中,我们选择开启DLSS 3帧生成,尽管如此在2K分辨率下已经是RTX 5060 Ti 16GB的极限。
新添加的DLSS 4尚没有集成到benchmark中,我们的测试将模仿benchmark场景中的镜头移动,沿着苍狼林的河流跑两个来回。场景测试帧数相对较高,但比对benchmark的跑分差值不大。
开启DLSS 4后,可以看到,帧数相较原生画质成倍增长,1080p和2K分辨率下提升达到2倍。
《黑神话:悟空》4K分辨率/影视级画质/光追关闭/DLSS 4 4X超级性能
而且从实时截图来看,4K分辨率DLSS 4 4X超级性能模式中,163帧,延迟为48.90ms,对手感的影响几乎可以忽略不计。最主要的是,一张60级的显卡能在4K最高画质下以超高帧率运行,确实能感到DLSS 4多帧生成的震撼。
除了预设最高的影视级画质,本次我们也挑战用RTX 5060 Ti 16GB显卡开启光追超高画质,在面对双重最高画质的测试中,这张显卡依然有着亮眼的成绩。
实测在2K分辨率下,能获得较为平衡的帧数和延迟比例。虽然测试中4K DLSS 4 4X超级性能中依然能达到113帧的成绩,但延迟相对较高,对于有完美躲闪判定的《黑神话:悟空》来说,会感觉不太“跟手”,但如果是风景党,仍然可以选择。
《黑神话:悟空》2K分辨率/影视级画质/光追超级/DLSS 4 4X性能
从实机截图来看,在2K DLSS 4 4X性能模式中,能够达到175帧,延迟为45.46ms,较为均衡,可兼顾画质与延迟。
《inZOI》
近来比较热门的韩国版模拟人生《inZOI》我们也进行了测试,不管游戏目前可玩性如何,但作为采用虚幻5引擎制作的模拟游戏,在画面上颠覆了以往任何一款游戏。
另外需要说明的是,目前游戏尚存在BUG,虽然有开关光追选项,但实际效果是根据画面预设而改变的,单独调节光追并不管用,所以测试实际为【预设最高+光追最高】画质。
目前《inZOI》游戏中尚未集成DLSS 4,可通过NVIDIA app调节,从帧数表现来看,采用DLSS 4 4X多帧生成相较DLSS 3帧生成均有1倍左右的帧数提升,4K分辨率下的帧数表现与《黑神话:悟空》相近。
《赛博朋克2077》
在《赛博朋克2077》所有测试中,由于画质预设较多,为保证缩放比例固定,我们均选择在DLSS 质量模式下进行。
传统DLSS 2的测试中,使用CNN模型DLSS,RTX 5060 Ti 16GB主要适配1080p光追超级画质及2K超级画质。
DLSS 3的测试依然为CNN模型,增加帧生成。可以看到DLSS 3已经可以大幅提升帧数,相较DLSS 2,2K分辨率下光追超级画质也有94帧的流畅成绩。
DLSS 4的测试为Transformer模型4X帧生成模式,可以看到在4K分辨率下,超级画质也能达到124帧的成绩。
通过《赛博朋克2077》的测试,不难看出通过DLSS的迭代,可以让显卡有着跨分辨率使用的场景,而追求极致帧率的玩家,在原本就流畅的1080p分辨率下,最高提升可达1.5倍,一举来到300帧以上。
除了帧数上的提升,DLSS 4对于画质表现如何,下面我们来看看实机截图对比。
可以看到在采用Transformer模型的DLSS 4中,物体表面的纹理细节更清晰。即便是没有模型面覆盖的锈迹,DLSS 4依然能精准还原。
同理,墙上的裂纹在DLSS 4中有更明显的痕迹。并且整体画面相较于DLSS 3,更通透明亮。大家也可下载4K图片自行比对。
《漫威争锋》
《漫威争锋》是近期大火的FPS+MOBA类网游,最初被看作《守望先锋》的替代品,但实际游玩效果,无论画面还是玩法,都更胜一筹。
目前《漫威争锋》已经在游戏中集成了DLSS 4,可直接开启,下面来看看帧数上的变化。
对于一款竞技网游来说,高帧率比画面更重要,RTX 5060 Ti 16GB更适合在1080p分辨率下竞技。如果适当降低画面预设,2K分辨率下同样可体验到电竞级帧率。
在DLSS 4 4X多帧生成中,2K分辨率自质量模式已经达到200帧以上,即便在最高画质下,这张RTX 5060 Ti 16GB也能体验到超越大部分RTX 40系显卡的帧数。
《霍格沃兹之遗》
在《霍格沃兹之遗》的测试中,所有DLSS相关测试均在“质量”模式下进行。首先来看无光追最高画质,2K分辨率下RTX 5060 Ti 16GB在DLSS 4 4X下可达到272帧的成绩,4K分辨率经过多帧生成的加持,同样能达到电竞级帧率。
在开启光线追踪后,《霍格沃兹之遗》对性能要求激增,4K分辨率下虽然仍能超过百帧,但原始帧率相对较低,延迟也会有所增加,故不列出。而且这本就是一张60级显卡,1080p是本职,2K是实力,4K确实是越级的体验了。
不过有DLSS 4的加持,2K分辨率的最高帧数依然能达到184帧,让60级显卡,在2K分辨率下,达到3A游戏的电竞体验。
打开光追后,虽然对于配置要求激增,但同样画面表现有着明显区别,其中最明显的则是水体,能够明显看出随着深度不同,水体颜色的变化。
另外光线重建则能够修复一些画面的细节表现,比如图中圈出的部位,开启光线重建后,建筑的光影层次更分明。
《心灵杀手2》
《心灵杀手2》是被誉为次世代最强画面的游戏,对于配置需求极高,但同时画面表现堪称完美。不过在不开启光追,默认最高画质下,对配置的要求还比较亲和,RTX 5060 Ti 16GB在DLSS 4 4X多帧生成的加持下,2K分辨率可以达到205帧的成绩。
而开启光追后,《心灵杀手2》无愧于次时代最强画面的名头,但同时也是超级硬件杀手。RTX 5060 Ti 16GB凭借多帧生成在1080p下能达到144帧,已实属不易。下面来看看开启光追后的画面有何区别。
《心灵杀手2》整体画面较为昏暗,但光影氛围刻画非常到位。在开启光追后,阴影的表现更清晰,更符合真实的物理表现,同时水体与《霍格沃兹之遗》相同,均能够表现出水潭的深浅,相比原生画质,游戏的代入感更强。
6 《半条命2》RTX版demo画质测试
不久前发布的《半条命2》RTX版重置了大部分材质贴图及光影系统,基本随手截图都可以做壁纸。
在demo中,玩家可按“ALT+X”呼出Remix选项界面(如无反应,则需切换输入法)。这里需要说明的是,RTX Remix其实包括多种资产,包括纹理、材质、光源等,我们测试过程中不再单独调节,为全部开启或关闭,所以对比图标注为“Remix OFF”或“Remix ON”。
在对比图中,可以明显看到场景中手枪、扳手、砂轮以及下方发动机的材质替换,并且加入了全景光追的应用。
而在大场景中,我们调节渲染等级,其中最明显的则是光线追踪的变化,其中包括光线重构以及光线在粒子中的穿透效果。
上面两组图片同样来自一个场景,在Remix ON可以明显看到通过外部光线照射,屋顶的光线发生了明显变化,让整体场景更明亮。在Low和Ultra的对比中与上一场景基本相同。
在室外场景中,Remix ON基本可以看作另一个游戏,火焰的反射更趋近于真实,灯光直射的效果与我们日常所见到的基本无异,很难说这是一张游戏截图还是实景拍摄的照片。
视角来到正面,能更进一步感受火焰在光线中的传播效果,从地面、墙壁以及车身材质均有火光映射,身处屏幕前仿佛都能感受到火焰带来的热浪。
另外值得注意的是,RTX版的所有材质均进行了替换,也进一步增强了沉浸感。
上图比较直观的反映出Remix ON后的材质变化,原本这种无法互动的门只有贴图,与墙面融为一体。而Remix ON的门板能够正确的反映出光线传播的路径。
回想起多年前玩的《半条命2》,让人印象深刻或者留下阴影的,当属猎头蟹为最。在RTX版本中,猎头蟹不仅替换了新的模型,材质效果也更为逼真。
在《半条命2》RTX版本中,还加入了最新的RTX皮肤效果,简单来说,就是当我们用手电筒照射手指或较薄的皮肤时,能看到半透的红色肉质,而RTX皮肤则拥有这种真实的效果。
从图中可以看到,猎头蟹经过灯光的照射,较细的躯干部位,会透出少许红色,让其更接近真实的皮肤材质。
RTX Remix ON街道上由于强光照射,让与之形成夹角的地点更黑。虽然对于玩家来说,增加了不少探索难度。不过从观感来说,堪称电影级。
该场景中出现了较多的栅栏,这种细小的线条结构是DLSS早期版本最难以解决的问题。但本次测试我们均开启了DLSS 4 4X,可以看到铁丝的边缘非常清晰,甚至铁丝互相缠绕所产生的孔洞,都看得一清二楚。
RTX Remix OFF原版游戏的材质、光影有一种老电影既视感,而RTX Remix ON则更接近于恐怖片,沉浸感拉满。光线无法照射到的阴影中仿佛也有怪物随时突脸偷袭。
本次《半条命2》RTX版类似于《传送门2》RTX版,虽然有相当一部分“炫技”的成分在。不过也让玩家见到了这部“旷世奇作”的新生。而由于场景RTX Remix ON后会有相当大的变化,所以仍会有相当大的新鲜感,且恐怖氛围更加浓厚。
7 《鸣潮》光线追踪 画质对比
二游是目前非常火热的游戏领域,早期二游画面以卡通风格为主,不过近几年也开始“卷起来”了。《鸣潮》近期即将引入DLSS帧生成以及光线追踪,让画面和帧数都有更好的表现。下面我们来看看实机演示效果。
光追较为明显的区域永远离不开水面,从图中可以看到开启光追后,对面NPC在水中的倒影更清晰,且水面线与建筑的过渡更柔和。而近处物体也能够吸收地面二次反射的光线,让轮廓更清晰。
在玻璃上的光追反射就不用说了,甚至光追的加入,能够让玩家解决永远看不到绝对领域的“BUG”。
另外在玻璃的反射中,除了主角能够清晰映射,注意右下角的小怪也能一同出现在玻璃中。
玻璃的反射除了方便观察绝对领域,还能够为室内场景增加沉浸感,开启光追后,对面玻璃能够反射出屋顶的灯光,让整个室内更立体。
绝对领域绝对领域,相信光追的加入,能够让不少玩家更兴奋了~
另外一个比较重大的变化,则是在室外光照较为强烈的场景。如云岭谷,在开启光追后,全局光照能够结合场景的光照条件,将光线的反射映射到整个峡谷中,甚至整体色调都发生了变化,沉浸感相当强。
8 常规游戏性能测试
除了支持DLSS 4的游戏,我们同样测试了一些主流的3A大作和支持DLSS 3的游戏,为更多玩家提供参考方向。
首先来看《怪物猎人:荒野》,这款游戏自带benchmark,不过目前游戏的优化比较糟糕,实际帧数相对更低一些。
benchmark测试无高清材质包,另外根据官方提示,使用高清材质包需显存在16GB以上。
本代《怪物猎人:荒野》增加了光线追踪,测试将开启光线追踪【高】品质。
《怪物猎人:荒野》的光线追踪运用到的效果不多,主要为水面反射,所以对帧数影响并不大,有需要的玩家可以开到最低挡,同样有不错的效果。
RTX 5060 Ti 16GB更推荐在1080p或2K分辨率下游戏,实测开启DLSS 3后,1080p可打到百帧左右,对于怪猎这类帧数要求不高的游戏,已经有非常不错的体验。而2K分辨率下相对会低10帧左右,90帧同样在可接受的范围内。
《燕云十六声》是网易开发的一款国产武侠大作,我们直接测试DLSS 3。
RTX 5060 Ti 16GB在1080p及2K分辨率下均有不错的体验,追求画质与帧率较为平衡的体验,可选择2K分辨率平衡模式,对于RPG类游戏来说120帧绰绰有余。
近来同样大火的《三角洲行动》测试中,RTX 5060 Ti 16GB在2K分辨率质量模式下即可达到163帧,在性能模式下相较原生画质提升可达1倍。
另外从4K分辨率的帧数来看,如果日后加入DLSS 4,这款60级显卡可战4K的游戏又多了一个。
不过FPS网游会受到多种因素影响帧数,如周围玩家、环境复杂程度、网络等等,测试结果仅供参考。
《地平线5》也是显卡测试的常驻游戏,其凭借出色的优化,在原生效果下即可跑出优秀的成绩。RTX 5060 Ti 16GB在DLSS 2 4K分辨率下达到92帧,对于赛车游戏来说绰绰有余。相比RTX 4060 Ti 8GB提升约为44%。
不过似乎是受到显存限制,4K分辨率下开启DLSS 3后的帧数提升并不明显。
在《刺客信条:幻景》中,我们关闭游戏的自适应帧率,分别测试DLSS不同挡位与原生画质下的差异。
RTX 5060 Ti 16GB在2K分辨率原生画质下为92帧,而在DLSS质量挡位中,便达到121帧的出色水平。
在经典3A游戏《无主之地3》中,RTX 5060 Ti 16GB相比RTX 4060 Ti 8GB的提升分别为:1080p提升20%;2K提升23%;4K提升29%,综合提升24%。
在纯光栅化游戏帧数对比中,《无主之地3》比较能概括RTX 5060 Ti 16GB相比RTX 4060 Ti 8GB的光栅化性能综合提升,这点与理论测试相当。
《光明记忆:无限》的光追测试软件是独立于游戏的测试工具,比游戏中用到的光线追踪技术更多,虽然游戏较老,但对于性能要求却非常高,本次测试条件为“RTX最高/DLSS质量”。
性能方面,RTX 5060 Ti 16GB相比RTX 4060 Ti的提升分别为:1080p提升18%;2K提升21%;4K提升26%,综合提升22%。
9 专业软件测试
本次测试的RTX 5060 Ti 16GB拥有大容量显存,这对于内容创作者及近期火热的AI本地部署都有非常大的帮助。首先来看看DeepSeek的本地部署及使用情况。
DeepSeek本地部署
在DeepSeek使用中,我们使用无加速框架的LM Studio,完全凭借显卡自身硬件性能运算。模型为R1-distll-qwen-14B,GPU卸载拉满。
问题为“五一假期有哪些适合旅游的地方”,DS的思考时间为6秒左右,first token为0.21s,每秒tok为38.93
虽然速度相比更高级别的显卡不算太快,但可以看到14B模型DS运行所需显存约为10.8GB。对于DS来说,显存是先决因素,如果显存不够,不管多少算力都会浪费掉,更大的显存才有更好的体验。
UL Procyon
在UL测试中,依然为FLUX.1 Dev绘画模型。该模型在FP16上运行需要超过23GB的显存,而FP8也需要16GB的显存,但FP4只需要不到一半的显存。而且FP4使用NVIDIA TensorRT提供的量化方法,几乎没有质量损失。
FP8运行所需显存
FP4运行所需显存
从任务管理器的显存使用情况,可以很清晰地看到每张图片生成的时间段及显存使用峰值谷值。
可以说对于内容创作来说,不管是AI绘画还是AI语言模型,更大的显存就意味着可以进行更精细的训练。
FP8渲染生成图片
FP4渲染生成图片
FP8和FP4所生成的图片效果是相同的,在细节和图片精度上均有着良好表现。
10 NVIDIA Broadcast
NVIDIA Broadcast是一款用于直播或会议的AI软件,目前随着RTX 50系的发布,也进行了版本更新。
新版NVIDIA Broadcast界面更小巧,纵向布局也更方便视频直播中调节选项。
NVIDIA Broadcast一些经典效果更方便开启,其中目光接触功能非常适合远程会议,即便眼睛盯着屏幕,也能让参与人员时刻注意到你的眼睛,并且还有一定“大眼”效果。
虚拟补光仍是测试版功能,它可以在光线较暗的情况下进行面部的AI补光,看你看起来仍然处于光线较好的环境中。
11 NVIDIA App
新版的NVIDIA app代替了原来的GFE软件,并且功能更强大,使用起来也更方便。最主要的是,它不用登陆了,即下即用。
在NVIDIA app首页除了显示最新的驱动信息,还新增了NVIDIA周边软件的下载,比如AI绘画Canvas;图像视频对比工具ICAT;性能测试工具FrameView等等,不用再去NVIDIA官网寻找。
从APP中强制开启DLSS 4的功能上面已有介绍。
系统界面中则更多的是调试类功能,如显示器、视频、超频等。
其中性能界面提供了较为详细的监控和超频选项,需要注意的是新手如果想尝试超频,尽量不要改变电压,这个选项轻则掉驱动,重则烧毁显卡。
另外玩家可放心大胆地使用NVIDIA app中的性能自动调优功能,经过NVIDIA反复验证过的参数都是在安全范围内,并且出现问题的话,这张卡仍然具备保修资格。
NVIDIA信息浮窗是游戏中很好的辅助工具,要开启此功能,需要在APP主界面的设置一栏中,开启按钮,之后按【ALT+Z】即可呼出边栏。
按【ALT+R】可呼出统计数据的浮窗,功能设置和自由度的调节也非常丰富,最主要的是相当简便。
12 功耗及温度测试
功耗测试中,我们选择FurMark2软件进行拷机测试,并采用GPUZ检测信息。
本次RTX 5060 Ti 16GB在半小时左右的烤机测试中GPU温度为68℃;显存温度为64℃。另外可以看到在TDP 100%的满载情况下,整卡功耗为180W。
不过由于此次RTX 5060 Ti 16GB没有FE版本,温度成绩仅作为MSRP版的参考,实际还是以各AIC的产品为准。
《赛博朋克2077》2K 光追加速 功耗
除了满载烤机,我们也实测了游戏中显卡的真实数据表现。测试选择《赛博朋克2077》benchmark,2K分辨率光追加速画质,并开启DLSS 4 4X多帧生成,将显卡性能拉满。
可以看到RTX 5060 Ti 16GB游戏中的实际平均功耗为154W左右。
《赛博朋克2077》2K 光追加速 延迟
进行功耗检测的同时,我们也调出了延迟数据,在DLSS 4 4X多帧生成的环境下,RTX 5060 Ti 16GB游戏平均延迟为60.8ms左右。证明即便有多张AI生成帧参与到游戏中,我们依然能获得比较“跟手”的操作体验。
13 黑神话4K电竞体验!
RTX 50系列的首张60级显卡已经与大家见面,与以往不同的是,这次首发的为RTX 5060 Ti 16GB大显存版本显卡。
RTX 5060 Ti 16GB这张显卡,原本的定位为1080p与2K分辨率。但从测试中可以看到,由于DLSS技术的加入,让它可以实现跨级别跨分辨率的游戏体验。
比如在集成了DLSS 3的游戏中,RTX 5060 Ti 16GB在2K分辨率下可进行百帧以上的流畅体验,而集成了DLSS 4的游戏中大部分更可上到4K分辨率。
尤其是刚刚更新了DLSS 4技术的《黑神话:悟空》,这款采用虚幻5引擎的国产3A巨制,在推出时还掀起了一阵装机热潮,大部分玩家的老配置智能在1080p分辨率下,以低画质勉强游戏。
但从本次测试来看,RTX 5060 Ti 16GB凭借DLSS 4多帧生成这项黑科技,可在4K分辨率影视级画质下达到160帧的电竞级体验,且仅有40ms左右延迟。
可以说虚幻5引擎=硬件杀手的普遍认知,凭借DLSS 4的“一己之力”便被打破了。
另外RTX 5060 Ti 16GB凭借16GB远高于当前级别的显存,在AI绘画、AI大语言模型等应用领域用处更大,可从容选择更精细的模型。
除了AI方面,日常既有大型3A游戏需求,又有内容创作需求,且在没有太高预算的情况下,这张RTX 5060 Ti 16GB可以说是唯一选择。毕竟配备同级别显存的RTX 50系显卡,再往上目前只有RTX 5070 Ti了。
实际性能方面,这张RTX 5060 Ti 16GB相比上一代RTX 4060 Ti综合提升约为25%左右。
16GB版官方建议售价为3599元起,相比RTX 4060 Ti 16GB首发售价便宜300元,8GB版均为3199元起。
不同显存版本用户可根据自己的使用需求进行购买,不过个人建议预算不是很吃紧的用户可以考虑16GB显存版。
首先,即便不考虑AI或内容创作用途,游戏中只要集成了DLSS 3或DLSS 4,这张RTX 5060 Ti 16GB都能发挥出远超其性能的水平,4K分辨率下的3A游戏不是梦。
另外相差400元,换来翻倍的显存,这比内存升级更划算,效果也更直观。
当然前面所说的都是在建议售价的前提下,后续售卖还要以各个AIC的实际价格为准。
本次发布的RTX 5060 Ti系列超频版显卡,将于4月17日21:00解禁,届时部分MSRP版显卡也将一同售卖。想体验DLSS 4带来的越级提升,一定要关注一下。
来源:信息大熔炉