RTX 5070 Ti笔记本电脑GPU深度评测:到底值不值得买

360影视 动漫周边 2025-05-12 07:14 1

摘要:年初NVIDIA正式发布了RTX 50系列显卡,并在桌面级显卡相继上市之后,推出了面向游戏本的移动级RTX 50系显卡。目前上市的笔记本GPU涵盖了RTX 5090、RTX 5080、RTX 5070 Ti、RTX 5070等中高端型号,其中搭载RTX 507

【中关村在线原创评测】年初NVIDIA正式发布了RTX 50系列显卡,并在桌面级显卡相继上市之后,推出了面向游戏本的移动级RTX 50系显卡。目前上市的笔记本GPU涵盖了RTX 5090、RTX 5080、RTX 5070 Ti、RTX 5070等中高端型号,其中搭载RTX 5070 Ti笔记本电脑GPU的游戏本似乎在性价比上表现不俗,一些产品通过N-1或N-2配置将RTX 5070 Ti游戏本做到了8000元左右,那么这款笔记本GPU实际性能到底如何呢?今天我们通过深度评测一起来看看。

·Blackwell架构解析

GeForce RTX 50系显卡由全新的NVIDIA Blackwell架构打造,完整的GB202核心包括12个图形处理集群(GPCs);96个纹理处理集群(TPCs);192个流式多处理器(SMs),和一个512bit总位宽,包含16个32bit内存控制器的内存接口。

对应到我们熟悉的数字,则是24576个CUDA,192个RT Cores;768个Tensor Cores以及768个纹理单元。由于第5代Tensor Cores采用了更高速的FP4运算,完整的GB202可达到恐怖的4000 AI TOPS;而第4代RT Cores采用的新的几何运算模型,也让它可以达到360 RT TFLOPS。

另外,每个SM单元中还包含两个FP64内核,总共384个。FP64内核主要目的是确保带有FP64代码的程序可正常运行,并确保准其确性。这对于某些专业领域来说至关重要,比如医学或专业计算领域。

GPC是GPU中占据主导地位的高级模块,所有关键的图形处理单元都位于GPC中。在RTX 50系中,GPC整体的布局变化不大。

每个GPC包含一个专用的光栅引擎,两个ROP分区。每个分区包含8个单独的ROP单元和8个TPC,每个TPC包含1个变形引擎和两个SM单元。

完整的GB202核心还包含128MB的L2缓存,而RTX 5090则包含96MB的L2缓存。大缓存的变更自RTX 40系显卡便已开始,所有程序都可以受益于这个高速大容量的缓存池,而光线跟踪(特别是路径跟踪)等复杂操作将产生巨大的好处。

SM单元是GPU架构中的核心组件,在GPU并行处理中发挥着关键作用,它通过其各种核心(CUDA,Tensor,RT),高效的warp调度,内存管理以及对AI等现代工作负载的支持实现大规模并行。本代RTX 50系显卡中SM单元的变化非常大,下面我们详细来了解一下。

完整的GB202核心包含192个SM单元,每个SM包含128个CUDA核心;1个第4代RT Core;4个第5代Tensor Core;4个纹理单元。1个256KB的寄存器文件和128KB的L1共享缓存,它可以根据图形和计算工作负载的需要配置不同的大小。

在Blackwell架构的SM单元中,INT32整数运算的数量增加了一倍。与Ada架构的SM单元相比,实现了INT32与FP32内核的完全统一。不过在时钟周期内,统一内核只能作为FP32或INT32内核运行。

与Blackwell架构一同推出的还有GDDR7显存,采用pam3信号技术,它有着更高频率与更低电压的特点。

本代RTX 5090配备28 Gbps GDDR7显存,峰值显存带宽可达1.792 TB/秒,而RTX 5080配备更高的30 Gbps时钟频率的GDDR7显存,峰值内存带宽可达960 GB/秒。结合新的引脚编码方案,GDDR7实现了显著增强的信噪比(SNR)。

通过增加信道密度、改进的pam3信噪比、先进的均衡方案、重新设计的时钟架构和增强的I/O训练,GDDR7提供了更高的带宽。这些进步还显著提高了能源效率,提供了更好的性能和延长电池寿命,特别是在移动端,或功率受限的系统中。

Blackwell 第4代RT Core

在第4代RT Core中,简单来说它相比Ada架构,在渲染光线追踪场景时,提供了两倍光线三角形相交测试吞吐量,并引入了Mega Geometry的结构算法。

Opacity Micromap Engine

不透明微引擎在Ada架构中已经引入,这里不再过多讲述,它主要的作用是优化光线追踪渲染,可大幅减轻着色器的工作负担。

比如树叶之类的复杂物体,不同的光线都会影响它的表现状态,以及树叶之间的光线反弹,所以对于光线追踪的计算量是巨大的。

不过Opacity Micromap Engine可以将光线追踪特性烘焙到不透明蒙版中,所以那些不规则形状和半透明的对象,也就能够更快更精准的渲染出来,从而极大减轻着色器的工作负担。

Mega Geometry

除了上面提到的Opacity Micromap Engine,在Blackwell架构中,还引入了Mega Geometry(大型几何)的运算概念。其中包含了TriangleClusterIntersection Engine、Linear Swept Spheres等新硬件。

新的BlackwellRT核心包含一个Triangle ClusterIntersection Engine三角形群集交集引擎,它能够进一步加速大型几何的光线追踪,同时它的工作还包含标准的光线三角形交集测试。Linear Swept Spheres则主要用于光线追踪中精细的几何形状,比如发丝。

Mega Geometry的理念与虚幻5引擎的Nanite虚拟微多边形几何体系统相同,在现代游戏中,模型更加细致,需要渲染的工作量大幅增加,如果全部按照最精细的级别处理,将会耗费极大的计算资源,所以将LOD分级便应运而生。

简单来说,就是根据一个物体距离摄像机的远近,来调节物体的细节水平。此前《黑神话:悟空》便应用了这样的技术,它消除了LOD的繁琐任务,可以扫描并导入极高精细程度的模型。并且,这不会影响性能。仍然可以获得实时帧速率。

在MegaGeometry中提供了新的BVH构建功能,它采用三角形集群作为一级基元。新的集群加速结构Cluster-level Acceleration Structures(CLAS)可以从256个三角形空间紧凑批次中生成,然后使用CLAS集合作为输入来构建最终的BVH。

不过虚幻5引擎并非专为Blackwell而设计,MegaGeometry的工作只是更高效的让游戏引擎调用API。由于其输入参数完全由GPU内存驱动,游戏引擎可以在GPU上更高效的运行LOD选择、动画、剔除等逻辑。同时最大限度减少对CPU的往返,进而减少与BVH管理相关的CPU开销。

然而在更加精细化的游戏引擎中,按照传统的流程,应用程序必须从场景中的每一帧的所有对象中构建一个顶层加速结构。而随着更大的世界规模以及繁杂的场景物体,仅靠LOD分级仍然难以实现质的变化。

为了解决这个问题,Mega Geometry引入了一种新型的顶层加速结构(TLAS),称为分区顶层加速结构(PTLAS)。

它无需在每一帧都从头开始构建一个新的TLAS,PTLAS能够辨别从一帧到另一帧,哪些对象是静态的。

应用程序通过将对象聚合到分区中,并仅更新那些已更改的对象来节省开销。

例如,游戏可以将静态游戏世界的各个部分放入所属的分区中,同时将动态对象分离到每帧重建的“全局分区”中。与传统的TLAS相比,请求的分区更新越少,节省的运行时开销就越大。

另外好消息是,Mega Geometry可通过底层API进行扩展支持,适用于所有支持光线追踪的NVIDIA GPU,也就是从图灵架构(Turing)开始。

不过Blackwell的第4代RT Core是专门为Mega Geometry而设计的,硬件中的特殊集群引擎实现了几何和BVH数据的新压缩方案,同时是第3代RT Core光线三角形相交率的2倍。因此,Blackwell架构可以实现用更小的显存,更高效的处理这些内容。

Linear Swept Spheres (LSS)

LSS(线性扫描球体)是Blackwell架构中新增的图形语言,它极大地简化了复杂头发和毛发的渲染开销,并能提升质量。

此前渲染头发仍然需要最基础的三角形来表达物体,如图所示,发丝中的一个线段需要6个三角形,而一根头发便需要无数个三角形来确保其精度。比如我们的头发则需要600万个三角形来表达。

Blackwell架构的RT Core引入了LSS新语言的支持,它类似于镶嵌曲线,允许灵活地近似各种链型。并且球体也更适合发行构建。

LSS的引入可以让发型构建,减少3倍的数据量,速度大约快了2倍,并可以使用更少的显存,获得更高的帧数。

Blackwell 第5代TensorCore

本代架构除了RT Core进行了改进升级,专门负责AI及高性能计算的Tensor Core也迎来了重大升级。

与NVIDIA Ada Tensor Cores一样,Blackwell架构的Tensor Cores支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。

Blackwell还增加了对FP4和FP6Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。

FP4精度支持

FP4提供了一种较低的量化方法,类似于文件压缩,可以减小模型大小,提升生成速度。与FP16精度(大多数型号发布的默认方法)相比,FP4只需要不到一半的显存。FP4使用NVIDIA TensorRT提供的量化方法,几乎没有质量损失。

例如,目前最强的AI绘画模型FLUX.dev ,在FP16上需要超过23GB的显存,而这意味着它只能由每一代的期间产品RTX 4090,RTX 5090和专业GPU来支持。

而对于FP4,FLUX.dev测试对显存的需求将少于10GB,让更多80级和70级的显卡均能在本地运行。

在性能和效果对比上,使用带有FP16的RTX 4090,FLUX.dev模型可以通过30个步骤在15秒内生成图像。使用带有FP4的RTX 5090,只需5秒多一点就可以生成图像。

DLSS 4

DLSS 4是本代RTX 50系显卡带来的重大更新,对于玩家来说它也是最能实际感受到的。最新版本DLSS 4带来了新的多帧生成(MFG),具有更快的性能和更低的显存使用等特性。包含超分辨率(SR),光线重建(RR)和深度学习抗锯齿(DLAA)模型,可进一步增强图像质量和稳定性。

这些新技术由RTX 50系GPU和第5代Tensor Cores支持,并由云端的NVIDIA Al超级计算机提供支持。不过对于手持RTX 40系或更早期显卡的玩家还无缘体会。DLSS 4新增的多帧生成,目前仅支持RTX 50系显卡。

Multi Frame Generation(多帧生成)

DLSS多帧生成能够通过每个传统渲染帧,生成多达三帧的额外帧来提高FPS。新的帧生成AI模型相比之前的帧生成方法快40%,使用的显存减少30%,并且每个渲染帧只需要运行一次就可以生成多个帧。高效的AI模型代替了上一代的硬件光流模型,从而加快了光流场的生成速度,并显著降低了生成额外帧的计算成本。



从生成帧的层面来说,上一代DLSS 3帧生成基于CPU的帧节奏,而这种方式可能会让生成的帧与额外的帧混合在一起,导致每帧之间的帧节奏不太一致,影响平滑性。

为了解决生成多帧的复杂性,Blackwell架构将帧节奏逻辑转移到显示引擎,使GPU能够更精确地管理显示时序,从而避免与额外帧混合的情况,进而提升帧生成的准确性及稳定性。

而第5代Tensor Cores拥有更高的计算能力,这使得它们能够更快地执行计算光流和生成多帧的一系列AI模型。并更好地调度DLSS AI处理、图形渲染和帧速度算法。

Transformer模型

此前DLSS所用的模型为Convolutional Neural Network,即我们熟悉的卷积神经网络(CNN),CNN的工作原理是将像素局部聚集在一起,并以树的形式从低到高地进行分析数据。这种结构的计算效率很高,这也是为什么它被称为卷积神经网络。

而DLSS4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光线重建和深度学习抗锯齿(DLAA),从而提高图像质量和渲染平滑度。基于Transformer模型体系结构的神经网络,擅长处理涉及顺序和结构化数据的任务。简单来说,就是Transformer能够抓住“重点”,可以更好地理解和渲染复杂场景。

与CNN模型相比,Transformer更容易在更大的像素窗口中识别更远距离的模式,具有一定的学习能力和“前瞻性”。

本代DLSS 4将基于CNN的神经网络结构,转变为基于Transformer的神经网络结构,在许多场景下图像质量都有着显著提升。

Shader Execution Reordering (SER) 2.0

Shader Execution Reordering(着色器重排序)是在RTX 40系架构中引入的一项技术,它可以使带有光追的程序有效地重组GPU上的大量并行线程,以最大限度地利用硬件。

因为连贯执行神经工作负载的线程可以直接发送到Tensor Core,所以SER也显著加速了神经着色。在Blackwell架构中,SER的核心重排序逻辑效率是原来的两倍,减少了重排序开销并提高了精度。从而进一步提高了该功能的有效性。这项功能更多地是为应用程序开发者而设计,它仅需一个小的API改动,即可执行重排序操作,进而提升总体项目的负载性能。

架构特性以及技术特性了解之后,我们来看看RTX 5070 Ti笔记本电脑GPU的实际性能表现。

规格方面,RTX 5070 Ti 笔记本电脑GPU拥有80个ROPs、184个TMUs、5888个CUDA核心,核心频率953MHz,显存频率1750MHz,Boost频率1515MHz;配备12GB GDDR7显存,显存位宽为192bit,带宽速率672GB/s,最高功耗为140W(115W+25W)。测试时的显卡驱动版本为572.83。

【GPU理论性能】

理论性能方面,我们做了全面的3DMark测试,具体结果如下:

Speed Way DX12 1440p分辨率《战地V》预估游戏性能,平均帧数为46.63fps,图形性能评分4662

Port Royal光追性能,1440p分辨率《战地V》预估游戏性能,平均帧数达到了54.21fps,光追性能评分为11709;

DX12图形性能方面,Time Spy E模式图形性能评分8494Time Spy模式评分18025

DX11图形性能方面,Fire Strike U/E模式分别得分11180和20857分,Fire Strike模式得分45622分。








从3DMark跑分来看,RTX 5070 Ti笔记本电脑GPU的图形性能比RTX 5080笔记本电脑GPU的图形性能总体要低20%-25%左右,性能差距还是比较明显的,但是相对于RTX 5080笔记本电脑GPU游戏本破万元的价格,RTX 5070 Ti游戏本能够将价格杀到8000元价位段,性价比还是相当不错的。而且相对于RTX 4080笔记本电脑GPU而言,RTX 5070 Ti笔记本电脑GPU的性能其实相差不大。

【GPU应用性能】

接下来我们先看看RTX 5070 Ti笔记本电脑GPU在生产力应用方面的表现。

首先是V-Ray BenchmarkCUDA加速RTX光追性能评分分别达到4013和5916,相比上一代RTX 4080而言有一定幅度的提升。



Blender渲染采样率方面,monster、junkshop、classroom三项测试分别达到2595.63、1446.97和1409.16 Samples/min,所以相比CPU而言,GPU在Blender渲染采样上的效率自然更有优势。

AI算力方面,UL Procyon GPU Float16算力评分达到了2950分,这一点其实与RTX 5080笔记本电脑GPU一样。而且RTX 50系显卡还加入了对INT4数据类型的支持,提高了AIGC应用的效率。

【常规游戏性能评估】

理论性能了解之后,我们来看看RTX 5070 Ti笔记本电脑GPU在实际游戏方面究竟能够达到怎样的表现?我想这也是大家最为关心的事情。

下面的常规游戏测试都是在2560×1600默认分辨率开启游戏的最高画质,并且将DLSS模式调整为平衡或自动模式下进行的测试。

首先我们来看看《CS2》以及《三角洲行动》的表现。

《CS2》测试中,最高画质、2560×1600分辨率平均帧率可以达到200fps1% LOW帧平均可以达到95.08fps,整体运行非常流畅。



《三角洲行动》我们同样开启最高画质2560×1600分辨率,实测平均帧率138fps1% LOW帧平均达到了107.41fps,同样可以确保极其流畅的游玩体验。

其实对于FPS类游戏来说,低帧表现极其重要,更高的低帧表现可以避免画面出现突然的迟滞或卡顿,在关键时刻对枪时帮助玩家排除一切干扰,提高胜率。



接下来我们看看一些热门3A大作的表现。

《古墓丽影:暗影》这款游戏在当前的硬件环境下,已经能够非常流畅地运行,而测试的主要目的在于为大家提供一个纵向参考,实测2560×1600分辨率、最高画质、DLSS平衡模式,平均帧数182fps,运行极为流畅。



第二款测试游戏为《地平线:零之曙光》,同样是最高画质,平均帧率达到了167fps,流畅运行无压力。



第三款游戏为《荒野大镖客2》,画质拉满之后,2560×1600分辨率下平均帧率达到108fps。



第四款测试游戏为《全面战争:三国》,这款游戏对处理器性能的要求极高,尤其是在将部队规模设定到最大规模时,以往的硬件很难跑出高帧率。而RTX 5070 Ti笔记本电脑GPU在最高画质、最大部队规模,2560×1600分辨率下跑出了平均80.4fps的成绩,表现优异。



接下来再上一些强度请出《无主之地3》,画质设定为“恶棍”(最高画质)模式,开启DX12,分辨率2560×1600,RTX 5070 Ti笔记本电脑GPU运行这款游戏的平均帧率可以达到98.77fps。



接下来我们测试两款竞速游戏。

首先是《F1 24》,为了提高强度我们将赛场环境设定为雨天,这对显卡性能来说是一个不小的挑战,分辨率依旧是2560×1600,最高画质,开启DLSS平衡模式与帧生成,平均帧率可以达到131fps。



《极限竞速:地平线5》我们同样采用了2560×1600分辨率进行测试,画质设定为极端,最终平均帧率达到205fps



常规游戏测试的最后一款我们来看看《怪物猎人:荒野》的表现。这款游戏刚发布时硬件优化极差,桌面级RTX 4090显卡都跑不动。而最近随着新版本发布,总体表现有了质的飞跃。2560×1600分辨率、最高画质、DLSS+帧生成开启之后,平均帧率可以达到92.96fps,流畅运行毫无压力。



【多帧生成对比】

此外我们也测试了RTX 5070 Ti笔记本电脑GPU的帧生成表现,第一款测试游戏为《赛博朋克2077》

开启全局光追,也就是“光线追踪:超速”模式之后,如果不开DLSS4,那么2560×1600分辨率时的平均帧率只有45.4fps。而开启2X、3X、4X多帧生成之后,平均帧率分别达到了78.55fps、110.74fps以及139.26fps最高提升3倍。不过目前4倍帧生成时画面延迟比较明显,所以不太适合动作类游戏。





另外一款测试游戏是近期刚刚引入多帧生成的《黑神话:悟空》。开启全景光追,2560×1600分辨率、影视级画质,关闭帧生成时平均帧率为55fps。

接下来分别开启2X、3X以及4X多帧生成,可以看到平均帧率分别93fps、130fps以及161fps最高提升2.9倍。所以基本上开启4倍帧生成,相较关闭帧生成时基本会有3倍左右的帧率提升。




·评测总结

RTX 5070 Ti笔记本电脑GPU从实际测试来看,确实是RTX 50系笔记本电脑GPU中一款性价比比极高的型号,整体性能略微低于RTX 4080,但产品价格却能够8000元左右,比如机械师曙光16S,国补之后叠加京东PLUS会员的价格在7959元左右,性价比还是相当不错的,对于追求高性价比的玩家来说,RTX 5070 Ti游戏本是不错的选择。

来源:中关村在线

相关推荐