摘要:当我们还在焦虑GeForce RTX 5090 D 32GB可能也要用不上的时候,GeForce RTX 5090 D v2的悄然上市给旗舰级显卡的选择带来了新的参考,不过代价是32GB显存变成了24GB。被缩减了显存GeForce RTX 5090 D v2
当我们还在焦虑GeForce RTX 5090 D 32GB可能也要用不上的时候,GeForce RTX 5090 D v2的悄然上市给旗舰级显卡的选择带来了新的参考,不过代价是32GB显存变成了24GB。被缩减了显存GeForce RTX 5090 D v2还能不能被称为旗舰级显卡的问题不仅被摆上了台面,与之对应的是显卡的实际售价其实与头部的RTX 5090 D和RTX 5090有更多的距离。
眼前的索泰GeForce RTX 5090 D v2 24GB SOLID OC就是好例子,它的官方定价相比超频定位的RTX 5090 D差价大概在3000元左右,而如果是对比实际能购入的RTX 5090第三方平台价格,差价甚至可以再买下一块RTX 5070。
仔细一盘算,同样旗舰定位的GeForce RTX 5090 D v2似乎有了性价比,那么事实是否真的如此?现在就让我们奉上索泰GeForce RTX 5090 D v2 24GB SOLID OC评测。
在短时间内对核心部分进行修改并顺利流片是不太可能的,因此GeForce RTX 5090 D v2的GPU核心依然为GB202,代号GB202-240-K1-A1,与GeForce RTX 5090 D与GeForce RTX 5090系出同源,基于Blackwell 2.0架构,因为GB100系列和Blackwell 1.0是针对AI超算、数据中心和服务器设计,2.0版本则是针对消费端、游戏技术进行硬件层面的调整。
无论索泰GeForce RTX 5090 D v2 24GB SOLID OC的GB202-240-K1-A1 GPU,还是GeForce RTX 5090 Founders Edition的GB202-300-A1,本质上都并非GB202的完全体。一般出于产品定位、制造良率、后续升级等多方面考虑,方便可以在短时间内根据市场需求推出更具有竞争力的产品。
完整的GB202很有必要提一提。Blackwell架构延续了此前Ampere和Ada Lovelace架构理念,在一个GPU中包含若干个GPC(Graphics Processing Clusters,图形处理集群),每个GPC下面再包含若干个TPC(Texture Processing Clusters,纹理处理集群),每个TPC下包含若干个SM(Streaming Multiprocessors,流式多处理器),同时再搭配显存控制器等周边电路。
另外每个SM内部的升级也代表着当前微架构升级的关键,也是完成大规模并行任务的关键,比如CUDA Core,第五代Tensor Core,第四代RT Core都包含其中。
完整的GB202 GPU包括12个GPC(Graphics Processing Clusters,图形处理集群),96个TPC(Texture Processing Clusters,纹理处理集群),192个SM(Streaming Multiprocessors,流式多处理器),以及1个512-bit内存接口,配备有16个32-bit内存控制器,用于对显存进行控制。
值得注意,GB202 GPU还包含了384个FP64核心,即每SM包含两个,FP64 TFLOP速率是FP32 TFLOP速率的1/64,对于消费端而言使用频率不高,但可以保证FP64代码可以被正确的执行。对应的,Tensor Core也包含了少量的FP64 Tensor来确保程序的正确执行。
GPC是所有Blackwell GB20x GPU最主要运算单位,每个关键图形处理单元都会摆放在GPC中,每个GPC包括一个专用的光栅引擎(Raster Engine),2组ROP集群(Raster Operations,光栅操作),每个光栅操作分区包括8个独立的ROP单元,8个TPC,每个TPC包含1个PolyMorph引擎和2个SM。
其中PolyMorph引擎主要用于处理图形和计算任务中的几何变换和曲面细分,在处理复杂几何图形的时候,可以获得更高效的多任务能力。
SM是NVIDIA GPU架构中的核心部件,也是GPU可以完成大规模并行任务的关键,比如CUDA Core,Tensor Core,RT Core都包含其中。完整的GB202包括192个SM,每个SM包括128个CUDA Core,1个第四代RT Core,4个第五代Tensor Core,4个纹理单元(Texture Units),1个512KB寄存器文件,128KB L1共享缓存,这些缓存可以根据图形和计算工作负载需求进行重新配置。
Blackwell架构下,INT32整数运算相比Ada Lovelace是翻倍的。原因是INT32和FP32核心进行了完全统一,这也体现了Blackwell SM针对神经网络着色器设计和优化。当然,这也意味着在同一个时钟周期内,只能进行FP32或者INT32其中一个操作。
完整的GB202 GPU还包含了128MB L2缓存,GeForce RTX 5090 D则包含96MB L2缓存,所有的应用在大容量高速缓存中都能受益,特别是光线追踪和路径追踪这样的复杂操作。
因此,完整的GB202 GPU包括:
24576 个CUDA Core
192个第四代 RT Core
768个第五代Tensor Core
768个纹理单元(Texture Units)
索泰GeForce RTX 5090 D v2 24GB SOLID OC的GB202-240-K1-A1上,通过对部分硬件的调整,比较关键的变化如下:
21760 个CUDA Core
170个第四代 RT Core
680个第五代Tensor Core
680个纹理单元(Texture Units)
在这个基础上,GDDR7显存颗粒的减少,让显存容量、带宽都与之对应的减少:
GeForce RTX 5090 / RTX 5090 D:32 GB GDDR7
GeForce RTX 5090 D v2:24 GB GDDR7(砍掉 8 GB)
GeForce RTX 5090 / RTX 5090 D:512-bit,1792 GB/s
GeForce RTX 5090 D v2:384-bit,1344 GB/s(带宽减少25%)
因此得出如下对比参数表格作为参考:
通过对比可以看到,GeForce RTX 5090 D v2基础光栅性能仍然非常能打,比如纹理单元(Texture Units)由GeForce RTX 4090的512个增加到了680个。纹理单元负责处理纹理映射操作,包括从纹理中获取纹理元素(Texels),应用纹理过滤以及纹理坐标处理等等。其中纹理元素(Texels)代表纹理信息、颜色、图案,这些信息被应用于3D表面,定义了物体表面纹理外观。
SOLID OC装甲
索泰GeForce RTX 50 SOLID系列放在一众旗舰级非公版显卡中相当能打,长时间霸占旗舰级显卡散热的第一梯队。事实上GeForce RTX 5090 D到GeForce RTX 5090 D v2在散热、供电布局上差别不大,GeForce RTX 5090 D上那一套优秀的散热模组完全无缝转移到了索泰GeForce RTX 5090 D v2 24GB SOLID OC上。
因此索泰GeForce RTX 5090 D v2 24GB SOLID OC延续了SOLID系列的极简工业风格,通过银灰配色搭配纵横栅让整张显卡显得大气十足,同时通过显卡边缘的暗金点缀让显卡气场拉满。
SOLID系列没有做过多的RGB灯效设计,所有RGB效果都放在尾部的Zotac Gaming和Logo的1600万色RGB内,整张显卡再无其他RGB点缀,对于追求低调的游戏玩家而言非常理想。
与此同时,GeForce RTX 5090 D v2 24GB SOLID OC提供了独立的5V ARGB同步接口,方便与整机RGB实现光效同步。
在散热模组中,索泰GeForce RTX 5090 D v2 24GB SOLID OC使用了一套面积更大VC均热板,对比上一代增加了34%的覆盖面积,一次性覆盖了GPU和GDDR7显存的所有位置,并且显存位置还独立提供了导热垫,确保散热效率。
不仅如此,散热模组使用了9根6 mm热管全部使用了镀镍处理,可以做到防氧化也防弯曲,长期高湿环境不易性能衰减的特点。
索泰GeForce RTX 5090 D v2 24GB SOLID OC高达2.35kg的重量大部分来自于30mm,密度达到22FPI的散热鳍片组。
同样,显卡尾部和背板也使用了大面积镂空,确保散热效果。
散热模组上使用了3个95mm环刃风扇,风扇叶片曲率进行了重新计算,在同转速下风量增加11%,风压增加8%,这使得显卡同样散热状态下噪音还可降低2到3个dBA。同时每一个风扇都可以针对实际情况进行独立控制,并且显卡在负载较低的情况下也会让风扇自动停转。
在实际游戏运行的中,索泰GeForce RTX 5090 D v2 24GB SOLID OC全程都保持着安静运行,即使是在压力测试状态下,要仔细听才能分辨出显卡的噪音,因此索泰GeForce RTX 5090 D v2 24GB SOLID OC的静音表现在第一阶梯AIC显卡中也是很优秀的存在。
在压力测试下,会发现GPU温度在78℃左右,红外线散热鳍片温度在60℃到70℃之间,背板温度则相对更高一点。
作为旗舰显卡自然少不了超频。索泰GeForce RTX 5090 D v2 24GB SOLID OC提供了独立的双BIOS切换按钮,被安排在了12VHPWR电源接口旁边,可以在静音模式和强效模式中切换,其中静音模式可会把风扇上线锁定在70%左右,强效模式则是完全放开风扇限制。
当然这一套性能释放也不一定要通过切换BIOS来实现,在索泰FireStorm软件中,也可以对显卡进行详细的设定。
除此之外,FireStorm还可以监控显卡的实际运行情况,灯效控制,设置界面和显卡一样是黑金配色。
12VHPWR 的16pin(12+4)供电口和ARGB灯效同步接口之外,显卡的显示输出口与主流保持一致,包括包括3个DisplayPort 2.1b接口,支持DSC技术,最高可以实现480Hz条件下实现4K 12-bit HDR显示效果。如果使用并联两个DisplayPort 2.1b搭配的形式,则可以达到100Hz条件下8K HDR效果。另1个HDMI 2.1a接口,支持DSC技术,最高支持165Hz条件下8K 12-bit HDR。
实践出真知
在实战环节中,我们使用AMD Ryzen 7 9800XD3搭配X870E主板作为参考。基准测试包括DirectX 11和DirectX 12性能的3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal。
由于索泰GeForce RTX 5090 D v2 24GB SOLID OC与RTX 5090 D的CUDA Core数量是一直的,因此实际表现中,索泰GeForce RTX 5090 D v2 24GB SOLID OC与RTX 5090 D相差只有1%左右的差距,甚至部分场景下可以反超RTX 5090 D,说明这点差距可以忽略不计。与此同时,索泰GeForce RTX 5090 D v2 24GB SOLID OC相对GeForce RTX 4090 D提升30%到50%左右。
然后是支持DLSS 2和DLSS 3的游戏。这里我们将游戏分辨率均设置成4K最高画质,根据游戏对光线追踪支持的情况开启光线追踪或者路径追踪。
从整体来看,DLSS 2的游戏中,在4K最高画质且开启光线追踪的情况下,索泰GeForce RTX 5090 D v2 24GB SOLID OC表现与GeForce RTX 5090 D差别完全可以忽略,相对GeForce RTX 4090 D提升在10%到30%之间。
而在DLSS 3游戏中,同样是开启4K最高画质,并且开启光线追踪的前提下,索泰GeForce RTX 5090 D v2 24GB SOLID OC相对GeForce RTX 5090 D差距只有个位数帧数,差距变化不多,同时索泰GeForce RTX 5090 D v2 24GB SOLID OC相对GeForce RTX 4090 D提升20%到30%。
最猛还是DLSS 4
在GeForce RTX 50系列中,Tensor Core和RT Core也分别升级到了第五代和第四代。其中第五代Tensor Core的重点是引入了对FP4支持。相对大多数模型默认使用的FP16精度相比,FP4所需的内存是FP16的不到一半,并且GeForce RTX 50系列可以提供相比上一代2倍以上的性能,FP4可以通过NVIDIA TensorRT模型优化器的量化方式,确保质量不会有太多损失。这一代Tensor Core还保留了数据中心版本Blackwell GPU的第二代FP8 Transformer Engine。
第四代RT Core则在第三代RT Core基础上再次进行了调整,重点是获得更高效的提供光线追踪效果,以及更好的支持神经网络渲染技术。除了加速Alpha测试判断物体表面是否可见或者透明的Opacity MicroMaps引之外,还包括一个三角形簇相交引擎(Triangle Cluster Intersection Engine),为全新的Mega Geometry技术加速三角形簇级结构的光线追踪,同时也兼顾常规的光线与三角形相交测试。Mega Geometry技术旨在光线追踪应用中大幅提升几何细节。
与Tensor Core同步升级的还有DLSS 4。按照NVIDIA的说法,DLSS 4是自从2020年DLSS 2发布以后最大的一次AI模型升级,包括光线重建技术(DLSS Ray Reconstruction),DLSS超分辨率(DLSS Super Resolution),以及DLAA(Deep Learning Anti-Aliasing)深度学习抗锯齿技术全部引入到实时计算的Transformers模型中,在游戏中,Transformers模型和卷积神经网络(Convolutional Neural Networks,CNN)会协同工作,同步提升游戏效率。
DLSS 4最大的变化之一就是带来了多帧生成技术(Multi Frame Generation),这是GeForce RTX 50系列GPU的专属功能,意味着未来的一段时间中,只有采用GeForce RTX 50系列的台式机和笔记本才能获得对应的功能。
在DLSS 3上,帧生成占据1/8的内容,到了DLSS 4,则硬件渲染实际上只占据1/16,也就是在DLSS 4游戏中,每16帧游戏画面中,实际上有15帧是由AI加速完成的。这意味着即使硬件性能变化不大的前提下,实际游戏帧率仍然可以有质的提升。再加上DLSS本身对场景中的阴影、反射和遮挡有了很好的理解,实际生成效果也远比纯靠硬件生成的效果好很多。
在8月份科隆游戏展上,NVIDIA宣布支持DLSS 4的游戏数量已经超过175款,平均每周都会有DLSS 4新作增加。不仅如此,近期我们看到的国产热门游戏大作,也都支持DLSS 4。
这里我们先通过UL 3Dmark DLSS Feature Test对DLSS 4进行对比,索泰GeForce RTX 5090 D v2 24GB SOLID OC与RTX 5090 D同样没有差距,甚至在部分分数上索泰GeForce RTX 5090 D v2 24GB SOLID OC要略胜一筹。同样,索泰GeForce RTX 5090 D v2 24GB SOLID OC相对RTX 4090 D提升了一倍有余。
这里我们惯例对DLSS 4的游戏进行测试,所有画质均开到最高,包括最高规格光线追踪、4K最高画质、DLSS 4调整成画质模式。
这里惯例对《星球大战:亡命之徒》、《赛博朋克2077》、《心灵杀手2》、《霍格沃茨之遗》、《漫威争锋》、《龙腾世纪4:影障守护者》进行测试,游戏中的表现索泰GeForce RTX 5090 D v2 24GB SOLID OC与RTX 5090 D差距在1%到3%,但总体上没有感知,因为DLSS 4的优势,相对RTX 4090 D仅有的DLSS 3双倍帧率提升还是非常明显的。
AI与创作行不行?
最后是AI与内容创作。24GB GDDR7与32GB GDDR7是在这里被拉开的。不过索泰GeForce RTX 5090 D v2 24GB SOLID OC依然配置了3个编码器和2个解码器,相对于以往的GeForce GPU而言是质的飞跃,不仅可以支持4:2:2专业色彩格式,还可以将HEVC和AV1编码的视频质量提升5%。另外解码速度也是之前的2倍,并原生支持H.264视频格式。
4:2:2意味着可以处理更高色彩深度的原始素材,光是素材本身的原始文件就是原来的1.3倍,包含的色彩信息是原来的2倍。索泰GeForce RTX 5090 D v2 24GB SOLID OC仍然可以做到每个解码器最多可以同时解码8个4K 60FPS信息流。
这里我们对DaVinci Resolve 20编辑4:2:2视频素材到处进行对比,仍然是一段由索尼A7拍摄的H.265 59.94fps 4:2:2 30秒左右的视频素材,索泰GeForce RTX 5090 D v2 24GB SOLID OC与GeForce RTX 5090 D输出差距是有些明显的。
Blender Benchmark 4.5的Moster、Junkshop、Classroom三个场景测试中,索泰GeForce RTX 5090 D v2 24GB SOLID OC距离RTX 5090 D有11%到19%。同时索泰GeForce RTX 5090 D v2 24GB SOLID OC比RTX 4090 D快13%到17%。
V-Ray 6 Benchmark测试中索泰GeForce RTX 5090 D v2 24GB SOLID OC相差RTX 5090 D有40%,但比RTX 5080快13%。
SPECviewperf用来考验OpenGL和Direct X API的3D图形性能,测试场景包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks。索泰GeForce RTX 5090 D v2 24GB SOLID OC也受到了24GB显存的限制。
不过如果是涉及DLSS 4,索泰GeForce RTX 5090 D v2 24GB SOLID OC 在专业软件上还是能打,比如D5渲染器在DLSS 4上的表现不错。
AIGC的文生图环节使用了UL Procyon的AI Image Generation Benchmark作为参考,分别调用了Stable Diffusion 1.5 (FP16)、Stable Diffusion 1.5 (INT8)、Stable Diffusion XL (FP16)作为对比,索泰GeForce RTX 5090 D v2 24GB SOLID OC相对GeForce RTX 5090 D最高的差距会来到20%,最低2%。
UL Procyon AI文本生成基准测试,在测试中动用了多个大语言模型LLMs作为AI性能评估,包括Phi-3.5-mini-3.8B,Mistral-7B-v0.2 7B,Llama -3.1 8B,Llama-2 13B。可以看到。索泰GeForce RTX 5090 D v2 24GB SOLID OC生成速度距离GeForce RTX 5090 D大概有20%到30%的差距,但表现优于GeForce RTX 4090 D。
MLPerf是由MLCommons联盟开发的机器学习基准测试,成员来自哈佛大学、斯坦福大学、NVIDIA、谷歌的工程师和研究人员,旨在不同平台下探讨GPU的AI性能释放,LLMs大语言模型正好是其中之一。这里MLPerf-client使用Meta的Llama2-7B模型进行。可以看到索泰GeForce RTX 5090 D v2 24GB SOLID OC处理Llama2-7B模型的速度比RTX 5090 D相差12%。
顺带一提,GeForce RTX 50系列还对FP4提供了专门的硬件支持,不过现在普及还需要一些时间。如果更低精度的FP4付诸应用,索泰GeForce RTX 5090 D v2 24GB SOLID OC在文生图、智能助手方面表现还会更为强劲一些。
写在最后:顶级游戏好手
如果根据市场实际售价判断性价比,GeForce RTX 5090 D v2其实是很能打的一款产品,原因在价格下降之后,实际的游戏性能表现和RTX 5090 D、RTX 5090没有明显区别,1%到3%的差距在游戏中是很难体会出来的。对于玩家而言,可以因此节省3000到5000元的花费,同时还能获得优于RTX 5080和RTX 4090 D的性能,显然是划算的。
但不能否认24GB GDDR7显存确实带来了内容创作和AI上的限制,哪怕GeForce RTX 5090 D v2提供了相同数量的NVNEC和NVDEC编解码器,但在实际的内容创作中,可以感受到明显差距,AIGC和大模型表现亦是如此。但瑕不掩瑜,GeForce RTX 5090 D v2不需要走奇怪的购买途径,货大量足,甚至还有机会降价,GeForce RTX 5090 D v2是一款仍然有吸引力的产品。
在测试过程中,索泰GeForce RTX 5090 D v2 24GB SOLID OC的表现也让人印象深刻,扎实的用料让GeForce RTX 5090 D v2性能得以完全释放,并且在575W功耗下维持静音与散热,让体验超出了预期。同时低调的RGB设计与黑金配色也更符合倾向于低调使用同学的偏好,让每一场深夜游戏都能安静、低调,专注于游戏或者创作。
当然索泰GeForce RTX 5090 D v2 24GB SOLID OC也并非没有缺点,2.35kg的重量意味着机箱一定要用上显卡支架才能保证长期使用不变形,同时3.5槽68mm的厚度,以及329mm的长度,都意味着显卡得找个大机箱海景房才能装下,当然这也是诸多旗舰级显卡的通病。
无论如何,索泰GeForce RTX 5090 D v2 24GB SOLID OC给GeForce RTX 5090 D v2表现提供了样板级别的参考,18999元的官方定价处在可以接受的范围内。如果你对预算有要求,也可以等一个促销季将其收入囊肿。特别对于游戏玩家而言,索泰GeForce RTX 5090 D v2 24GB SOLID OC已经能够给予在消费级领域中,最旗舰级的游戏体验了。
来源:爱极物