RTX 5090评测：很贵，也很快

摘要：Nvidia 的 GeForce RTX 5090 起价为 1,999 美元，这还不包括公司合作伙伴的加价销售或黄牛党和/或真实需求推动的价格上涨。它的价格比我整个游戏电脑都贵。

Nvidia 的 GeForce RTX 5090 起价为 1,999 美元，这还不包括公司合作伙伴的加价销售或黄牛党和/或真实需求推动的价格上涨。它的价格比我整个游戏电脑都贵。

新的 GPU 非常昂贵，以至于你可以用 Nvidia 速度第二快的 GPU（售价 999 美元的 RTX 5080，我们还没有拿到）组装一整台配置精良的游戏电脑，价格相同，如果选择合理的组件，甚至可能更低一些。它并不是 Nvidia 有史以来推出的最昂贵的 GPU——2018 年推出的售价 2,499 美元的 Titan RTX 击败了它，2022 年推出的 RTX 3090 Ti 也售价 2,000 美元——但可以肯定地说，它并不是真正面向大众的 GPU。

至少就游戏而言，5090 是光环产品的定义；它适合那些不计成本追求最好和最新产品的人（对于想要将其用作某种生成式 AI 加速器的有钱人和公司来说，情况可能有所不同）。至少在这方面，5090 是成功的。它是您可以买到的最新和最快的 GPU，而且竞争对手并不特别激烈。它也是 DLSS 多帧生成的展示，这是 50 系列显卡独有的一项新功能，Nvidia 非常依赖它来使其新 GPU 看起来比现在更好。

Founders Edition 显卡：设计和散热

我们不会花太多时间谈论 Nvidia Founders Edition 显卡的具体设计，因为许多买家会选择使用 Nvidia 合作伙伴的显卡来体验 Blackwell GPU（到目前为止，我们看到的显卡大多看起来符合预期：巨大的三槽三风扇冷却器，具有不同程度的 RGB）。但值得注意的是，Nvidia 已经解决了我对 4090/4080 系列设计的一些功能性抱怨。

首先是每张卡的尺寸——这不是 Nvidia 独有的问题，但对于我这样一个偏爱 ITX 型 PC 和小型机的人来说，这个问题经常会给我带来麻烦。5090 和 5080 FE 设计的长度和高度与 4090 和 4080 FE 设计相同，但它们只占用两个插槽，而不是三个，这让它们在许多情况下更容易安装。

Nvidia 还对显卡的 12VHPWR 连接器进行了调整，将其嵌入显卡并以微小角度安装，而不是直接伸出顶部边缘。4090/4080 FE 设计的高度使得某些机箱难以合上，因为您考虑到了 12VHPWR 电缆或 Nvidia 的多触手 8 针转 12VHPWR 适配器的额外高度。倾斜的连接器仍然会超出显卡顶部一点，但将电缆收起来更容易，这样您就可以将侧面放回机箱上。

最后，Nvidia 改变了其冷却器——大多数 OEM GPU 将所有风扇都安装在 GPU 顶部，而 Nvidia 历来将一个风扇安装在显卡的两侧。在标准 ATX 机箱中，如果 GPU 平行安装在机箱底部，这不是什么大问题——有足够的空间让空气在机箱内循环，并由您安装的任何机箱风扇排出。

但在“三明治式” ITX 机箱中，一根立管电缆环绕四周，以便 GPU 可以与主板平行安装，而 GPU 底部的风扇位置不佳。在许多三明治式机箱中，GPU 风扇会将热量排放到主板背面，这使得 GPU 更难保持冷却，并在其他地方产生热量问题。新款 GPU 将两个风扇都安装在显卡顶部。

Nvidia 的 Founders Edition 显卡过去曾出现过发热问题- 最明显的是 30 系列 GPU - 这是我首先提出的问题。较小的冷却器加上显着更高的峰值功耗似乎是导致过热的原因。

至少对于 5090 来说，较小的冷却器确实意味着更高的温度——在运行与 RTX 4090 Founders Edition 相同的基准测试时，温度会高出约 10 到 12 摄氏度。虽然 77 度左右的温度并不令人担忧，但这是一种最佳情况，测试台机箱充分冷却，侧面板完全拆除，环境温度约为 21° 或 22° 摄氏度。如果您购买其中一种，您只需确保机箱内有足够的气流。

测试平台说明

新的高端 Nvidia GPU 是调整我们的测试平台和游戏套件的一个很好的理由，我们在这里做了这两项工作。主要是，我们添加了一个 1050 W Thermaltake Toughpower GF A3 电源——Nvidia 建议 5090 至少使用 1000 W，并且为了方便起见，这款电源有一个原生 12VHPWR 连接器。我们还将 Ryzen 7 7800X3D 换成了速度稍快的 Ryzen 7 9800X3D，以降低在我们尝试达到高帧率时 CPU 成为性能瓶颈的可能性。

至于游戏套件，我们删除了一些较旧的游戏，并添加了一些内置基准测试的游戏，这些游戏会对这些 GPU 造成更大的负担，尤其是在所有设置都调高的情况下，在 4K 分辨率下尤其如此。这些游戏包括常年令人不爽的Cyberpunk 2077中的 RT Overdrive 预设和电影模式下的Black Myth: Wukong，这两款游戏中，即使是 RTX 4090 在没有 DLSS 帮助的情况下也难以达到 60 fps。我们还添加了Horizon Zero Dawn Remastered，这是最近发布的一款不包含光线追踪效果但支持大多数 DLSS 3 和 FSR 3 功能（包括 FSR 帧生成）的游戏。

我们试图在具有光线追踪效果的游戏和不具有光线追踪效果的游戏之间取得平衡，尽管现在大多数 AAA 游戏都包含它，并且现代 GPU 应该能够很好地处理它（祝 AMD 即将推出的 RDNA 4 卡好运）。

对于 5090，我们在 4K 分辨率下运行了所有测试——如果您不介意在 4K 分辨率下运行游戏，即使您想要 1440p 的超高帧率或某种超宽显示器，5090 可能也有点过头了。当我们运行升级测试时，我们使用适用于 Nvidia 显卡的最新 DLSS 版本、适用于 AMD 显卡的最新 FSR 版本以及适用于 Intel 显卡的最新 XeSS 版本（这里不相关，只是为了记录而说明），并且我们使用“质量”设置（在 4K 分辨率下，这相当于 1440p 的实际渲染版本）。

渲染性能：速度更快，但功耗更大

在我们讨论帧生成或“假帧”之前，让我们先进行同类比较，并检查一下 5090 的渲染性能。

与 4090 相比，这款显卡主要有四点优势：升级的 Blackwell GPU 架构、CUDA 核心数量增加近 33%、从 GDDR6X 升级到 GDDR7，以及从 384 位内存总线升级到 512 位总线。它的 RAM 也从 24GB 跃升至 32GB，但游戏通常不会达到 24GB 的限制，因此如果您只专注于游戏，容量增加本身不会真正改变性能。

对于那些优先考虑性能的人来说，5090 意义重大——它是任何公司推出的第一款比 4090 速度更快的消费级显卡，因为 Nvidia 去年在对 4080、4070 Ti 和 4070 进行中代超级更新时从未对 4090 进行过改进。

与原生渲染的 4K 游戏相比，5090 比 4090 快 17% 到 40%，我们测试的大多数游戏都快 30% 到 30% 左右。这无疑是一个巨大的进步，与 CUDA 核心数量的增加大致相当。在启用 DLSS 的情况下运行的测试（仅升级和以 2 倍模式运行帧生成）的提升幅度大致相同。

如果您仔细寻找，您可能会发现一些令人失望的地方。在我们运行繁重的 4K 游戏的测试中，性能提升了 30% 左右，但功耗却增加了 35%——4090 的最高功耗约为 420 W，而 5090 则一路飙升至 573 W，5090 更接近其 575 W TDP，而 4090 则更接近其理论最大值 450 W。50 系列显卡使用与 40 系列显卡相同的 TSMC 4N 制造工艺，在不改变工艺的情况下增加晶体管数量会导致芯片功耗更高（不过应该说，限制帧速率、以较低的分辨率运行或运行要求较低的游戏可以稍微控制功耗）。

如果您还记得 4090比上一代 3090 Ti快了约 55%，而功耗却大致相同，那么 5090 比 4090 快 30% 左右似乎也并不令人意外。比 4090更快绝非易事——AMD 最快的 GPU 与 Nvidia 的 4080 Super 更相近——但如果您使用完全相同的测试来比较这两款显卡，相对的飞跃就没那么惊人了。

这让我们看到了 Nvidia 对这一问题的答案：DLSS 4 及其多帧生成功能。

DLSS 4 和多帧生成

回顾一下，Nvidia 的 DLSS 帧生成功能（GeForce 40 系列中引入）将 DLSS 升级更进一步。升级功能将插值像素插入渲染图像中，使其看起来更清晰、分辨率更高，而无需渲染所有这些像素。DLSS FG 会在渲染帧之间插入整个帧，从而提高 FPS，而不会大幅增加 GPU 的工作量。如果您同时使用 DLSS 升级和 FG，Nvidia 可以声称屏幕上的八个像素中有七个是由 AI 生成的。

DLSS 多帧生成（以下简称 MFG，为简单起见）的作用相同，但它可以为每个渲染帧生成一到三个插值帧。营销数字也上升了；现在，屏幕上每 16 个像素中就有 15 个可以由 AI 生成。

Nvidia 为评测人员提供了启用了 DLSS MFG 的Cyberpunk 2077预览版，这为我们提供了一个示例，展示了这些设置将如何向用户展示。对于仅支持常规 DLSS FG 的 40 系列显卡，您不会注意到支持 MFG 的游戏中存在差异 - 帧生成仍然只是一个可以打开或关闭的切换开关。对于支持 MFG 的 50 系列显卡，您将能够从几个选项中进行选择，就像您目前对其他 DLSS 质量设置所做的那样。

“2x”模式是 DLSS FG 的旧版本，50 系列显卡和 40 系列 GPU 均支持该模式；该模式承诺每渲染一帧生成一帧（总共两帧，因此为“2x”）。“3x”和“4x”模式是 50 系列的新增模式，承诺每渲染一帧分别生成两帧和三帧。与原始 DLSS FG 一样，MFG 可以与常规 DLSS 升级配合使用，也可以单独使用。

原始 DLSS FG 的一个问题是延迟——用户输入仅以原生渲染的帧速率进行采样，这意味着您可以在显示器上看到每秒 60 帧，但您的输入每秒仅轮询 30 次。另一个问题是图像质量；尽管 DLSS 算法可以很好地猜测和重现原生渲染像素的外观，但您不可避免地会看到错误，尤其是在精细细节方面。

这两个问题都导致了 DLSS FG 的第三个问题：如果没有合适的底层帧速率，您感觉到的延迟和您注意到的奇怪视觉伪影都会更加明显。因此，DLSS FG 可用于将 120 fps 转换为 240 fps，甚至将 60 fps 转换为 120 fps。但如果您想从 20 或 30 fps 提高到流畅的 60 fps，它就没那么有用了。

我们将在接下来的几周内仔细研究 DLSS 升级（包括 MFG 和新的变压器模型，据称这将提高升级质量并支持所有 RTX GPU）。但在我们迄今为止的有限测试中，DLSS MFG 的问题与第一版帧生成的问题基本相同，只是稍微明显一些。在内置的Cyberpunk 2077基准测试中，最明显的问题是一些带刺铁丝网，随着 AI 生成的帧数增加，它们看起来更平滑，细节更少。但动作确实看起来流畅顺畅，帧速率确实令人印象深刻。

但正如我们在去年的 4090 评测中指出的那样，xx90 显卡能够以最佳状态呈现 FG 和 MFG，因为该显卡已经能够原生渲染如此高的帧率。在低端显卡上，该技术的缺点更加明显。Nvidia 可能会说即将推出的 RTX 5070“与售价 549 美元的 4090 一样快”，从该显卡每秒可以在屏幕上显示的帧数来看，这可能是正确的。但 4090 的响应能力和视觉保真度每次都会更好——AI 是渲染帧的良好增强，但它作为渲染帧的替代品还不确定。

4090，放大

GeForce RTX 5090 是一款令人印象深刻的显卡——它是两年多来发布的唯一一款性能超越 RTX 4090 的消费级显卡。主要缺点是其极高的功耗和极高的价格；它本身的价格与整台主流游戏 PC 相当（并且耗电量也相当）。这款显卡面向那些更关心速度而非价格的人，但仍然值得将其放在背景中考虑。

与 40 系列一样，主要争议在于 Nvidia 如何谈论其帧生成夸大的性能数字。帧生成和多帧生成是工具箱中的工具——有些游戏会让画面看起来很棒，运行速度很快，对视觉质量或响应能力的影响却很小；有些游戏的影响更明显；有些游戏根本不支持这些功能。（尽管 DLSS 在新版本中通常得到很好的支持，但游戏开发者有责任添加它——并在 Nvidia 发布新版本时更新它。）

但是，使用这些多帧生成夸大的 FPS 数字与上一代显卡进行顶级比较，感觉有点不诚实。不，RTX 5070 不会像售价仅为 549 美元的 RTX 4090 那样快，因为并非所有游戏都支持 DLSS MFG，而且并非所有支持它的游戏都能很好地运行它。帧生成仍然需要良好的基本帧速率才能开始，而且你的卡越慢，你可能会注意到的问题就越多。

抛开模糊的营销，Nvidia 仍然是 GPU 市场无可争议的领导者，而 RTX 5090 可能将这一领导地位延续到另一整整一代 GPU，因为AMD和英特尔目前都在致力于生产更大容量、更低成本的显卡。DLSS 通常仍然比 AMD 的 FSR 更好，而且 Nvidia 在让新 AAA 游戏版本的开发人员支持它方面做得很好。如果你购买这款 GPU 来做某种渲染工作或生成 AI 加速，Nvidia 的性能和软件工具仍然更胜一筹。误导性的性能声明令人沮丧，但 Nvidia 仍然从其主导地位和根深蒂固的地位中获得了很多真正的优势。

优点

通常比 RTX 4090 快 30% 左右

重新设计的 Founders Edition 显卡比 4090/4080 设计的砖块更美观

尽管显卡尺寸较小且功耗较高，但散热效果良好

如果你想在高刷新率游戏显示器上达到 240 或 360 fps，DLSS 多帧生成是一个有趣的选择

缺点

功耗比 4090 高得多，而 4090 的功耗已经比市场上任何其他 GPU 都要高

帧生成擅长让运行速度快的游戏运行得更快，但不太适合让运行速度慢的游戏运行到 60 Hz

Nvidia 在多帧生成方面的误导性营销令人沮丧——对于低端显卡来说，这种做法可能更令人沮丧，因为它们没有像 5090 那样在核心数量和内存接口方面获得同样的提升

GB202的die shot，完全曝光

Nvidia 旗舰产品 GB202 芯片（为RTX 5090提供动力）的图表已在 X 上分享，揭示了 Nvidia Blackwell架构的组件布局。Kurnal 注释的图像显示了 GB202 主要组件的布局，例如 L2 缓存、GPC、SM、内存控制器等。还分享了第二张图像，将 GB202 与 Nvidia 上一代RTX 4090旗舰产品使用的 AD102 进行了比较。

查看 GB202 芯片照片，L2 缓存直接位于芯片中间，分成几个 2 MB 块，形成两个 32 MB 层。整个 L2 缓存池周围有 12 个图形处理集群。每个集群内都有几个纹理处理集群，负责顶点着色、纹理映射和光栅化。每个 TPC 内有多个流处理器，其中包含 GPU 的 CUDA 核心和 L1 缓存等组件。共有 96 个 TPC，据称每个 TPC 最多有四个 SM。

12 个光栅引擎/3D FF 块与 L2 缓存相邻，它们将场景的几何表示（例如多边形）转换为屏幕上可查看的图像。GB202 芯片正中间，从上到下是 Nvidia 视频编码器和解码器（NVDEC 和 NVENC），负责高效的视频播放和录制。

L2 缓存的左右两侧是八个 64 位内存控制器，芯片顶部、左侧和右侧两侧是 32 位 GDDR7 物理接口，用于将 GPU 连接到 GDDR7 内存模块。最后，PCie 5.0 x16 物理接口和显示控制器位于底部。

在第二张图片中，我们能更好地感知到 GB202 比Ada Lovelace的巨大尺寸。GB202 比 AD102 大 24%，芯片尺寸为 761.56mm²。AD102 的尺寸为 616mm²。Blackwell 利用了 TSMC 的N4P节点，这是 Ada Lovelace 上使用的 N4 的调整版本，因此 Nvidia 将 GB202 的物理尺寸大大增加到 AD102 以上也是合情合理的。如果 Nvidia 使用 TSMC 最先进的 3N，那么 Blackwell 芯片的尺寸可能与 Ada Lovelace 芯片相似，但性能特征相同；话虽如此，但这尚未得到证实。

无论如何，GB202 并不是 Nvidia 必须生产的最大芯片；它仍然属于较旧的 Hopper 和 Volta 架构。GH100和GV100（为Titan V提供动力）的芯片尺寸分别为 814 平方毫米和 815 平方毫米。

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4018期内容，欢迎关注。