专访黄仁勋(下):雇一个年薪10万美金的 AI agent

摘要：访谈综述：本次访谈，首先聚焦于政治层面的新难题，Nvidia上周与沙特阿拉伯、阿联酋达成的合作、对中国 H20 芯片禁售，以及为何美国在芯片管制上的做法会威胁到美国，乃至 Nvidia的长期优势。

访谈综述：本次访谈，首先聚焦于政治层面的新难题，Nvidia上周与沙特阿拉伯、阿联酋达成的合作、对中国 H20 芯片禁售，以及为何美国在芯片管制上的做法会威胁到美国，乃至 Nvidia的长期优势。

老黄还阐述了 AI 将在近期推动 GDP 增长、甚至可能缩小贸易逆差的理由。

最近老黄有两场演讲，本月的 Computex 主题演讲、以及上月 GTC 的演讲。两场演讲迥然不同，原因或许在于受众不同。

今天在台湾的听众，是本地 OEM、组件厂商及其企业客户，而上月则是美国的超大型云服务商。但关键是要明白，Nvidia 想同时向两类客户销售。

为此，我们讨论了为何“Nvidia全栈解决方案full-stack Nvidia solution”能最大化效用，包括 Dynamo如何提升推理性能，以及 Nvidia的软硬件架构为何能让客户按需选配。

最后，也是顺理成章的，我们谈到了游戏业务。

（注：由于我已多次精译Ben Thompson的文章，我将从本次访谈开始，亲切地称呼他为阿笨，也由于他实在太喜欢用复杂长难句解释概念了，有一些直男般的铁憨憨，不过既然他看透问题直击本质的能力太强，读透这种刻意的复杂长难又是十分值得的。）

四、Dynamo 与 Nvidia 全栈

阿笨： 咱们聊聊 GTC 大会吧，那是我最爱的一场主题演讲，多年来我每一场都追着看。演讲里有满满的 “黄教授Professor Jensen” 的味道，你解释了数据中心的瓶颈，然后又说为什么Nvidia就是答案。

我把那场演讲理解成某种“反ASIC宣言anti-ASIC message”，一方面，你亮出路线图roadmap，好像在说“你们尽管来追Try to keep up with this”，另一方面，你引入了“延迟-带宽latency versus bandwidth”的帕累托曲线，说明了正因为GPU可编程，同一套 GPU就可以覆盖整条曲线，而真正会去造ASIC的反而是那些 hyperscalers（超大规模云服务商）。

我这样理解对吗？

老黄： 你的理解没问题，但我当时的主要意图并不完全如此，我只是想帮大家弄清楚，该怎么建一座新的数据中心。问题在于，数据中心的能耗就是那点儿：100 兆瓦就是 100 兆瓦，250 兆瓦就是 250 兆瓦。

把数据中心当成工厂，你的首要任务就是让“单位能耗吞吐overall throughput-per-watt”最高，而这吞吐最终体现在了token 输出，既有“免费 token”这种低成本输出，也有用户愿意付费的高质量token，比如一月一千美元、甚至一万美元。

阿笨： 你之前还提到“十万美元的AI agent”？（前面老黄说的是：hire a robot for $100,000 a year）

老黄： 对，如果让我雇一名年薪 10 万美元的 AI agent？我会毫不犹豫。毕竟我们天天雇的真人，成本远高于此，要是能用 10 万美元把一位 50 万美元年薪的员工“强化amplify”一下，那可太值了。

这座“工厂”产出的 token 质量，千差万别，既要满足免费场景，也得输出高质量内容，因此必须覆盖整条帕累托曲线。若只针对某一种场景设计芯片或系统，必然闲置浪费。

问题是，如何让同一套系统既能跑“免费token”，又能随时切到高质量token 模式？

架构一旦切得太碎，负载workload在不同单元间的迁移，就会困难。所以大家如果仔细想想就知道了，一台系统若专攻“高token速率 high token rate”，整体吞吐往往很低low overall throughput，但如果追求极高吞吐，就常常交互性较差low interactivity，单用户每秒 token不够 tokens-per-second per user is low。

只沿着X 轴或 Y 轴去做，都比较容易，填满整块区域才难。这正是我们的创新所在，它是多重要素的协同加成：

Blackwell 架构、FP4 和NVLink 72 的高速互连；对高带宽内存及其容量HBM memory and its capacity 之间的平衡配比；对浮点运算能力与显存容量/带宽floating-point and the memory capacity and bandwidth之间的平衡配比；Dynamo 解耦流生态（解耦式流式推理服务生态与硬件系统disaggregated streaming serving ecosystem, hardware system）

阿笨： 我正想聊聊Dynamo，今天发布会没提，但我觉得它太有意思了。

老黄： 极其重要。

阿笨： 给我们展开讲讲，我记得你称它为“数据中心的操作系统operating system for data centers”。

老黄： 核心就是，Transformer 的推理流程分为多个阶段，各阶段可按用户需求、具体模型、上下文情境，进行差异化处理。于是，我们把大语言模型的计算流程拆分了。

第一阶段是pre-fill，就是上下文处理，先想想你接下来会问我什么。

比如来到这里，我会先想想以前和笨笨你聊过什么，比如你是偏好那种深度的、对话式的播客风格。这样一来，当我们直接开始深入谈论行业和技术时，完全不会感到不自在。

阿笨： 对，你现在可不是在给晚间新闻录个十秒快讯什么的。

老黄： 没错，我知道你能听懂，所以我不会有对牛弹琴的感觉，所以我们聊这些很自在。

当聊天机器人答复用户时，它需要这类上下文记忆，甚至得读几份 PDF，这就是pre-fill阶段，这个阶段对浮点运算量的需求极高very floating-point intensive。

接下来是 Decode，这一阶段真正负责“生成思考”，它要推理即将输出的内容、预测下一个 token，于是整条思维链会产生更多 token，再回写到上下文中，进而触发更多 token 的生成。

就这样一步步推理，可能还要检索额外资料。当代的 AI，尤其对于代理式AI agentic AI、推理式AI reasoning AI而言，decode 阶段需要密集的浮点运算和极高的带宽，在任何情形下都是如此，有时需求高得离谱，但未来还会更高。

阿笨： 它会波动。

老黄： 对，视具体情况而定。

阿笨： decode 阶段，不需要高精度浮点运算。

老黄： 对，如果是 one-shot 推理，而且 KV 缓存已经很强，那么对浮点运算的需求并不高。

不过，一旦你给模型加载大量上下文，就必须投入更多浮点算力。

Dynamo 会把整个推理流程彻底解耦，再把负载在数据中心内进行智能分配，精细计量各处理器的工作量，这可不是件简单的事。

阿笨： 这也解释了你说的，把整座数据中心当一块 GPU，Dynamo 就是那个把它当单芯片调度的软件。

老黄： 对，Dynamo 本质上就是AI 工厂的操作系统。

阿笨： 展望未来，这些“思考模型”“推理模型”的应用——你的预测一向以精准著称——你觉得它们主要用于代理式工作流吗？

缺点是，得等它想完，人们得等待结果？或许，可以并行跑一堆代理来弥补？

又或者，它们更重要的价值在于：生成训练数据？从而提升 one-shot 效果，这可以成为更常见的交互形式？

老黄： 这得看成本。

我预测推理模型会成为默认基准baseline，因为处理速度会快得惊人。比如，启用 Grace-Blackwell 后，速度能提升 40 倍，再往下一代，再快 40 倍，而模型本身也在不断进化。

所以，从现在算起五年内，代理式模型agentic models整体提速 10 万倍，在我看来完全合理。

阿笨： 这就是计算性能的发展历史the history of computing。

老黄： 没错，它刚刚思考了“山一样多的内容”，只是你没看到罢了，如今，连“慢思考”都快极了even slow thinking is fast。

阿笨： 那本书，《思考，快与慢》……若让AI来读，它一秒就能读完，书名可要被“打脸”了。

老黄： 哈哈，的确如此。

五、企业级 AI 与务实主义

阿笨： 回到政治话题，简单提一下。

你谈到每瓦性能（performance-per-watt）时，是否这更多是美国中心的思维？在美国，我们很难新建电力设施，电力成了最大瓶颈，但是比如像海湾国家，能源更加容易获取，电力也更容易建设。

而在中国，如果电力不是最大限制因素，那么很多 Nvidia 解决的问题，其实都能被解决。是不是这也是为什么 GTC 会选择在美国举办的原因之一？这是不是传递给美国的一个信息？

老黄： 哦，我没这么想过。我认为不管怎么说，工厂的规模总是有限的。即使你所在的国家有更多能源，但你的数据中心并不一定有。因此，我认为“每瓦性能”始终很重要。

阿笨： 这始终很重要，但重要性可能会有所不同。

老黄： 对，没错。但问题在于，如果你一开始就知道自己选的架构只有别人一半的性能，你也许会说，那我就多买一倍土地，多拉一倍电力，从头按两倍规模建。

可真把所有因素加在一起，问题就来了。打个比方，给1 GW(a gigawatt)机房配套的话，简单估算，光是机房外壳、供电、土地、运维等基础设施，就要 300 亿美元；再加上计算、网络、存储，可能得500 亿美元。

现在，因为效能低下，你得建两座同样的机房，光那300 亿就得翻倍变 600 亿，这时你就得找到“极其便宜的计算资源”，才能把账算平。所以在 AI 工厂的世界里我常说，如果某套架构性能不行，有时即便“免费”，也不够便宜。

阿笨：但如果是唯一的选择，你就会努力让它发挥作用。

老黄： 对，没错。

阿笨： 那我们来对比一下当下的情况。

你今天说过几次，“如果你买我所有东西我很开心，但我也很高兴你买我任何东西”。之前我没完全明白，直到现在我才意识到，这听起来像是一场企业级的主题演讲，当然这是我自己的理解，不是你的说法，我感觉到了务实主义，你现在听起来像是个企业软件公司的 CEO，非常务实。

在你的话语体系里，如果客户要建一座完整的 AI 工厂，全用 Nvidia 当然最好，但很多客户只会买其中一部分。对这些客户来说，也许你希望他们全买，但只要买了哪怕一点，未来大概率也会一直跟你买。

所以，从战略上看，他们也是很重要的基本盘，对吗？

老黄： 满足客户需求，本来就是聪明做法。如果你看 Nvidia 的市场策略，我们一直是以完全集成的方式构建产品，软件必须与硬件紧密结合。

但我们也有足够的纪律性，可以将软件与硬件解耦，你可以选择不使用我们的软件，你完全可以选择不使用。如果你看我们设计系统的方式，我们实际上已经以一种足够有纪律的方式解耦了系统，所以如果你想更换某些部分，也是可以的。

目前，Grace Blackwell 在全球不同的云平台中，都在被集成和部署，所有这些平台基于我们的标准，虽然它们各有不同，但我们能适应它们。

我认为这就是 Nvidia 商业模式的真正挑战，它与我们想要成为计算平台公司（computing platform company）的目标，是相辅相成的。最重要的是，如果 Nvidia 的栈（计算栈compute stack）被采用，那当然太好了。但如果我的网络栈networking stack被采用，我同样非常高兴。

事实上我对我们网络栈的看法，与对计算栈的看法一样强烈。如果这两个栈都被采用，那简直是不可思议。

阿笨： 好吧，很多人提到你们的 NVLink Fusion，你可以只买 NVLink，也可以与 ASIC 集成，这与我理解的 GTC 信息正好相反，但我理解了你此刻的立场。

毕竟，谁是客户谁说了算？

老黄： 我依然深信，Nvidia 正在构建一个更好的系统，我完全相信这一点。如果我不相信这一点，那显然我们做错了什么事，得赶紧找出原因并纠正。

所以我完全相信，Nvidia 是全球最大规模的加速计算公司，我们是全球最大规模的 AI 计算公司。没有哪家 36000 到 38000 人的公司，能像我们一样专注于这一件事。

如果有一个 14 人的小团队，能够做得比我们更好，那我得承认，我的内心一定很痛苦，所以我们会继续努力做得更好。

阿笨：然而，你也相信规模，而获得规模的一种好方法，就是根据客户需求去销售产品，无论客户想要什么方式。

老黄： 对，完全正确，确实如此。我有我的偏好，但我们想确保我们能够按照客户的需求去服务每个客户。

六、游戏何去何从

阿笨： 接着这个话题聊下去，也许是相关的。

我问了我一个朋友，他的儿子坚持让我问这个问题。有些游戏圈的人认为，虽然你今天的主题演讲中只有10%讲的是 GeForce，但对我们依然很重要。

是不是还可以认为，GeForce对我们依然重要，因为这是一切的基础，我们做的还是 GPU？或者，我应该怎么告诉我朋友的儿子，关于 Nvidia和游戏的事？

老黄： 你看，我真希望我说过——没有 GeForce，RTX PRO 做不出来，没有 GeForce，就没有 Omniverse，任何我们看到的视频里的像素都离不开 GeForce，机器人也做不出来，没有 GeForce，Newton 也无法实现。

所以，GeForce 本身在 GTC 上不那么突出，是因为 GTC 更侧重高性能计算、企业级应用和 AI 等领域。

我们为游戏开发者举办了单独的大会，所以每次在 GTC 演讲时，我总觉得有些产品发布并不那么核心，虽然在 GTC 的听众群体中，可能不完全适合，但他们也明白，GeForce在我们做的一切工作中扮演着至关重要的角色。

阿笨： 是不是有些游戏玩家，至今还没有完全意识到，GeForce 现在远远不止是图形渲染引擎这么简单？

老黄：（笑） 对，没错。正如我今天说的，我们只渲染 1/10 的像素，这个数字非常令人震惊。假设我给你一个拼图，只给你 1/10 的拼块，其他的拼块我根本不给你，你必须自己把它拼出来。

阿笨： 我有个新角度，可以将游戏与其他业务联系起来。你刚才说过，你很有纪律性地保持各个领域的分离，且能够将它们分开管理，软件也能处理好这些。

这听起来有点像 Windows 上的驱动问题，老实说，这就是你们的一项核心技能。

老黄： 是的，驱动程序太低级了，涉及的内容太多，寄存器registers太多，而““驱动抽象driver abstraction”实际上是一次革命，微软在这方面发挥了重要作用。如果没有驱动的概念concept of a driver，Windows 就不会有今天的地位。它创造了一个 API 抽象层abstraction of an API，而在硬件下面可以有较大的变化。

我们现在的驱动程序是开源的，坦白说，我并没有看到很多人对此做出贡献。原因很简单：一旦我推出了新的 GPU，上一个驱动的工作几乎就被抛弃了。

所以，没有像 Nvidia 这样庞大的工程师团队，别人很难做这件事。但如果我们为每一款 GPU 优化每个驱动程序，并与之配套，就能创造出一个完美的隔离层isolation layer，一个抽象层an abstraction layer，无论是 CUDA 还是 DirectX，开发者都可以在其之上进行开发。

阿笨： 这就是我给我朋友儿子的答案，我在前面不得不问你关于政府的事，你也为你的观点提供了很好的、充满热情的辩护，但当我问到关于游戏驱动的问题时，你的眼睛真的亮了起来。

老黄： 哦，真的吗？

阿笨： 所以我觉得一切都很好。

老黄： great，其实我真的很喜欢 GeForce。

阿笨： 这就是面对面交流的好处，老黄，非常感谢你。

来源：老夏看商业一点号

标签：年薪 agent aiagent 黄仁勋 gtc

本文地址：https://news.43u.com.cn/a/1805199.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!