专访黄仁勋(下):雇一个年薪10万美金的 AI agent

360影视 国产动漫 2025-05-27 18:49 1

摘要:访谈综述:本次访谈,首先聚焦于政治层面的新难题,Nvidia上周与沙特阿拉伯、阿联酋达成的合作、对中国 H20 芯片禁售,以及为何美国在芯片管制上的做法会威胁到美国,乃至 Nvidia的长期优势。

访谈综述:本次访谈,首先聚焦于政治层面的新难题,Nvidia上周与沙特阿拉伯、阿联酋达成的合作、对中国 H20 芯片禁售,以及为何美国在芯片管制上的做法会威胁到美国,乃至 Nvidia的长期优势。

老黄还阐述了 AI 将在近期推动 GDP 增长、甚至可能缩小贸易逆差的理由。

最近老黄有两场演讲,本月的 Computex 主题演讲、以及上月 GTC 的演讲。两场演讲迥然不同,原因或许在于受众不同。

今天在台 湾的听众,是本地 OEM、组件厂商及其企业客户,而上月则是美国的超大型云服务商。但关键是要明白,Nvidia 想同时向两类客户销售。

为此,我们讨论了为何“Nvidia全栈解决方案full-stack Nvidia solution”能最大化效用,包括 Dynamo如何提升推理性能,以及 Nvidia的软硬件架构为何能让客户按需选配。

最后,也是顺理成章的,我们谈到了游戏业务。

(注:由于我已多次精译Ben Thompson的文章,我将从本次访谈开始,亲切地称呼他为阿笨,也由于他实在太喜欢用复杂长难句解释概念了,有一些直男般的铁憨憨,不过既然他看透问题直击本质的能力太强,读透这种刻意的复杂长难又是十分值得的。)

四、Dynamo 与 Nvidia 全栈

阿笨: 咱们聊聊 GTC 大会吧,那是我最爱的一场主题演讲,多年来我每一场都追着看。演讲里有满满的 “黄教授Professor Jensen” 的味道,你解释了数据中心的瓶颈,然后又说为什么Nvidia就是答案。

我把那场演讲理解成某种“反ASIC宣言anti-ASIC message”,一方面,你亮出路线图roadmap,好像在说“你们尽管来追Try to keep up with this”,另一方面,你引入了“延迟-带宽latency versus bandwidth”的帕累托曲线,说明了正因为GPU可编程,同一套 GPU就可以覆盖整条曲线,而真正会去造ASIC的反而是那些 hyperscalers(超大规模云服务商)。

我这样理解对吗?

老黄: 你的理解没问题,但我当时的主要意图并不完全如此,我只是想帮大家弄清楚,该怎么建一座新的数据中心。问题在于,数据中心的能耗就是那点儿:100 兆瓦就是 100 兆瓦,250 兆瓦就是 250 兆瓦。

把数据中心当成工厂,你的首要任务就是让“单位能耗吞吐overall throughput-per-watt”最高,而这吞吐最终体现在了token 输出,既有“免费 token”这种低成本输出,也有用户愿意付费的高质量token,比如一月一千美元、甚至一万美元。

阿笨: 你之前还提到“十万美元的AI agent”?(前面老黄说的是:hire a robot for $100,000 a year)

老黄: 对,如果让我雇一名年薪 10 万美元的 AI agent?我会毫不犹豫。毕竟我们天天雇的真人,成本远高于此,要是能用 10 万美元把一位 50 万美元年薪的员工“强化amplify”一下,那可太值了。

这座“工厂”产出的 token 质量,千差万别,既要满足免费场景,也得输出高质量内容,因此必须覆盖整条帕累托曲线。若只针对某一种场景设计芯片或系统,必然闲置浪费。

问题是,如何让同一套系统既能跑“免费token”,又能随时切到高质量token 模式?

架构一旦切得太碎,负载workload在不同单元间的迁移,就会困难。所以大家如果仔细想想就知道了,一台系统若专攻“高token速率 high token rate”,整体吞吐往往很低low overall throughput,但如果追求极高吞吐,就常常交互性较差low interactivity,单用户每秒 token不够 tokens-per-second per user is low。

只沿着X 轴或 Y 轴去做,都比较容易,填满整块区域才难。这正是我们的创新所在,它是多重要素的协同加成:

Blackwell 架构、FP4 和NVLink 72 的高速互连 ;对高带宽内存及其容量HBM memory and its capacity 之间的平衡配比;对浮点运算能力与显存容量/带宽floating-point and the memory capacity and bandwidth之间的平衡配比;Dynamo 解耦流生态(解耦式流式推理服务生态与硬件系统disaggregated streaming serving ecosystem, hardware system)

阿笨: 我正想聊聊Dynamo,今天发布会没提,但我觉得它太有意思了。

老黄: 极其重要。

阿笨: 给我们展开讲讲,我记得你称它为“数据中心的操作系统operating system for data centers”。

老黄: 核心就是,Transformer 的推理流程分为多个阶段,各阶段可按用户需求、具体模型、上下文情境,进行差异化处理。于是,我们把大语言模型的计算流程拆分了。

第一阶段是pre-fill,就是上下文处理,先想想你接下来会问我什么。

比如来到这里,我会先想想以前和笨笨你聊过什么,比如你是偏好那种深度的、对话式的播客风格。这样一来,当我们直接开始深入谈论行业和技术时,完全不会感到不自在。

阿笨: 对,你现在可不是在给晚间新闻录个十秒快讯什么的。

老黄: 没错,我知道你能听懂,所以我不会有对牛弹琴的感觉,所以我们聊这些很自在。

当聊天机器人答复用户时,它需要这类上下文记忆,甚至得读几份 PDF,这就是pre-fill阶段,这个阶段对浮点运算量的需求极高very floating-point intensive。

接下来是 Decode,这一阶段真正负责“生成思考”,它要推理即将输出的内容、预测下一个 token,于是整条思维链会产生更多 token,再回写到上下文中,进而触发更多 token 的生成。

就这样一步步推理,可能还要检索额外资料。当代的 AI,尤其对于代理式AI agentic AI、推理式AI reasoning AI而言,decode 阶段需要密集的浮点运算和极高的带宽,在任何情形下都是如此,有时需求高得离谱,但未来还会更高。

阿笨: 它会波动。

老黄: 对,视具体情况而定。

阿笨: decode 阶段,不需要高精度浮点运算。

老黄: 对,如果是 one-shot 推理,而且 KV 缓存已经很强,那么对浮点运算的需求并不高。

不过,一旦你给模型加载大量上下文,就必须投入更多浮点算力。

Dynamo 会把整个推理流程彻底解耦,再把负载在数据中心内进行智能分配,精细计量各处理器的工作量,这可不是件简单的事。

阿笨: 这也解释了你说的,把整座数据中心当一块 GPU,Dynamo 就是那个把它当单芯片调度的软件。

老黄: 对,Dynamo 本质上就是AI 工厂的操作系统。

阿笨: 展望未来,这些“思考模型”“推理模型”的应用——你的预测一向以精准著称——你觉得它们主要用于代理式工作流吗?

缺点是,得等它想完,人们得等待结果?或许,可以并行跑一堆代理来弥补?

又或者,它们更重要的价值在于:生成训练数据?从而提升 one-shot 效果,这可以成为更常见的交互形式?

老黄: 这得看成本。

我预测推理模型会成为默认基准baseline,因为处理速度会快得惊人。比如,启用 Grace-Blackwell 后,速度能提升 40 倍,再往下一代,再快 40 倍,而模型本身也在不断进化。

所以,从现在算起五年内,代理式模型agentic models整体提速 10 万倍,在我看来完全合理。

阿笨: 这就是计算性能的发展历史the history of computing。

老黄: 没错,它刚刚思考了“山一样多的内容”,只是你没看到罢了,如今,连“慢思考”都快极了even slow thinking is fast。

阿笨: 那本书,《思考,快与慢》……若让AI来读,它一秒就能读完,书名可要被“打脸”了。

老黄: 哈哈,的确如此。

五、企业级 AI 与务实主义

阿笨: 回到政治话题,简单提一下。

你谈到每瓦性能(performance-per-watt)时,是否这更多是美国中心的思维?在美国,我们很难新建电力设施,电力成了最大瓶颈,但是比如像海湾国家,能源更加容易获取,电力也更容易建设。

而在中国,如果电力不是最大限制因素,那么很多 Nvidia 解决的问题,其实都能被解决。是不是这也是为什么 GTC 会选择在美国举办的原因之一?这是不是传递给美国的一个信息?

老黄: 哦,我没这么想过。我认为不管怎么说,工厂的规模总是有限的。即使你所在的国家有更多能源,但你的数据中心并不一定有。因此,我认为“每瓦性能”始终很重要。

阿笨: 这始终很重要,但重要性可能会有所不同。

老黄: 对,没错。但问题在于,如果你一开始就知道自己选的架构只有别人一半的性能,你也许会说,那我就多买一倍土地,多拉一倍电力,从头按两倍规模建。

可真把所有因素加在一起,问题就来了。打个比方,给1 GW(a gigawatt)机房配套的话,简单估算,光是机房外壳、供电、土地、运维等基础设施,就要 300 亿美元;再加上计算、网络、存储,可能得500 亿美元。

现在,因为效能低下,你得建两座同样的机房,光那300 亿就得翻倍变 600 亿,这时你就得找到“极其便宜的计算资源”,才能把账算平。所以在 AI 工厂的世界里我常说,如果某套架构性能不行,有时即便“免费”,也不够便宜。

阿笨:但 如果是唯一的选择,你就会努力让它发挥作用。

老黄: 对,没错。

阿笨: 那我们来对比一下当下的情况。

你今天说过几次,“如果你买我所有东西我很开心,但我也很高兴你买我任何东西”。之前我没完全明白,直到现在我才意识到,这听起来像是一场企业级的主题演讲,当然这是我自己的理解,不是你的说法,我感觉到了务实主义,你现在听起来像是个企业软件公司的 CEO,非常务实。

在你的话语体系里,如果客户要建一座完整的 AI 工厂,全用 Nvidia 当然最好,但很多客户只会买其中一部分。对这些客户来说,也许你希望他们全买,但只要买了哪怕一点,未来大概率也会一直跟你买。

所以,从战略上看,他们也是很重要的基本盘,对吗?

老黄: 满足客户需求,本来就是聪明做法。如果你看 Nvidia 的市场策略,我们一直是以完全集成的方式构建产品,软件必须与硬件紧密结合。

但我们也有足够的纪律性,可以将软件与硬件解耦,你可以选择不使用我们的软件,你完全可以选择不使用。如果你看我们设计系统的方式,我们实际上已经以一种足够有纪律的方式解耦了系统,所以如果你想更换某些部分,也是可以的。

目前,Grace Blackwell 在全球不同的云平台中,都在被集成和部署,所有这些平台基于我们的标准,虽然它们各有不同,但我们能适应它们。

我认为这就是 Nvidia 商业模式的真正挑战,它与我们想要成为计算平台公司(computing platform company)的目标,是相辅相成的。最重要的是,如果 Nvidia 的栈(计算栈compute stack)被采用,那当然太好了。但如果我的网络栈networking stack被采用,我同样非常高兴。

事实上我对我们网络栈的看法,与对计算栈的看法一样强烈。如果这两个栈都被采用,那简直是不可思议。

阿笨: 好吧,很多人提到你们的 NVLink Fusion,你可以只买 NVLink,也可以与 ASIC 集成,这与我理解的 GTC 信息正好相反,但我理解了你此刻的立场。

毕竟,谁是客户谁说了算?

老黄: 我依然深信,Nvidia 正在构建一个更好的系统,我完全相信这一点。如果我不相信这一点,那显然我们做错了什么事,得赶紧找出原因并纠正。

所以我完全相信,Nvidia 是全球最大规模的加速计算公司,我们是全球最大规模的 AI 计算公司。没有哪家 36000 到 38000 人的公司,能像我们一样专注于这一件事。

如果有一个 14 人的小团队,能够做得比我们更好,那我得承认,我的内心一定很痛苦,所以我们会继续努力做得更好。

阿笨:然而,你也相信规模,而获得规模的一种好方法,就是根据客户需求去销售产品,无论客户想要什么方式。

老黄: 对,完全正确,确实如此。我有我的偏好,但我们想确保我们能够按照客户的需求去服务每个客户。

六、游戏何去何从

阿笨: 接着这个话题聊下去,也许是相关的。

我问了我一个朋友,他的儿子坚持让我问这个问题。有些游戏圈的人认为,虽然你今天的主题演讲中只有10%讲的是 GeForce,但对我们依然很重要。

是不是还可以认为,GeForce对我们依然重要,因为这是一切的基础,我们做的还是 GPU?或者,我应该怎么告诉我朋友的儿子,关于 Nvidia和游戏的事?

老黄: 你看,我真希望我说过——没有 GeForce,RTX PRO 做不出来,没有 GeForce,就没有 Omniverse,任何我们看到的视频里的像素都离不开 GeForce,机器人也做不出来,没有 GeForce,Newton 也无法实现。

所以,GeForce 本身在 GTC 上不那么突出,是因为 GTC 更侧重高性能计算、企业级应用和 AI 等领域。

我们为游戏开发者举办了单独的大会,所以每次在 GTC 演讲时,我总觉得有些产品发布并不那么核心,虽然在 GTC 的听众群体中,可能不完全适合,但他们也明白,GeForce在我们做的一切工作中扮演着至关重要的角色。

阿笨: 是不是有些游戏玩家,至今还没有完全意识到,GeForce 现在远远不止是图形渲染引擎这么简单?

老黄:(笑) 对,没错。正如我今天说的,我们只渲染 1/10 的像素,这个数字非常令人震惊。假设我给你一个拼图,只给你 1/10 的拼块,其他的拼块我根本不给你,你必须自己把它拼出来。

阿笨: 我有个新角度,可以将游戏与其他业务联系起来。你刚才说过,你很有纪律性地保持各个领域的分离,且能够将它们分开管理,软件也能处理好这些。

这听起来有点像 Windows 上的驱动问题,老实说,这就是你们的一项核心技能。

老黄: 是的,驱动程序太低级了,涉及的内容太多,寄存器registers太多,而““驱动抽象driver abstraction”实际上是一次革命,微软在这方面发挥了重要作用。如果没有驱动的概念concept of a driver,Windows 就不会有今天的地位。它创造了一个 API 抽象层abstraction of an API,而在硬件下面可以有较大的变化。

我们现在的驱动程序是开源的,坦白说,我并没有看到很多人对此做出贡献。原因很简单:一旦我推出了新的 GPU,上一个驱动的工作几乎就被抛弃了。

所以,没有像 Nvidia 这样庞大的工程师团队,别人很难做这件事。但如果我们为每一款 GPU 优化每个驱动程序,并与之配套,就能创造出一个完美的隔离层isolation layer,一个抽象层an abstraction layer,无论是 CUDA 还是 DirectX,开发者都可以在其之上进行开发。

阿笨: 这就是我给我朋友儿子的答案,我在前面不得不问你关于政府的事,你也为你的观点提供了很好的、充满热情的辩护,但当我问到关于游戏驱动的问题时,你的眼睛真的亮了起来。

老黄: 哦,真的吗?

阿笨: 所以我觉得一切都很好。

老黄: great,其实我真的很喜欢 GeForce。

阿笨: 这就是面对面交流的好处,老黄,非常感谢你。

来源:老夏看商业一点号

相关推荐