谷歌对AI芯片并不饥渴,这或许是英伟达最大的风险所在

360影视 2025-01-23 19:51 2

摘要:自 2018 年或 2019 年左右以来,谷歌 ( NASDAQ: GOOG ) ( NASDAQ: GOOGL )一直在其搜索工作负载中运行 transformer。他们的大部分内部人工智能工作负载都是用他们的定制 TPU 完成的,而不是英伟达的 GPU,而

“这两家公司远远领先于其他公司。”

作者 | Eric Sprague

编译 | 华尔街大事件

自 2018 年或 2019 年左右以来,谷歌 ( NASDAQ: GOOG ) ( NASDAQ: GOOGL )一直在其搜索工作负载中运行 transformer。他们的大部分内部人工智能工作负载都是用他们的定制 TPU 完成的,而不是英伟达的 GPU,而他们的人工智能租赁业务则更多地依赖于英伟达GPU。英伟达在设计 AI 硬件系统方面是全球最好的,但许多投资者没有意识到谷歌遥遥领先于其他公司,而这两家公司远远领先于其他公司。谷歌对英伟达系统的需求很大,因为许多谷歌Cloud 租赁客户坚持使用它。然而,谷歌对英伟达系统的整体需求低于我们从其他超大规模企业那里看到的需求。谷歌并不像其他大型科技公司那样急需 英伟达硬件。这是因为 谷歌在定制硅片方面有着悠久的成功历史——特别是用于 AI 的 TPU。为了理解为什么大多数超大规模企业都迫切需要英伟达,而不是 AMD或英特尔 ( INTC ),我们必须看看人工智能的前景。12 月,SemiAnalysis 分析师 Dylan Patel 在半导体景观 BG2播客中向我们提供了大量有关谷歌为人工智能工作负载定制硅片的历史信息。根据播客中的内容进行一些代数运算,我们得出了全球人工智能工作负载的以下百分比:英伟达GPU:70%谷歌TPU:28.6%其他:1.4%在上述 AI 工作负载细分中,AMD 和 Intel 几乎无处可寻。大多数 AI 工作负载在 英伟达上运行的原因之一是他们使用 AI 来设计 AI 硬件。

英伟达引用了贝叶斯优化(“BO”)和强化学习(“RL”)等考虑因素,以推动芯片设计实现更好的功率、性能和面积(“PPA”)。AMD 并不是首选,因为他们的人工智能系统在开箱即用方面表现不佳。英特尔在 AI 硬件方面甚至比 AMD 落后更多。考虑到这些因素,当超大规模企业无法让自己的定制 AI 系统按预期工作时,他们迫切需要英伟达系统就变得更容易理解了。谷歌从英伟达购买的 GPU 很大一部分用于 谷歌Cloud 租赁,但谷歌也出租一些定制的 TPU。苹果 ( AAPL ) 是谷歌 TPU 租赁的 70% 的客户之一。他们的大部分 AI 租赁都使用 英伟达GPU,他们有许多知名客户,如丰田( TM ) 和斯巴鲁( OTCPK:FUJHY )。根据分析师 Patel 在 12 月 BG2 播客中的评论,AI 工作负载需要多个 GPU 芯片。英伟达将芯片联网在一起的架构称为 NVLink,而 英伟达的 Blackwell 系统因其作为一架 GPU 作为一个单元购买而受到广泛关注。几年前与博通合作,谷歌在 AI 所需的系统架构方面走在了时代的前面:谷歌在 2018 年也做了类似的事情,就是 TPU。现在他们无法独自完成这件事,他们了解软件。他们知道计算元素需要什么,但他们什么都不知道。他们无法完成很多其他困难的事情,比如封装设计、网络,所以他们不得不与 Broadcom 等其他供应商合作来完成这件事。由于谷歌对 AI 模型的发展方向有着统一的愿景,他们实际上能够构建这个系统——针对 AI 优化的系统架构。而当时,英伟达却在想,我们要走多远?分析师 Patel 在 12 月份的 BG2 播客中继续表示,谷歌在某些芯片之间的互连方面比英伟达做得更好:因此,谷歌设计它是为了 英伟达可能没有那么关注的事情,对吧。所以实际上,他们的芯片之间的互连可以说是具有竞争力的,即使在某些方面比 英伟达更好,在其他方面也比 英伟达差。因为他们一直在与 Broadcom 合作,你知道,Broadcom 是世界领先的网络公司,你知道,我们与他们一起制造芯片,自 2018 年以来,他们已经扩大了规模,对吧。英伟达最早在 Blackwell 上使用水冷技术,但谷歌在这方面已经走在了前面。此外,谷歌多年来一直专注于可靠性:谷歌引入水冷技术已经很多年了,对吧?英伟达刚刚意识到他们需要这一代水冷技术,而谷歌带来了英伟达 GPU 所不具备的可靠性。你知道,一个肮脏的秘密就是去问人们 GPU 在云端或部署中的可靠性率是多少。天哪,它们不是可靠的,但特别是在最初,你必须拿出 5% 左右。超大规模企业在定制 AI 硬件方面遇到的困难越多,他们就越需要英伟达。微软和 Meta 似乎是目前最需要帮助的企业之一,但亚马逊也同样脆弱。Irrational Analysis观看了 8 月份Hot Chips上关于 Microsoft Maia 的演示,并表示在超大规模厂商中,Microsoft Maia 在定制 AI 芯片方面排名垫底:在所有致力于定制 AI 加速器的超大规模企业中,微软排名垫底。在 12 月份的 BG2 播客中,Patel 谈到了苹果与博通(AVGO)合作制造芯片的情况,他表示,微软的定制 AI 硬件一直很失败,因此没有实现量产,而亚马逊定制的芯片至少具有良好的性价比:苹果公司并没有与博通公司合作生产整个芯片,但其中一小部分将由博通公司生产,对吧?你知道他们已经取得了很多胜利,对吧?现在这些都不会在 25 年上市,其中一些将在 26 年上市。嗯,你知道,这是一个定制的 ASIC,所以它可能会失败,不像微软那样好,因此永远不会有产量提升。或者它可能真的很好,或者至少你知道像亚马逊那样具有良好的性价比,它可以大幅提升,对吧?与微软一样,Meta 被描述为定制 AI 芯片方面的落后者。SemiAnalysis 的 Patel 将亚马逊的定制 AI 称为 Amazon Basics TPU,因为它相对于 英伟达来说很便宜,就像 Amazon Basics 浴巾相对于 Charmin 卫生纸来说很便宜一样。尽管亚马逊的定制 AI 芯片价格低廉,但 SemiAnalysis 12 月的一篇文章称,它还不具备竞争力。除了亚马逊正在与 Anthropic 合作开发的 400,000 芯片 Trainium 超级计算机外,我相信亚马逊在未来几年在推理方面比在训练方面有更大的潜力。与此同时,他们仍然严重依赖英伟达:到目前为止,由于硬件规格薄弱和软件集成不佳,亚马逊基于 Trainium1 和 Inferentia2 的实例在 GenAI 前沿模型训练或推理方面没有竞争力。随着 Trainium2 的发布,亚马逊进行了重大的方向调整,并最终在芯片、系统和软件编译器/框架级别提供具有竞争力的定制训练和推理芯片。需要明确的是,由于 Titan 和 Olympus 等内部模型失败,亚马逊仍处于危机模式。此外,虽然他们已经在定制AI 芯片的竞赛中稳居第二,仅次于谷歌,但他们仍然严重依赖 英伟达的产能。亚马逊的 Trainium2 并不是经过验证的“训练”芯片,大部分数据将用于 LLM 推理。亚马逊并没有为网络向博通支付高额利润。在内存方面,高带宽内存(“HBM”)的数据传输/存储速度比动态随机存取内存(“DRAM”)更快,而且他们没有为 HBM 支付高额利润。根据 Patel 在 12 月 BG2 播客中的说法,亚马逊可以避免效率低下,因为价格非常便宜:是的,它使用了更多的硅,是的,它使用了更多的内存,是的,网络在某种程度上与 TPU 相当,对吧?它是 6,是 4x4x4 Taurus,只是他们以较低效率的方式进行,你知道他们在有源电缆上花费了更多,对吧?因为他们在自己的芯片上与 Marvell 和 Al 芯片合作,而不是与网络领域的领导者 Broadcom 合作,然后他们可以使用无源电缆,对吧?正如我们上面所说,Amazon Basics TPU 价格便宜,并且每美元具有很大的内存带宽,但是根据 12 月份 BG2 播客的评论,他们的系统在其他方面有所欠缺:它为您提供市场上所有芯片中每美元最大的 HBM 容量和每美元最大的 HBM 内存带宽,因此,对于某些应用程序来说,使用它确实是合理的。所以这是一个真正的转变,就像,嘿,我们可能不能像 英伟达那样设计得好,但我们可以在封装上放更多的内存,对吧?现在,这只是一个向量,就像您知道这里有一个多向量问题一样。他们的网络远不如英伟达。他们的软件远不如英伟达。他们的计算元素远不如英伟达,但他们的每美元内存带宽更高。谷歌的一个估值风险是整体自由现金流 (FCF) 的下降。由于资本支出超过折旧额的幅度较大,我们预计这项投资将以多种形式获得回报,包括增加收入。我们必须对管理层在超额资本支出方面抱有一定信任,很难说我们需要在这方面有多大的耐心。分析师将服务、云和其他投资分开处理,因为它们的经济效益不同。遗憾的是,自由现金流没有细分到这个水平,但我们确实有其他细分数据。以下是考虑谷歌估值(百万美元)时会考虑的一些数字:

整体营业收入低于服务营业收入和云营业收入之和。这是因为其他投资部门的营业亏损以及 谷歌层面活动的营业亏损,2023 年 10-K 中对此进行了解释,具体如下:某些成本未分配给我们的部门,因为它们代表谷歌层面的活动。这些成本主要包括以人工智能为重点的共享研发活动,包括我们通用人工智能模型的开发成本;企业计划,例如我们的慈善活动;企业共享成本,例如某些财务、人力资源和法律成本,包括某些罚款和和解。谷歌层面活动的大部分损失应归咎于服务集团,为了简化估值过程,把所有损失都归咎于服务集团。因此,调整后的 TTM 服务营业收入为 1044 亿美元,即他们报告的 1152 亿美元减去 Alphabet 层面活动损失的 108 亿美元。服务部门的价值约为其调整后的 TTM 营业收入的 19 到 21 倍,约为 19850 亿美元至 21900 亿美元。云计算部门的年营业收入为 78 亿美元,我认为该部门的价值是这个数额的 20 到 22 倍,也就是 1550 亿到 1700 亿美元。其他押注领域包括 Waymo、量子计算和其他不同的业务。这些领域潜力巨大,但目前运营亏损严重。我猜这个领域价值约 500 至 750 亿美元。以下是我对各部分估值的总结:19850 亿美元至 21900 亿美元的服务1550 亿美元至 1700 亿美元云计算500 亿至 750 亿美元的其他赌注总计 21900 亿美元至 24350 亿美元根据 3Q24 10-Q,我们拥有 58.43 亿股 A 股和 8.64 亿股 B 股,总价值为 67.07 亿美元。乘以 1 月 21 日 GOOGL 股价 198.05 美元,总价值为 13.28 亿美元。此外,我们拥有 55.34 亿股 C 股,乘以 1 月 21 日 GOOGL 股价 199.63 美元,总价值为 11.05 亿美元。将这些加在一起,我们的市值为 24.33 亿美元。市值接近我的估值范围的上限,对于希望持有至少三年的长期投资者来说,这只股票值得持有。

来源:新浪财经

相关推荐