摘要:从GPU到AI基础设施,英伟达的战略眼光早已超越了系统供应商、数据中心方案提供商,锁定了数万亿美元价值的AI基础设施行业。 在Computex2025开幕演讲中,英伟达CEO黄仁勋开门见山地宣称,英伟达在实现从GPU到AI基础设施的转型。 黄仁勋不无调侃地说起
从GPU到AI基础设施,英伟达的战略眼光早已超越了系统供应商、数据中心方案提供商,锁定了数万亿美元价值的AI基础设施行业。 在Computex2025开幕演讲中,英伟达CEO黄仁勋开门见山地宣称,英伟达在实现从GPU到AI基础设施的转型。 黄仁勋不无调侃地说起刚刚创办英伟达时的愿景,当时,他认为公司所面临的市场很巨大,是价值3亿美元的芯片行业。而后来看到,数据中心是价值1万亿美元的机会。 随着AI发展到今天,不论是定位于生产token的“AI工厂”或是AI基础设施企业,所面临的都是数万亿美元的价值。 “我向大家保证,10年后,你们再回首时,会发现AI已经融入一切,我们也需要AI无处不在。就像互联网、电力,这就是我们今天所构建的‘工厂’,它不像过去的数据中心,而是AI工厂”,黄仁勋强调。
Grace Blackwell实现“巨型计算机”愿景,支撑AI推理范式升级新的计算架构Grace Blackwell——是英伟达通往AI基础设施的重要桥梁。 黄仁勋说:"过去三年,我们一直在开发一个新的计算机系统,使我们能够进行推理时间扩展,或者说极快地思考。因为当你思考时,你实际上是在你的头脑中生成大量的'tokens',生成大量的想法,并在产生答案之前在大脑中进行迭代。所以,过去的一次性AI现在将变成思考AI、推理AI、推理时间扩展AI,这将需要更多的计算。" Grace Blackwell——正是为了应对AI推理时间扩展的挑战而设计的。 Grace Blackwell系统有两大能力非常关键:scale up和scale out。黄仁勋解释了这两个概念的区别:"scale up意味着将一台计算机变成一台巨型计算机;scale out是将一台计算机连接到多台计算机,让工作在多台不同的计算机上完成。scale out很容易,scale up极其困难。因为建造超越半导体物理极限的更大计算机是极其困难的,这正是Grace Blackwell所做的。” 传统计算架构由于受限于芯片制程、散热和互联带宽,无法通过简单堆叠硬件提升性能。而Grace Blackwell通过创新的芯片设计和NVLink技术,将单机算力推向了新高度。 据介绍,Grace Blackwell 已全面投入生产,并于2月开始交付。英伟达将于今年第三季度推出GB300硬件系统,配备升级版Blackwell芯片,其推理性能提升了1.5倍,HBM内存容量增加了1.5倍,网络连接能力翻倍,整体性能都得到加强。 对于打造AI基础设施这个宏图愿景来说,Grace Blackwell具有技术和商业的双重意义:技术方面,它突破单机算力极限,实现了“巨型计算机”愿景,支撑AI从预测到思考的范式升级;商业方面,它将继续帮助英伟达锁定超大规模客户,与合作伙伴共建以Grace Blackwell为核心的AI基础设施。
DGX Cloud Lepton平台:将全球开发者与数万颗GPU连接起来随着英伟达逐年高涨的财报,其GPU的安装基础也越来越遍布全球。这其中有一个价值闭环可以思考一下:GPU安装基数越大,参与其中的开发人员就越多;软件生态发展,会吸引更多开发者主动构建针对英伟达GPU的加速库,丰富的库和工具链使开发者能够快速部署高性能AI应用;当开发者通过库实现更复杂的模型,用户对算力的需求呈指数级增长,将会推动更多GPU部署或是升级至最先进的GPU产品。 你是否注意到了这个闭环中最核心的环节?没错,就是开发者。对于英伟达构建全球AI工厂、打造全球AI基础设施的宏大愿景中,开发者是一个不变的核心。 在英伟达的多个产品使命中,DGX Cloud的目的是让全球开发者能够无缝连接所有计算资源。而当前,开发者面临的挑战在于:如何快速获取、发现和准备算力,并实现跨多个云服务商的工作负载。 为此,英伟达最新推出了DGX Cloud Lepton平台,这是一个能够将全球开发者与数万颗GPU连接起来的计算平台。这些GPU可从全球云服务提供商网络获取,用于构建代理和物理AI应用程序。 DGX Cloud Lepton平台提供跨开发、训练和推理的统一体验,开发者可以直接通过市场从参与的云服务提供商购买GPU容量,或自带计算集群,提高了生产力和灵活性。它也支持在多云和混合环境中以最小的操作负担部署AI应用,使用集成服务进行推理、测试和训练工作负载。并且,开发者可以快速访问特定区域的GPU资源,确保遵守数据主权法规,并满足敏感工作负载的低延迟要求。 包括CoreWeave、Crusoe、Firmus、富士康(Foxconn)、GMI Cloud、Lambda、Nebius、Nscale、软银(Softbank Corp.)和Yotta Data Services在内的NVIDIA云合作伙伴(NCPs),将在DGX Cloud Lepton市场上提供基于NVIDIA Blackwell架构及其他NVIDIA GPU的算力资源。 黄仁勋表示:“DGX Cloud Lepton将全球GPU云服务商与AI开发者连接在一起。我们与NCPs共同打造的行星级AI工厂,将成为未来AI创新的核心基础设施。” 正如黄仁勋所介绍,DGX Cloud Lepton是一个典型的以AI为核心的软件平台,通过智能化能力使资源访问和部署变得无缝化,并支持在全球范围内自动扩展工作负载。 此外,开发者可以按需选择部署区域——例如,若需低延迟的推理服务,可选择靠近用户的区域。这种跨云编排能力此前一直是开发者的痛点,而该平台的目标正是简化这一流程。
写在最后构建全球AI工厂,是英伟达近年来携手云合作伙伴不断推进的一个重大举措,本质上来看,这也标志着从传统数据中心向专为AI工作负载设计的基础设施的根本转变。 在这个宏大蓝图中,英伟达需要对很多产品进行规模化、标准化的探索,才能构筑全球AI基础设施这个牢固的底座。比如CUDA、NVLINK Fusion、DGX Cloud Lepton、以及作为重要支撑的Grace Blackwell,还有本文没有展开介绍的高性能网络、各种丰富的软件库、工具等等,只有所有这些因素形成一个有机整体,才能构筑强有力的AI基础设施,真正通往未来AI。来源:与非网