锁定数万亿美元赛道,解读英伟达转型AI基础设施的三大关键战略!

360影视 欧美动漫 2025-05-20 08:37 2

摘要:从GPU到AI基础设施,英伟达的战略眼光早已超越了系统供应商、数据中心方案提供商,锁定了数万亿美元价值的AI基础设施行业。 在Computex2025开幕演讲中,英伟达CEO黄仁勋开门见山地宣称,英伟达在实现从GPU到AI基础设施的转型。 黄仁勋不无调侃地说起

从GPU到AI基础设施,英伟达的战略眼光早已超越了系统供应商、数据中心方案提供商,锁定了数万亿美元价值的AI基础设施行业。 在Computex2025开幕演讲中,英伟达CEO黄仁勋开门见山地宣称,英伟达在实现从GPU到AI基础设施的转型。 黄仁勋不无调侃地说起刚刚创办英伟达时的愿景,当时,他认为公司所面临的市场很巨大,是价值3亿美元的芯片行业。而后来看到,数据中心是价值1万亿美元的机会。 随着AI发展到今天,不论是定位于生产token的“AI工厂”或是AI基础设施企业,所面临的都是数万亿美元的价值。 “我向大家保证,10年后,你们再回首时,会发现AI已经融入一切,我们也需要AI无处不在。就像互联网、电力,这就是我们今天所构建的‘工厂’,它不像过去的数据中心,而是AI工厂”,黄仁勋强调。

英伟达的“来时路”和“未来途”黄仁勋表示,当天的主题演讲,虽然90%的内容都不是GeForce,但都与GeForce有关。 正是Geforce 系列奠定了英伟达在图形处理领域的地位,并将CUDA推向了世界。他主题演讲中所展现的视频,仅有10%的像素经过渲染,其余90%都由AI推测完成,也就是英伟达有名的DLSS神经渲染技术。 GeForce将AI推向了世界,AI也彻底改变了GeForce。 如果说GeForce是英伟达的“来时路”,那么,AI基础设施正是英伟达努力抵达的“未来途”。通往AI基础设施的重大战略动向黄仁勋在Computex主题演讲上介绍了一系列重大进展,包括Blackwell GB300、RTX Pro 系列服务器、Omniverse 数字孪生技术、开源人形机器人Isaac Groot N1.5 平台等等。不过,我们着重关注一下英伟达在通往AI基础设施这个目标的重大战略动向,主要包括:NVLink Fusion、Grace Blackwell系统和DGX Cloud Lepton平台。NVLink Fusion:打开英伟达AI生态系统,瞄准AI工厂规模化需求NVLink作为英伟达专有的高速互连技术,一直是其AI系统性能优势的关键差异化因素。最新宣布的NVLink Fusion,则可以说是进一步打开了英伟达生态的大门,拓展至合作伙伴半定制的AI基础设施解决方案中。 黄仁勋解释了如何将NVLink Fusion与其他公司的定制ASIC集成:"现在,我们使你能够在计算层面上进行混搭。这就是你使用定制ASIC所做的事情。我们有很棒的合作伙伴,他们正在与我们合作,将你的专用TPU、专用ASIC或专用加速器集成到大规模系统中。我们创建了一个NVLink芯片组,基本上是一个直接靠近你芯片的交换机。也有IP可用于集成到你的半定制ASIC中。然后,它可以直接放入计算板中,融入英伟达的AI超级计算机生态系统。" 这也意味着,即使用户的AI基础设施中不全是英伟达的产品,可能有其他的CPU、ASIC等,通过NVLink芯片组,或是IP集成的方式,都可以使用NVLink基础设施和生态系统。 MediaTek、Marvell、Alchip Technologies、Astera Labs、Synopsys 和 Cadence 是首批采用 NVLink Fusion 的厂商,可支持定制化芯片纵向扩展(Scale-up)以满足模型训练和代理式 AI 推理等要求严苛的工作负载的需求。 使用 NVLink Fusion,富士通和 Qualcomm CPU 还可与 NVIDIA GPU 进行整合,以构建高性能的 NVIDIA AI 工厂。 藉由NVLink Fusion开放生态系统,是英伟达非常明智的一步棋,它正是瞄准了AI工厂的规模化需求,以及异构计算的多样化需求,通过发挥其性能优势和生态粘性,形成超大规模集群支持,扩大AI工厂的应用边界,打造其AI基础设施的不可替代性。

Grace Blackwell实现“巨型计算机”愿景,支撑AI推理范式升级新的计算架构Grace Blackwell——是英伟达通往AI基础设施的重要桥梁。 黄仁勋说:"过去三年,我们一直在开发一个新的计算机系统,使我们能够进行推理时间扩展,或者说极快地思考。因为当你思考时,你实际上是在你的头脑中生成大量的'tokens',生成大量的想法,并在产生答案之前在大脑中进行迭代。所以,过去的一次性AI现在将变成思考AI、推理AI、推理时间扩展AI,这将需要更多的计算。" Grace Blackwell——正是为了应对AI推理时间扩展的挑战而设计的。 Grace Blackwell系统有两大能力非常关键:scale up和scale out。黄仁勋解释了这两个概念的区别:"scale up意味着将一台计算机变成一台巨型计算机;scale out是将一台计算机连接到多台计算机,让工作在多台不同的计算机上完成。scale out很容易,scale up极其困难。因为建造超越半导体物理极限的更大计算机是极其困难的,这正是Grace Blackwell所做的。” 传统计算架构由于受限于芯片制程、散热和互联带宽,无法通过简单堆叠硬件提升性能。而Grace Blackwell通过创新的芯片设计和NVLink技术,将单机算力推向了新高度。 据介绍,Grace Blackwell 已全面投入生产,并于2月开始交付。英伟达将于今年第三季度推出GB300硬件系统,配备升级版Blackwell芯片,其推理性能提升了1.5倍,HBM内存容量增加了1.5倍,网络连接能力翻倍,整体性能都得到加强。 对于打造AI基础设施这个宏图愿景来说,Grace Blackwell具有技术和商业的双重意义:技术方面,它突破单机算力极限,实现了“巨型计算机”愿景,支撑AI从预测到思考的范式升级;商业方面,它将继续帮助英伟达锁定超大规模客户,与合作伙伴共建以Grace Blackwell为核心的AI基础设施。

DGX Cloud Lepton平台:将全球开发者与数万颗GPU连接起来随着英伟达逐年高涨的财报,其GPU的安装基础也越来越遍布全球。这其中有一个价值闭环可以思考一下:GPU安装基数越大,参与其中的开发人员就越多;软件生态发展,会吸引更多开发者主动构建针对英伟达GPU的加速库,丰富的库和工具链使开发者能够快速部署高性能AI应用;当开发者通过库实现更复杂的模型,用户对算力的需求呈指数级增长,将会推动更多GPU部署或是升级至最先进的GPU产品。 你是否注意到了这个闭环中最核心的环节?没错,就是开发者。对于英伟达构建全球AI工厂、打造全球AI基础设施的宏大愿景中,开发者是一个不变的核心。 在英伟达的多个产品使命中,DGX Cloud的目的是让全球开发者能够无缝连接所有计算资源。而当前,开发者面临的挑战在于:如何快速获取、发现和准备算力,并实现跨多个云服务商的工作负载。 为此,英伟达最新推出了DGX Cloud Lepton平台,这是一个能够将全球开发者与数万颗GPU连接起来的计算平台。这些GPU可从全球云服务提供商网络获取,用于构建代理和物理AI应用程序。 DGX Cloud Lepton平台提供跨开发、训练和推理的统一体验,开发者可以直接通过市场从参与的云服务提供商购买GPU容量,或自带计算集群,提高了生产力和灵活性。它也支持在多云和混合环境中以最小的操作负担部署AI应用,使用集成服务进行推理、测试和训练工作负载。并且,开发者可以快速访问特定区域的GPU资源,确保遵守数据主权法规,并满足敏感工作负载的低延迟要求。 包括CoreWeave、Crusoe、Firmus、富士康(Foxconn)、GMI Cloud、Lambda、Nebius、Nscale、软银(Softbank Corp.)和Yotta Data Services在内的NVIDIA云合作伙伴(NCPs),将在DGX Cloud Lepton市场上提供基于NVIDIA Blackwell架构及其他NVIDIA GPU的算力资源。 黄仁勋表示:“DGX Cloud Lepton将全球GPU云服务商与AI开发者连接在一起。我们与NCPs共同打造的行星级AI工厂,将成为未来AI创新的核心基础设施。” 正如黄仁勋所介绍,DGX Cloud Lepton是一个典型的以AI为核心的软件平台,通过智能化能力使资源访问和部署变得无缝化,并支持在全球范围内自动扩展工作负载。 此外,开发者可以按需选择部署区域——例如,若需低延迟的推理服务,可选择靠近用户的区域。这种跨云编排能力此前一直是开发者的痛点,而该平台的目标正是简化这一流程。

写在最后构建全球AI工厂,是英伟达近年来携手云合作伙伴不断推进的一个重大举措,本质上来看,这也标志着从传统数据中心向专为AI工作负载设计的基础设施的根本转变。 在这个宏大蓝图中,英伟达需要对很多产品进行规模化、标准化的探索,才能构筑全球AI基础设施这个牢固的底座。比如CUDA、NVLINK Fusion、DGX Cloud Lepton、以及作为重要支撑的Grace Blackwell,还有本文没有展开介绍的高性能网络、各种丰富的软件库、工具等等,只有所有这些因素形成一个有机整体,才能构筑强有力的AI基础设施,真正通往未来AI。

来源:与非网

相关推荐