GPU,新竞赛!

360影视 2024-12-26 21:09 3

摘要:2022年下半年以来,随着ChatGPT的爆火,在加速计算和生成式AI的带动下,算力需求陡增。直到如今,生成式AI依然处于科技界的“顶流”位置,全球高科技公司纷纷涌入AI领域开展“军备竞赛”。

2022年下半年以来,随着ChatGPT的爆火,在加速计算和生成式AI的带动下,算力需求陡增。直到如今,生成式AI依然处于科技界的“顶流”位置,全球高科技公司纷纷涌入AI领域开展“军备竞赛”。

AI时代,最硬的“资本”不再是资金,而是算力。 有数据显示, 2023年全球AI算力需求同比增长超过300%,预计2024年将突破500%。

随之而来的,便是GPU需求量猛增,全世界大厂或创业公司都在各显神通解决“芯荒”难题。

据IDC的研究报告,2023年第四季度,全球GPU供应缺口高达30%。特别是高端AI专用芯片更是供不应求,中小企业的采购周期长达6-12个月。

Omdia数据显示,高端GPU芯片产能和流向集中在少数厂商手中,形成了供应链垄断。加之制造工艺的技术壁垒,中小企业很难直接采购到所需的高性能算力资源。即便勉强拿到资源,交付周期也普遍较长,严重制约了项目进度。

近日,马斯克的xAI宣布完成60亿美元C轮融资,旨在扩建全球最大AI超算,将扩展到20万张GPU。战略投资者英伟达和AMD也参与其中,并继续支持xAI快速扩展基础设施。GPU巨头不断押注新赛道的同时,也将进一步加剧寡头垄断GPU市场的“马太效应”。

另一方面,算力资源价格持续上涨。根据调研数据显示,GPU市场价格持续走高,算力成本已占到企业AI投入过半,同时还要持续承担运维人力和电费等开支。这无疑加重了企业的成本压力。

可见,面对爆发式增长的算力需求,企业和开发者往往陷入"买不到、买不起、用不好"的困境。

对此, GPU云算力 供应作为一种全新的解决方案,正在逐步成为业界的共识。

云端GPU赛道,呼声渐起

与传统的自建服务器或抢购紧俏的GPU芯片模式相比,通过云供应商获取算力具有诸多核心优势:

从经济效益角度来看: 云服务模式能够大幅降低初期投入。企业无需一次性购买服务器等硬件,而是根据实际需求,灵活调整租用规模,做到按需付费。与此同时,也无需承担运维成本,大幅提高了投资回报率。

在技术层面上: 云算力供应商能够提供即时交付、随时升级的资源配置,用户可以避免长期的采购周期。同时,专业的运维保障,也确保了计算资源的高可靠性和稳定性。

对于AI研发团队而言: 云算力租赁能显著提升工作效率。用户可以快速启动项目,免去环境配置的繁琐,集中精力做好算法创新。此外,标准化的开发流程也有助于提高研发质量。

“算力告急”——云服务商巨头从中嗅到了商机。

亚马逊AWS、微软Azure和谷歌云在2023年宣布了新的数据中心建设计划,预计到2025年,这些新增的数据中心将能提供超过2000万张GPU的算力能力。

市场研究机构Synergy Research Group公布的2024年第一季度云服务市场报告显示,相较于去年同期,今年第一季度全球企业云基础设施服务支出增长了21%,达到765亿美元。而亚马逊、微软、谷歌三大巨头则牢牢把控着云计算市场,市场份额依次为31%、25%、11%。

不难看到, GPU已经成为硅谷最热门的硬通货,引发了前所未有的AI投资大暴增。

据Omdia预计,2024年服务器支出中,约有43%投向了英伟达。其中,数据中心基础设施的前十大买家(包括新晋企业xAI和CoreWeave在内),占据了全球计算能力投资的60%。而全球科技公司在服务器上的支出,则将达到2290亿美元这一惊人数字。

在这个过程中,随着AI大模型的迅速崛起,计算的核心从CPU悄然转向了GPU。一场前所未有的技术革命正在酝酿,而这场革命的主角正是GPU。这并非简单的硬件升级,而是对整个云计算生态的重新定义。

GPU不仅仅是性能更强,它的出现实际上重新定义了云计算的底层逻辑。传统的云计算巨头都必须面对一个残酷的现实:过去依赖的技术优势正在被快速蚕食。更为重要的是,行业的新兴玩家正抓住这一机遇,迅速崛起,试图挑战这些巨头的霸主地位。

在算力资源高度紧张的背景下,越来越多的企业倾向于选择GPU云服务作为解决方案。

GPU云服务提供商凭借其专业的技术团队和先进的基础设施,能够为中小企业提供稳定、高效的GPU计算资源,帮助它们突破算力瓶颈。企业无需投入巨资购买硬件设备和建设机房,只需根据实际需求灵活选择云服务套餐,即可快速获得强大的计算能力,助力业务发展。

更为重要的是,GPU云服务具有高度灵活性和可扩展性,这种按需付费、灵活扩展的服务模式,无疑为中小企业的发展提供了强大的支持。

相较之下,大型云服务巨头虽然拥有最新款GPU,但高昂的价格、额外的进出流量费用,以及复杂的功能设置,都使得部署过程变得繁琐且成本不菲,这对初创型企业而言尤为不利。

云端GPU解决方案“呼声”最高, 切实地解决了开发者在GPU算力、成本效益、部署便捷性等方面的诸多痛点,为企业的快速发展提供了强有力的支持。

以云GPU提供商CoreWeave为例,其声称服务速度比传统云厂商快达35倍,成本低80%,延迟低 50%。作为首选云服务提供商已加入NVIDIA合作伙伴网络,而且还拿到了英伟达的投资,比起资金,英伟达还给了它一项更稀有的资源——GPU芯片。

过去一段时间来,云GPU服务正逐渐成为新的发展机遇,相关公司数量急剧增加。2023年全球GPU云市场规模为32亿美元,预计到2030年将增长至255亿美元,复合年增长率达到34.8%。

巨大的市场潜力下,英伟达、AMD等GPU大厂也在积极向该赛道布局。

GPU巨头,押注云端GPU

Nvidia力挺CoreWeave

CoreWeave的大火被看作是AI云颠覆传统云计算的一个开端。

和传统云计算厂商卖计算资源、存储空间和各种云服务不同,CoreWeave专注GPU云计算,特别是与AI领域的紧密联系。

据了解,CoreWeave是一家专门为企业级GPU加速工作负载提供云服务商。他们的Kubernetes原生基础设施专为机器学习、VFX渲染、像素流和批处理等计算密集型用例而构建。

CoreWeave创始人Brannin表示,CoreWeave的云不是简单地加上GPU然后让用户能够使用它。它其实是一个复杂的系统,像是一个大舞台的导演,管理着所有的资源和设备,让用户可以方便地访问和使用这些资源。

这和那些大公司的云不同,因为传统云主要是为了托管网站和存储数据,而CoreWeave是从头开始打造的,专注于运行AI和其他需要大量并行计算的任务。客观来讲,CoreWeave的产品体系覆盖了高性能计算的各个方面,从硬件资源到软件服务,让模型训练、托管、微调以及推理服务变得简单。

GPU加速将计算任务中高度密集的计算或数据并行部分转移给GPU。客户倾向于将提供更优化CPU工作负载的传统供应商与CoreWeave配对使用,因为CoreWeave针对GPU过程进行了优化,以提高效率、节省成本和可扩展性。

客户使用CoreWeave来租赁算力(通常是Nvidia GPU)来完成他们需要运行的各种工作负载。这使得他们不再需要拥有自己的专用硬件来运行应用程序,而是可以通过CoreWeave的后端云基础设施完成这一切。

除此以外,CoreWeave使用InfiniBand技术建立了高性能的网络,能够满足大规模数据处理和传输的需求,从而有助于AI产品更快速地发展和规模化。

总结来看,CoreWeave之所以是当下AI公司最具性价比的选择:一方面,CoreWeave提供了业内价格最低、最广泛的NVIDIA GPU系列选择,客户可以根据自己的工作负载选择合适的GPU,从而确保性能和成本的最优化。并且与其他云提供商不同,CoreWeave 在绝大多数用例中不收取区域间传输、工作站数据或出口等费用,这样客户就不用担心数据传输会花很多钱。

另一方面,CoreWeave提供了按需定价模式,意味着客户只需支付他们实际使用的资源费用,无需签订长期合同或做出任何承诺。这种灵活性使得客户能够根据自己的实际需求进行扩展或缩减,从而节省成本。这就不难解释,CoreWeave的云基础设施的速度会比通用公共云快35倍,成本却低了80%。

2023年4月,CoreWeave获得了来自英伟达的2.21亿美元B1轮融资。黄仁勋在业绩电话会点名“你会看到一大批新的 GPU 专业化云服务提供商”“最知名的当属CoreWeave,他们做得非常出色。”

更为关键的是,英伟达给CoreWeave提供了“无比抢手”的A100、H100等GPU芯片。去年8月,CoreWeave就将英伟达GPU作为抵押品,获得了另外23亿美元债务融资,资金将用于收购更多芯片,以及建设更多数据中心。

CoreWeave与英伟达的合作不仅仅是设备采购的关系,双方还在技术支持和资源整合方面深度协作。英伟达可以向CoreWeave提供定制版CUDA、专用优化芯片甚至专属的软件堆栈,确保客户能够发挥出每台GPU的最大效能。

这种深度绑定的合作,使CoreWeave在高性能GPU的供应和技术支持方面获得了优先级,从GPU采购、数据中心优化,到AI模型部署,向客户提供一站式解决方案,这也是其能够在短时间内吸引顶级客户的重要因素之一。

可以看到,CoreWeave这家从挖矿业务转型而来的公司,抓住了市场机遇,迅速崛起,成为AI行业的重要算力提供商。

2024年,CoreWeave公司官方预测年度营收约24亿美元,前两年分别是3000万和5亿,虽然体量上和AWS这些巨头相去甚远,但夸张的增长态势,已经不得不让所有人对这个新兴的行业侧目。

值得一提的是,在英伟达H100 GP的前十二大客户中,CoreWeave和Lambda Labs作为少有的初创公司赫然在列,他们与英伟达颇有渊源。

早在2023年H100芯片首推之际,英伟达就选择了CoreWeave和Lambda作为首批使用该芯片的公司。而且它们的融资过程中都可以发现英伟达的投资身影:2023年4月英伟达参与了CoreWeave 2.21亿美元B轮融资;2023年7月英伟达向Lambda Labs投资3亿美元。

此外,总部位于荷兰的AI基础设施公司Nebius Group 近日宣布,已与精选的机构和投资者达成最终协议,获得7亿美元融资,而在众多投资者中,英伟达赫然在列。

Nebius是一家人工智能基础设施服务商,主要为全球人工智能先驱进一步构建全栈人工智能基础设施,并提供大规模GPU集群、云平台以及面向开发人员的工具和服务。由于英伟达的投资,Nebius股价一度大涨,已达最近两年以来的最高价。

AMD投资GPU云端供应商Vultr

近日,云基础设施创企Vultr宣布完成3.33亿美元融资,估值达35亿美元。本轮融资由LuminArx Capital Management和AMD Ventures联合领投,这是该公司成立十年来首次进行股权融资。

Vultr以提供低成本虚拟服务器而闻名。目前,Vultr主要提供AMD和NVIDIA的GPU租赁服务,运营着32个数据中心的云平台网络,提供起价2.5美元/月的低成本实例服务。此外,公司还提供裸机服务器、Kubernetes平台等进阶基础设施选项,以及数据库等托管服务。今年早些时候,Vultr推出了AI推理服务,可根据用户需求自动调整AI模型的基础设施配置。

值得注意的是,Vultr本月在伊利诺伊州启用了一个由数千台AMD MI300X机器学习加速器驱动的AI超算集群。MI300X采用5纳米工艺制造的八个GPU芯片,配备192GB HBM3内存,使用Broadcom和Juniper Networks的以太网设备实现芯片互联。

此次融资也反映了AI基础设施市场的迅速升温。继CoreWeave获得230亿美元估值、Lambda筹集3.2亿美元后,AMD选择支持Vultr,显示了 芯片巨头正在通过生态系统合作伙伴加速布局AI云计算市场。 这一趋势预示着AI基础设施即服务可能成为下一个重要的云计算增长点。

此外,业界还涌现出了Paperspace、Runpod、Jarvis Labs、Vast.ai、Paperspace、GMI Cloud、Together AI等诸多GPU云服务提供商。这不仅反映了对该赛道未来增长潜力的信任,也显示了云计算行业的持续增长趋势。

这些企业的迅速崛起,也正是抓住了全球AI算力需求增长的市场机遇。随着生成式AI和大规模AI模型的广泛应用,对高性能算力的需求持续攀升。根据市场研究机构的数据显示,云计算市场预计将在未来几年内以每年超过20%的速度增长。而随着企业IT基础设施的数字化转型,GPU云服务商将成为市场不可或缺的组成部分。

换个角度来看,对于一家AI公司的大模型而言,退出训练阶段后,在产品上市的前两年内,商业化阶段的推理执行仍然至少需要百万个GPU,但目前市场的供给远不足够,这将是一个长期的挑战。

换句话说,未来不排除越来越多像CoreWeave、Vultr的公司出现,毕竟AI这股洪流的到来已经是个确定性的。

英伟达,试图从云服务市场分一杯羹

时势造英雄,每一次科技革命都会有新的弄潮儿脱颖而出,GPU巨头除了押注云端GPU赛道之外。英伟达还借着生成式AI浪潮,以其前期积累的GPU优势,加速向云计算市场迈进。

尤其是在云计算领域正遭遇瓶颈的当下,随着对AI解决方案的需求不断增长,云巨头正在重新考虑其战略。许多提供商不再仅仅依赖GPU,而是转向定制专用芯片,以提高性能、降低成本并满足客户不断变化的需求。

巨头们群狼环伺 ——微软、亚马逊自研AI芯片、谷歌打造最强TPU、OpenAI眉来眼去NPU...,这一转变不仅是为了填补GPU短缺留下的空白,更是重新定义云基础设施未来的战略举措。定制芯片还使超大规模企业能够重新思考如何实现性能、可扩展性和成本效益。

这些贡献半壁江山的客户,暂时在自研芯片方面虽尚未对英伟达产生威胁,但大家却都存在一个共识:“英伟达不会永远在大规模训练和推理芯片市场占据垄断地位。”

在此背景和趋势下,英伟达近几年来一直在做AI芯片的延伸投资,意图打造一个新的生态闭环产业链

除了扶持CoreWeave、Lambda等小规模云计算服务商之外, 英伟达也在自己造云。

在2023年3月的GTC 2023大会上,英伟达首次发布了云产品DGX Cloud,该服务基于英伟达DGX AI超级计算集群,每个DGX Cloud实例都配有8个H100或A100 GPU以及640GB内存,允许用户在云端租用计算资源,无需自己购买和维护昂贵的硬件设备。这使得开发者和研究人员能够更便捷地访问高性能计算资源,特别是针对深度学习和 AI 应用,该服务基于 Nvidia 的 DGX 系列超级计算机,这些计算机拥有强大的 GPU 和深度学习加速器,能够快速进行复杂的计算任务。

通过 DGX Cloud,英伟达租用亚马逊、微软、谷歌和甲骨文等头部云提供商带有GPU的服务器,然后再将这些服务器出租给自己的客户,这构成了Nvidia与自己最大客户间的复杂关系。面对这么霸道的协议,一开始 AWS誓死不从,但最后还是被迫接受了。

据悉,英伟达DGX云服务已经获得了一些大买家的青睐,如IT软件巨头ServiceNow、生物制药公司Amgen和保险公司CCC Intelligence Solutions。

有分析认为,英伟达选择将DGX Cloud托管在各家云服务商的云平台上的做法,表面看并没有和云厂商们站在完全的对立面。从英伟达的角度来看,在传统云提供商的数据中心内推出这种云服务是公平的。

本质上,英伟达DGX CLOUD就是一门云计算生意,英伟达还不必投入以数亿乃至数十亿美金建设自己的数据中心,利用自己GPU的议价权直接有了开展云计算业务的基础, 此举不可谓不妙。

但对云服务厂商而言,英伟达已经和云厂商客户形成了竞争态势。谁将因英伟达云计算支出增加收益,目前尚不清晰。但原本从亚马逊、微软、谷歌和甲骨文采购AI服务的客户,可能会倒向英伟达。

与此同时,AWS、微软和谷歌正加速向云客户出售或正在开发自己的AI服务器芯片,希望减少对英伟达芯片的依赖, 关系正变得越来越复杂。

另外还有报道称,英伟达的工程师利用他们对自己芯片的了解,对DGX Cloud服务器进行调优,使其性能优于其他云提供商的服务器。

已有客户表示已经注意到了DGX Cloud与其竞品之间的差异。据悉,与传统云提供商为客户提供的GPU服务器相比,DGX Cloud的性能非常高,而且售价也非常有竞争力。并且由于当前GPU服务器比较难找,一些公司正使用多种云提供商,尽可能多地获取它们的访问权。

在算力之外,英伟达的云服务还提供一整套AI解决方案。DGX Cloud上集成的AI Enterprise服务,是英伟达AI平台中的软件层,通过提供端到端AI框架和预训练模型,简化生产级AI的开发和部署。对比传统云厂商,DGX Cloud为用户提供软硬件一体的服务。同时,因为DGX Cloud跨多个云提供商运行,它可能会成为AI开发人员的一站式解决方案。

分析认为,尽管英伟达在云计算领域的竞争中仍然落后于现有巨头,但凭借其对GPU的深入了解和高性价比的产品,英伟达有望在未来赢得更多市场份额。

今年4月,英伟达还以7亿美元收购了人工智能工作负载管理初创公司Run:ai,用以补强DGX Cloud;今年中旬,英伟达再次宣布了一项高达90亿美元的投资计划,主要围绕着与亚马逊、微软、谷歌和甲骨文等主要云服务供应商的合作。

英伟达首席财务官科莱特·克雷斯在财报声明中表示,云计算投资将有助于为英伟达DGX Cloud提供支持。 身为AI淘金热的“卖铲人”,英伟达已不满足于只做硬件,试图从云服务市场分一杯羹。

英伟达是全球市值第三大的公司,也是云计算服务领域最大买家之一。此轮动作,或将改变云服务市场格局。

写在最后

市场研究机构Synergy Research Group公布的2024年第一季度云服务市场报告显示,相较于去年同期,今年第一季度全球企业云基础设施服务支出增长了21%,达到765亿美元。而众所周知,在云计算市场上,亚马逊AWS、微软Azure、谷歌云三大云巨头牢牢把控,市场份额依次为31%、25%、11%。

面对众多云计算市场的好手,曾经的一众挑战者纷纷暗淡收场。

与此同时,受制于英伟达的巨头们纷纷自研AI芯片的威胁。目前,虽然微软、亚马逊、甲骨文、特斯拉等都是英伟达GPU的大客户,但是,近几年这些“大金主”们纷纷自研AI芯片,谷歌的TPU系列,亚马逊的Inferentia和Trainium系列,以及微软今年被曝光的Athena芯片。

英伟达的各大“金主”希望减少来自英伟达的“GPU税”。

摩根士丹利估计,在云服务提供商推动下,定制AI芯片市场规模将从2024年的1200亿美元,增长到2027年的3000亿美元,增速将超过GPU市场。 TPU、定制芯片的崛起,让激烈的AI芯片市场的竞争格局正发生深刻变化。

作为GPU市场上的王者,黄仁勋 岂容他人蚕食英伟达的领地, 更难以接受AMD、英特尔以及中国厂商等竞品们的步步紧逼。

而进攻就是最好的防守,因此,英伟达通过下场布局云服务展开反击也就不难理解了。手握GPU巨大优势的英伟达,反而转向卖起了GDX cloud和AI软件服务,动的就是云厂商的蛋糕。

英伟达芯片产能“卡脖子”,投资云端GPU服务商、自有云业务抢客户,这些举措将成为英伟达布局云市场的重要棋子,逐步渗透并改变云计算市场格局。

传统云厂商曾凭借规模和技术积累建立起高墙深壕,但今天的AI计算市场,芯片和算力才是王道。在这个新的战场上,它们的护城河正在逐渐失去优势。英伟达正在凭借芯片王牌和多重布局,搅动云计算市场。

一场围绕着 GPU芯片与云计算的明争暗斗,正在科技界缓缓拉开大幕。

未来的云计算市场不再只是传统云巨头之间的直接竞争,而是云巨头、芯片供应商以及新兴玩家之间的多方博弈。这场博弈,最终或将决定市场未来十年的格局。

无论是哪个领域的龙头,最终都要尊重市场和产业结构的演变。而 能够洞察下一个风口并先行动的公司,才可能成为最后的赢家。

来源:智慧芯片一点号

相关推荐