摘要:2025年NVIDIA GTC大会于3月17日至21日在美国加州圣何塞举办,CEO黄仁勋宣布AI技术向代理式与具身AI演进,并推出两大GPU架构:Blackwell Ultra采用HBM3E内存(288GB)和72-GPU集群,算力达15PFLOPS(FP4)
2025年NVIDIA GTC大会于3月17日至21日在美国加州圣何塞举办,CEO黄仁勋宣布AI技术向代理式与具身AI演进,并推出两大GPU架构:Blackwell Ultra采用HBM3E内存(288GB)和72-GPU集群,算力达15PFLOPS(FP4),推理速度较前代提升11倍,1.4kW功耗通过动态电源管理优化;Rubin架构基于台积电3nm工艺,算力50PFLOPS(FP4),配备HBM4内存(288GB/75TB/s),结合Vera CPU性能达Blackwell的3.3倍,2026年NVL144方案将带宽提至13TB/s,2027年NVL576更以4.6PB/s带宽实现14倍性能跃升,同时支持量子算法与硅光技术,推动数据中心及AI科学融合。
中信建投证券电子、人工智能、计算机研究团队推出【英伟达GTC 2025亮点解读】:
GTC 2025发布Blackwell Ultra,并更新Rubin架构细节
英伟达GTC 2025召开,发布新一代Vera Rubin平台
GTC 2025召开,AI产业链持续繁荣
01 GTC 2025发布Blackwell Ultra,并更新Rubin架构细节
半导体:英伟达于GTC 2025上发布Blackwell Ultra,并展示下一代Vera Rubin架构的细节,芯片架构持续进化,算力竞争白热化。
2025年3月17日至21日,英伟达于美国加州圣何塞举办年度开发者大会GTC 2025,CEO黄仁勋发表主题演讲。随着新算力平台的硬件性能持续跃升,英伟达通过将进一步巩固其在AI算力基础设施的领先地位。
基于Blackwell Ultra架构的B300 GPU在GTC 2025上首度发布。B300 GPU配备288GB HBM3e内存,是B200的1.5倍,FP4稠密算力达到15 PFLOPS。Blackwell Ultra NVL72平台预计将于2025年下半年推出,将配备72颗GB300芯片,可提供1.1 EFLOPS的稠密FP4算力用于推理,以及0.36 EFLOPS的FP8算力用于训练,算力达到GB200 NVL72的1.5倍。
Vera Rubin将是下一代平台,包括名为Vera的CPU和名为Rubin的GPU。Vera CPU的性能是Grace CPU的2倍,具有88个定制的Arm核心,176个线程。Rubin GPU的显存将升级至HBM4,所支持的互联带宽技术将升级至NVLink 6。Vera Rubin NVL144将于2026年下半年推出,拥有75 TB,带宽13TB/s的HBM4显存,可提供3.6 EFLOPS的FP4算力用于推理,以及1.2 EFLOPS的FP8算力用于训练,算力达到GB300 NVL72的3.3倍。而更强的Rubin Ultra(单颗芯片中封装4颗计算Die)将于2027年下半年推出,显存升级到HBM4e,所支持的互联带宽技术升级至NVLink 7。Rubin Ultra NVL576则将于2027年下半年推出,拥有365 TB,带宽4.6 PB/s的HBM4e显存,可提供15 EFLOPS的FP4算力用于推理,以及5 EFLOPS的FP8算力用于训练,算力达到GB300 NVL72的14倍。Rubin过后,下一代的Feynman架构将于2028年面市。
风险提示:
未来中美贸易摩擦可能进一步加剧,存在美国政府将继续加征关税、设置进口限制条件或其他贸易壁垒风险;宏观环境的不利因素将可能使得全球经济增速放缓,居民收入、购买力及消费意愿将受到影响,存在下游需求不及预期风险;大宗商品价格仍未企稳,不排除继续上涨的可能,存在原材料成本提高的风险;全球政治局势复杂,主要经济体争端激化,国际贸易环境不确定性增大,可能使得全球经济增速放缓,从而影响市场需求结构,存在国际政治经济形势风险。
报告来源
证券研究报告名称:《英伟达GTC 2025召开,发布新一代Vera Rubin平台》
对外发布时间:2025年3月23日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
刘双锋 SAC编号:S1440520070002
何昱灵 SAC编号:S1440524080001
02 英伟达GTC 2025召开,发布新一代Vera Rubin平台
2025年NVIDIA GTC大会于3月17日至21日在美国加州圣何塞举办,CEO黄仁勋宣布AI技术向代理式与具身AI演进,并推出两大GPU架构:Blackwell Ultra采用HBM3E内存(288GB)和72-GPU集群,算力达15PFLOPS(FP4),推理速度较前代提升11倍,1.4kW功耗通过动态电源管理优化;Rubin架构基于台积电3nm工艺,算力50PFLOPS(FP4),配备HBM4内存(288GB/75TB/s),结合Vera CPU性能达Blackwell的3.3倍,2026年NVL144方案将带宽提至13TB/s,2027年NVL576更以4.6PB/s带宽实现14倍性能跃升,同时支持量子算法与硅光技术,推动数据中心及AI科学融合。
2025年NVIDIA GTC大会于3月17日至21日在美国加州圣何塞举办,吸引了2.5万名现场参会者和30万名线上观众,成为全球AI领域的“超级碗”级盛会17。大会主题聚焦“物理AI、代理式AI和科学发现”,覆盖1000多场会议、2000位演讲嘉宾及近400家参展商,涉及气候研究、医疗健康、自动驾驶等跨领域议题。英伟达CEO黄仁勋于北京时间3月19日凌晨1点(太平洋时间3月18日上午10点)发表开幕演讲,强调AI技术正从“生成式AI”向“代理式AI”(Agentic AI)及“具身AI”(Physical AI)演进,并宣布多项重磅产品与战略。
新一代GPU架构:Blackwell与Rubin
BlackwellUltraGPU相比于上一代B200GPU性能提升了50%,约为15PFLOPS(基于低精度的四位浮点数格式FP4标准),内存上则搭载了业内最先进的HBM3E,从192GB升级到了288GB。推出两款集成方案:GB300NVL72(72GPU集群)和HGXB300NVL16(8GPU系统),推理速度较Hopper架构提升11倍。尽管热设计功耗(TDP)高达1.4kW,但通过NVLink72互联技术和动态电源管理,BlackwellUltra在单位功耗下的性能效率显著提高,尤其适用于复杂AI推理任务。BlackwellUltraNVL72平台将于2025年下半年上市。根据黄仁勋透露,四大云服务商(AWS、Azure等)已采购360万片Blackwell芯片,远超Hopper的130万片,预计2028年数据中心资本支出达1万亿美元。
RubinGPU推理速度达50PFLOPS(FP4标准),是Blackwell的2.5倍,支持288GBHBM4内存,带宽提升至75TB/s。结合Vera定制CPU(基于Olympus核心设计),其整体性能为GB300NVL72的3.3倍。采用台积电3nm工艺和CoWoS-L封装,集成双逻辑芯片设计,首次引入HBM4内存堆叠技术,功耗控制优化至1.8kWTDP。配备1.6T网络接口与ConnectX9网卡,支持NVL144/NVL288高密度机架方案,为百万级GPU集群提供低延迟互联。
VeraRubinNVL144将于2026年下半年推出,拥有75TB带宽13TB/s的HBM4内存,带来3.3倍于上面介绍的GB300NVL72的性能。而更强的RubinUltraNVL576将于2027年下半年推出,拥有365TB带宽4.6PB/s的HBM4e内存,带来14倍于GB300NVL72的性能。。聚焦量子计算融合与硅光技术,Rubin将支持英伟达加速量子研究中心(NVAQC)的算法开发,同时推动CPO(共封装光学)技术在数据中心的应用。
硅光网络交换机与机器人模型
英伟达推出了两款基于光电共封装技术(Co-Packaged Optics, CPO)的硅光交换机:
Spectrum-X:基于以太网协议,兼容通用企业网络,适合灵活扩展的数据中心环境;Quantum-X:基于InfiniBand协议,专为高性能计算集群设计,优化低延迟与高吞吐量需求。这两款硅光网络交换机新品是英伟达首次利用“光电共封装技术”(co-packaged optics, CPO)将光通信直接集成到交换机上,推出的商用化硅光交换机产品。NVIDIA Spectrum-X硅光子网络交换机提供了多种配置,包括128个800Gb/s端口或512个200Gb/s端口,总带宽为100Tb/s,以及512个800Gb/s端口或2048个200Gb/s端口,总吞吐量为400Tb/s。NVIDIA Quantum-X硅光子网络交换机基于200Gb/s SerDes提供了144个800Gb/s InfiniBand端口,并采用了液冷设计,有效地冷却板载硅光子学。与上一代产品相比,新产品为AI计算结构提供了2倍的速度和5倍的可扩展性。
此前英伟达的交换机产品的光通信部分主要为“外挂式”,依赖从Finisar和Lumentum等外部供应商采购的标准化模块。硅光交换机的推出解决了传统数据中心在扩展性、能耗和信号传输效率上的瓶颈,支持AI训练与推理任务的超大规模并行计算,尤其适用于多模态模型和Agentic AI的复杂需求。
在2025年GTC大会上,英伟达发布了全球首款开源人形机器人基础模型Isaac GR00T N1,标志着人形机器人技术迈入新阶段。GR00T N1的研发依托傅利叶人形机器人GR-1的预训练数据,结合大规模网络数据(如Ego4D)、合成轨迹数据(如DexMimicGen)及真实硬件实操数据,确保模型在物理环境中的实用性。此外,英伟达通过Hugging Face平台开源该模型,开发者可自由定制并适配不同机器人硬件,显著降低开发门槛。配套工具链Simulation Frameworks进一步加速开发流程,支持从仿真到实体机器人的无缝迁移,为工业与商业应用奠定基础。英伟达联合谷歌DeepMind、迪士尼等巨头推出Newton物理引擎,专注于高精度机器人动作模拟与训练优化。例如,迪士尼展示了搭载GR00T N1的机器人原型Blue,其自然行走与互动能力引发关注,未来计划用于娱乐场景的智能角色开发。在工业领域,现代汽车、梅赛德斯-奔驰已通过Omniverse Mega蓝图模拟GR00T N1优化产线效率,减少物理测试成本。
风险提示:北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;公司生产和交付延期,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。
报告来源
证券研究报告名称:《英伟达GTC 2025召开,发布新一代Vera Rubin平台》
对外发布时间:2025年2月23日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
于芳博 SAC 编号:S1440522030001
辛侠平 SAC 编号:S1440524070006
03 GTC 2025召开,AI产业链持续繁荣
GTC 2025召开,英伟达重磅发布多款产品和技术,通过提升硬件性能和软件效率加速AI产业链落地;近期国内外模型加速迭代,覆盖多模态与推理等多种技术路径,高性能、低成本的特点有望促进端侧AI、通用/垂直应用的涌现;继阿里之后,腾讯、联通、移动相继发布24年报,且对于25年AI资本开支均相对乐观,将为AI产业链构建坚实底座。
GTC 2025召开,AI产业链持续繁荣
2.1 GTC 2025召开,Agentic AI时代已至
2025年3月19日,GTC 2025开幕,英伟达CEO黄仁勋发表主题演讲,重磅发布Blackwell Ultra服务器、Rubin下一代计算架构、Dynamo推理操作系统、CUDA-X全栈加速库、Groot N1人形机器人模型等一系列产品和技术,全面展示英伟达从硬件、软件到生态的AI全栈能力:
Agentic AI时代已至,推理需求持续爆发。AI已历经从“检索式”到“生成式”的过程,目前正向“自主式”发展。其中,自主智能(Agentic AI)具备多模态感知、逻辑推理和工具调用能力,将通过“思维链”(chain of thought)、“最佳N”(best of N)、“一致性检查”(consistency checking)等技术生成海量推理Token,计算量将至少达到过去的100倍(token消耗量增加10倍 X 计算速度也提升10倍)以上。以通用模型Llama3.3和推理模型DeepSeek R1对比为例,在面对复杂问题如“婚礼座位规划”时,推理模型生成的token超过8000个,是传统LLM模型不到500个的16倍。据黄仁勋预测,受推理模型驱动,AI数据中心建设投资将很快达到万亿美元规模。
Blackwell领衔能效革命,Rubin与CPO突破规模极限。硬件端,英伟达发布多项技术突破。其中,将于2025年下半年发布的Blackwell Ultra NVL72为AI推理时代专门定制,较前一代产品GB200 NVL72的AI性能提升了1.5倍。将于2026年推出的Rubin架构机柜则包括Vera Rubin NVL144和Rubin Ultra NVL576两个版本,FP4精度的推理算力分别达到3.6ExaFLOPS和15ExaFLOPS,为Blackwell Ultra NVL72的3.3倍和14倍。而在CPO领域,英伟达宣布了Spectrum-X和Quantum-X两款硅光共封芯片,以及对应的3款交换机产品,相比传统交换机能耗降低3.5倍,部署效率提升1.3倍,网络扩展弹性达到10倍以上。
Dynamo优化推理模型部署,CUDA-X加速全行业AI渗透。软件层面,英伟达积极推进推理模型部署、行业渗透和Agent落地。其中,Dynamo是专为推理、训练和数据中心加速构建的开源软件,能够作为AI数据中心的操作系统,通过动态资源分配、多级并行、KV缓存优化等多种技术,大幅提高计算效率。如果将Dynamo和最新Blackwell芯片搭配,同功耗下AI推理速度可以提高40倍。CUDA-X则是覆盖工业、通信、生物医药等不同垂直领域的软件加速库,助力千行百业AI落地。截止目前,CUDA开发者超600万,加速库及模型数量突破900个。此外,英伟达还展示了Llama Nemotron 系列推理模型,并推出AI Agent模板NVIDA AIQ,帮助开发者快速部署Agent。
Omniverse与Groot N1重塑物理AI。在具身智能领域,英伟达通过Omniverse数字孪生平台和Cosmos具身智能基础模型合成数据,创造虚拟环境,生成闭环训练,降低机器人开发周期。基于Omniverse+Cosmos的框架,英伟达微调训练了专用于人型机器人的开源基础模型Isaac GR00T N1,其采用双系统架构,分别用于快速反应和慢速思考,能够使机器人轻松地操纵常见物体并协同执行多步骤序列。目前,英伟达已经与Google DeepMind、迪士尼合作开发了Newton物理引擎,并将Isaac GR00T N1作为底座驱动了迪士尼BDX机器人的活动。此外,Omniverse+Cosmos还能够用于自动驾驶领域,帮助自动驾驶汽车更稳健地应对复杂场景。
我们认为,英伟达从硬件入手,逐步向行业软件生态和Agent切入,全面加速AI产业链发展,其中
2.2 国内外模型加速迭代,多模态与推理并进
DS爆火以来,国内外AI迭代进程仍在加速,本周Google、OpenAI、腾讯等大厂相继更新模型:
Google密集上线模型功能,优化用户体验。继开源Gemma 3-27B模型以超小尺寸击败DeepSeek v3、o3-mini等以来,Google连续上线模型性能。3月13日,谷歌正式推出集文本、图像、视频多模态生成能力于一身的Gemini 2.0 Flash Experimental模型,能够以语音描述要求模型进行修图、构图,还支持生成搭配插图的个性化故事;3月14日,谷歌免费开放个人AI研究助手DeepResearch功能,当用户提出问题后,模型会类似Agent对目标进行拆解、规划、搜索、输出,最终生成一篇完整的研究报告;3月17日,谷歌则上线Personalization功能,在用户登录谷歌账户后,Gemini能够根据用户的过往搜索记录,生成针对性、个性化的回答,将AI与搜索生态相结合。
OpenAI音频模型上新,助力用户构建语音Agent。3月21日,OpenAI 宣布在API中推出全新音频模型,包括语音转文本模型gpt-4o-transcribe及其mini版本,以及文本转语音模型gpt-4o-mini-tts。其中,两款语音转文本模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper模型,尤其在英语、西班牙语等多种语言上表现突出,transcribe定价与Whisper保持一致($0.006/min),mini价格减半($0.003/min);而文本转语音模型则支持开发者预设多种语音风格,定价每分钟0.015美元。直播上,OpenAI 还展示了通过音频模型构建的AI Agent案例,当用户询问最近订单时,系统做出流畅回应并准确提供了订单号。
腾讯混元推出深度思考模型T1正式版。3月21日晚,腾讯推出自研深度思考模型混元T1正式版,并在腾讯混元和腾讯云官网开放体验。性能方面,混元T1 在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识及竞赛级数学、逻辑推理的公开基准测试中,达到业界领先水平;成本方面,混元T1沿用了Turbo S的创新架构,全球首创将Hybrid-Mamba-Transformer融合模式无损应用到超大规模推理模型中,让企业和开发者以更低的投入即可实现高效的AI部署。受此技术推动,混元T1云上API输入价格为1元/百万tokens,输出价格为4元/百万tokens,低于DeepSeek-R1。此外,据腾讯云公众号,混元T1即将在腾讯元宝灰度上线,进一步构建腾讯自身AI应用生态。
我们认为,模型的加速迭代正是AI产业落地的前兆,高性能、低成本的模型有望促进端侧AI、通用/垂直应用的涌现,从而为用户带来更丰富,体验更佳的AI产品。
2.3 大厂与运营商资本开支持续,AI浪潮未来已来
阿里巴巴2月发布财报,并宣布“计划未来三年将投入至少3,800亿元人民币,用于建设云计算和AI的基础设施”,引发市场对AI资本开支的想象。本周腾讯、联通、移动相继公布业绩,均对AI战略做出部署:
腾讯:AI战略进入重投入期,24Q4资本开支超过阿里。3月19日,腾讯控股正式发布2024年第四季度及全年业绩报告,2024年全年收入为6602.57亿人民币,同比增长8%,净利润为1940.73亿人民币,同比增长68%;第四季度收入为1724.46亿,同比增长11%,净利润为513.24亿人民币,同比增长90%。
资本开支方面,腾讯24Q4资本开支为365.78亿元,环比增长114%,同比增长386%,超过阿里同期资本开支318亿元;2024年全年资本开支为767亿元,同比增长221%,创历史新高,同样超过阿里同期资本开支725亿元,其中AI相关研发投入为707亿元。年报媒体沟通会上,腾讯管理层计划在2025年进一步增加资本支出,预期资本支出占收入的比例为低两位数百分比(24年资本支出占收入比重约12%)。
中国联通:全面拥抱人工智能,算力投资预计同比增28%。3月18日,中国联通公告2024年报,实现营收3895.89亿元,同比增长4.6%;实现归母净利润90.29亿元,同比增长10.5%。中国联通2024年资本开支为613.7亿元,同比下降17%。其中,算力投资逆势同比上升19%。中国联通预计,2025年固定资产投资在550亿元左右,其中算力投资同比增长28%;此外,公司还为人工智能重点基础设施和重大工程专项作了特别预算安排。
中国移动:25年算力资本开支373亿元,推理算力投资不设上限。3月20日,中国移动公告2024年报,实现营收10408亿元,同比增长3.1%;实现归母净利润1384亿元,同比增长5.0%。2024年,中国移动智算规模达到29.2EFLOPS,净增19.1EFLOPS,呼和浩特、哈尔滨万卡级超大规模智算中心上线提供服务;公司计划2025年通算规模(FP32)累计达到8.9 EFLOPS,智算规模(FP16) 超34 EFLOPS。而在当日举行的业绩说明会上,执行董事兼首席执行官何飚进一步介绍,2025年中国移动在算力领域的资本开支将为373亿元,占比将提升至25%,其中年报公布的超34 EFLOPS智算计划主要以预训练资源为主,而对推理资源投资不设上限。
我们认为,大厂及运营商算力基础设施资本开支有望持续,从而为AI产业链搭建坚实的算力底座,促进模型快速迭代,以及应用生态的繁荣。
总结:GTC 2025召开,英伟达重磅发布多款重磅产品和技术,通过硬件性能提升和软件效率加速AI产业链落地;近期国内外模型加速迭代,高性能、低成本的特点有望促进端侧AI、通用/垂直应用的涌现;继阿里之后,腾讯、联通、移动相继发布24年报,且对于25年AI资本开支均相对乐观,将为AI产业链构建坚实底座。
风险提示:(1)宏观经济下行风险:计算机行业下游涉及千行百业,宏观经济下行压力下,行业IT支出不及预期将直接影响计算机行业需求;(2)应收账款坏账风险:计算机多数公司业务以项目制签单为主,需要通过验收后能够收到回款,下游客户付款周期拉长可能导致应收账款坏账增加,并可能进一步导致资产减值损失;(3)行业竞争加剧:计算机行业需求较为确定,但供给端竞争加剧或将导致行业格局发生变化;(4)国际环境变化影响:国际贸易摩擦加剧,美国不断对中国科技施压,对于海外收入占比较高公司可能形成影响。
报告来源
证券研究报告名称:《周报25年第10期:GTC 2025召开,AI产业链持续繁荣》
对外发布时间:2025年3月23日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
研究助理:李楚涵
来源:点滴财学