摘要：AI大模型能力的快速提升（如Qwen3、Llama4的多模态升级与逻辑推理优化）正推动AI从辅助工具向核心生产力渗透。而算力芯片的性能对大模型的训练、推理至关重要。本文通过统计全球主要算力芯片的算力、显存和互联带宽指标，对比海外第三方设计公司、海外大厂自研和国

全球算力芯片参数汇总

半导体工程师 2025年05月01日 08:36 北京

前言：

AI大模型能力的快速提升（如Qwen3、Llama4的多模态升级与逻辑推理优化）正推动AI从辅助工具向核心生产力渗透。而算力芯片的性能对大模型的训练、推理至关重要。本文通过统计全球主要算力芯片的算力、显存和互联带宽指标，对比海外第三方设计公司、海外大厂自研和国产芯片的单卡性能。不考虑软件（如CUDA）、Scale out架构（如华为CloudMatrix超节点）和成本。

一、算力指标

1. 制程：

海外：

第三方设计公司：为后续产品制程的升级预留了空间。英伟达最新的Blackwell系列使用了TSMC 4NP，相当于4nm高性能版本。AMD、英特尔最新产品的制程都是5nm。Groq为了追求性价比，使用GlobalFoundries的14nm。

大厂自研：谷歌最新的TPU Ironwood（TPU v7p）和亚马逊的Trainium3都使用了最先进的3nm，Meta和微软使用了5nm。

中国大陆：

国内厂商在受到制裁之前，旗舰产品绝大多数都是使用TSMC 7nm。目前正在转向中芯国际7nm。燧原科技的所有产品都采用GlobalFoundries 的12nm工艺。

2. 晶体管数量/芯片面积/晶体管密度：

芯片面积：由于掩膜版的尺寸，单个芯片最大曝光区面积限制为858mm²，可以通过Chiplet构建更大的芯片。

晶体管密度：更高的晶体管密度允许在相同芯片面积内集成更多计算核心，直接提升并行计算能力。

海外：

第三方设计公司：英伟达的B200首次使用了Chiplet技术，包含了两个B100 Die，两个Die通过NV-HBI互联，芯片面积达到1600mm²，晶体管密度达到130百万/mm²。AMD的芯片一直都采用Chiplet，由许多小芯粒组成大芯片，芯粒之间通过Infinity Fabric互联.

大厂自研：谷歌最新的TPU Ironwood（TPU v7p）晶体管密度达到了308 百万/mm²，是英伟达Blackwell的两倍多。TPU v6e和微软的Maia 100分别达到110百万/mm²和128百万/mm²。

中国大陆：

国内厂商多使用Chiplet技术，增强算力、降低成本。比如，华为910C包含两个910B Die，FP16算力相比于910B提升两倍以上。燧原科技2021年发布的邃思2.0的芯片面积3306 mm²，采用GlobalFoundries 12nm工艺，号称中国最大AI单芯片，达到了日月光 2.5D 封装的极限。

3. 各精度下的理论算力峰值

海外：

第三方设计公司：英伟达Blackwell系列的推出，巩固了其在深度学习训练和推理的领导地位。GB200的FP16算力达到5000TFLOPS，相比于H200提升了5倍以上。AMD的MI325X为1300TFLOPS，英特尔Gaudi3为1835TFLOPS，谷歌TPU Ironwood（TPU v7p）为2307TFLOPS，与GB200都有明显差距。同时，Blackwell通过第二代Transformer引擎和定制Tensor Core，首次在硬件上实现了FP4数据类型的直接处理。

H20/H800：H20基于H200进行性能裁剪，通过牺牲计算性能换取合规性。H20的FP16算力为148 TFLOPS，FP8算力为296 TFLOPS，仅为H200的15%左右。H800与H100算力指标保持一致，根据美国商务部2023年10月17日发布的出口管制新规，H800 被列入禁售名单。

大厂自研：多数ASIC聚焦于低精度领域，除谷歌外都处于起步阶段。谷歌最新的TPU Ironwood（TPU v7p）是首款专为推理而设计的加速器，FP16算力达2307TFLOPS，比前代提升了两倍多。亚马逊的Trainium3预计FP16算力达1310TFLOPS，是Trainium2的两倍。

中国大陆：

根据Semi Analysis，华为910C的FP16算力达781TFLOPS，在国产芯片中排名第一，对标英伟达的H100。壁仞科技在2022年推出的BR100的FP16算力能达到1024TFLOPS，但因受到制裁，无法量产落地。

4. 功耗/能效比

能效比：FP16运算次数/功耗（TFLOPS/W）

海外：

第三方设计公司：英伟达Blackwell的能效比在所有架构里面最高，体现英伟达超强的硬件设计能力。尽管GB200的功耗达到了2700W，但能效比仍能达到1.9，在业内处于领先地位。

大厂自研：多数ASIC的功耗在700W以下，达到降本目的。但能效比仍低于英伟达的GPGPU。

中国大陆：

根据不完全统计，国产芯片的功耗绝大多数都在500W以下，能效比低于1。华为910B能效比达1.2，壁仞科技BR104达到1.7。

二、显存指标

1. 显存/显存带宽/显存容量

海外：

绝大多数海外厂商最新产品都配备HBM3e，因堆叠层数、频率和HBM堆栈数量的配置不同，显存带宽和容量不同。英伟达从H200开始使用HBM3e。GB200的显存带宽达16TB/s，容量达384GB，是H200的三倍多。H20和H800的显存分别与H200和H100保持一致，远高于国产芯片。

中国大陆：

因受到制裁，绝大多数国产芯片最新产品使用HBM2e。根据Semi Analysis，华为910C的显存带宽达3.2TB/s，容量达128GB，对标英伟达的H200。

2. 算术强度

算术强度：总浮点运算次数/内存带宽（FLOPS/Byte）算术强度过高，说明内存带宽过低，芯片运行有内存瓶颈。

海外：

英伟达H100的算术强度较高，接近600FLOPS/Byte，随着HBM3e的使用，算术强度在H200和Blackwell系列逐渐降低。其他厂商因使用HBM3e且算力不高，算术强度都较低。

中国大陆：

国产芯片的算力水平较低，所以尽管显存带宽低，算术强度都较低，不存在带宽瓶颈。

三、互联带宽

双向互联带宽=每条链路单向带宽x链路数x 2

海外：

绝大多数厂商都开发了专有协议，带宽普遍在500GB/s以上。英伟达的NVLink5相比于NVLink4带宽翻倍，达到了1800GB/s。英伟达的NVLink依然有较强壁垒。AMD的Infinity Fabric4达到896GB/s。谷歌的ICI Links最高能达到672GB/s。H20使用NVLink4，带宽达到900GB/s，相较于国产芯片有较大优势。H800和A800都使用特供版NVLink，带宽只有400GB/s。

中国大陆：

国产芯片的互联能力普遍较弱，带宽普遍在400GB/s以下。华为910C采用的HCCS 3.0，带宽达到700GB/s，接近NVLink4的水平。寒武纪思元270采用的MLU-Link，带宽达到600GB/s。