摘要:电子发烧友网报道(文 / 章鹰)4月9日,美国全国公共广播电台(NPR)引述两位知情者说法称,美国特朗普政府暂时叫停了将英伟达对华销售限制扩大至“特供版”人工智能芯片H20的计划,原本准备最快在本周实施。
电子发烧友网报道(文 / 章鹰)4月9日,美国全国公共广播电台(NPR)引述两位知情者说法称,美国特朗普政府暂时叫停了将英伟达对华销售限制扩大至“特供版”人工智能芯片H20的计划,原本准备最快在本周实施。
事情的转机出现在4月4日,英伟达CEO黄仁勋在总统特朗普的私人住所出席豪华晚宴。英伟达CEO向特朗普承诺将在美国AI数据中心进行新投资后,上述的管制计划出现改变。
4月10日,还有一条爆炸性消息,著名AI科学家李飞飞领衔的斯坦福大学人工智能研究所近日发布了最新一期《2025年人工智能指数报告》,报告指出中美顶级AI大模型性能已经由2023年的17.5%大幅缩至0.3%,接近抹平。2024年全球重要的大模型中,美国入选40个,中国15个。在业内顶尖专家评选的32项“2024年AI领域重要发布中”,中国的阿里Qwen2、Qwen2.5及DeepSeek-V3发布上榜。
为何H20芯片会首先被美国政府放行,这对英伟达的全球战略有何影响?除了H20芯片外,中国在AI服务器、DeepSeek一体机等重要的算力基础设施中,还有哪些国产AI芯片选项?本文进行详细分析。
H20芯片是英伟达公司2023年底推出的AI芯片,H20基于英伟达Hopper架构,是H100的简化版。2023年10月17日,美国更新出口管制标准,要求先进芯片性能超过特定阈值,即需要申请出口许可。在严苛的限制条件下,英伟达针对中国市场的特供版H800、A800两款芯片也面临禁售,面对新的管制,英伟达定制全新的特供版本H20,供中国使用。
H20采用GH100芯片,禁止用张量核心,核心数量相较于H100减少了41%,在超频和集群扩展能力上受到了很大限制。H20配置了96GB HBM3显存,以及4TB/s带宽,FP8算力为296 TFLOPS,FP16算力为148TFLOPS,集群的理论扩容能力最高5万张,集群算力合计最高7400P算力,远低于H100、A800和A100。H100采用Hopper架构,拥有16896个CUDA核心,显存为80GB HBM3,理论扩容可达5万张,最多可以达到10万P算力。
针对LLM大模型业态而言,实际使用H20做千卡分布式训练,H20芯片由于单卡算力规格低,更适用于垂直类模型的训练/推理,不容易满足千亿参数级LLM的训练需求。
今年1月以来,随着DeepSeek-R1版本正式发布上线,作为业内首个比肩GPT4 o1的开源大模型,凭借高性能、低成本、全开放三大优势,成为“国运级科技成果”,引发使用人工智能的新一轮浪潮。在DeepSeek推理模型爆火后,支持推理的H20芯片就日益受到AI公司的青睐,根据美国The information报道,字节跳动、阿里巴巴与腾讯控股等中国公司,在今年3月对英伟达H20芯片下单至少160亿美元。
今年2月英伟达发布2025财年第四季度财报和2025财年全年业绩。财报显示,截止到1月25日的2025财年英伟达全年营收达到1305亿美元,同比增长114%,净利润约729亿美元,同比增长145%。其中来自英伟达中国区的营收171.08亿美元,达到历史新高。而3月H20的芯片订单冲上160亿美元,如果因为美国出口管制H20芯片无法向中国出售,英伟达的损失相当惨重。
4月9日,在深圳举办的中国电子展上,中国联合网络通信有限公司深圳分公司云计算、算网运营BU总经理赵成屏表示,公司作为云计算国家队,联通云已经成为首个接入DeepSeek大模型的运营商,基于A100智算池、国产910B智算池和合作算力资源池,向客户提供GPU裸金属服务器资源,支持专区隔离,结合专线访问,满足客户强数据安全需求,适用于大模型部署、微调和应用开发服务。
在2023年美国对华高端AI芯片禁令实施的第187天,华为低调推出了昇腾910B芯片。这款AI芯片是华为自主研发、基于国内供应链核心环节的创新成果,拥有每秒320万亿次运算(FP16)的强大算力,为中国AI产业的发展带来了新的突破。昇腾910B的FP16算力是英伟达H20的近2倍,在能效比方面优势明显,同样16张显卡训练,使用鲲鹏底座的910B比英伟达服务器省电70%。
赵成屏透露,深圳智算节点建立万卡集群,坪山机房主要采购昇腾910B芯片,去年到今年算力芯片、算子适配已经完成,国产算力逐步服务政府、金融等重点单位,提供模型从CUDA迁移到华为昇腾CANN的全流程工具。在美国持续断供大算力AI芯片和国产替代浪潮推动下,昇腾910B生态正在快速崛起。
国泰海通证券电子联系首席分析师舒迪近日表示,2027年上海智能云产业规模突破2000亿元,国内算力资本性支出与海外仍存在较大差距,中美AI领域竞争加剧导致海外AI芯片出口限制加码,H20能效未能达到国内新建IDC能效要求,国产算力芯片预计加速渗透。按照2027年上海市智算规模力争达到200EFLOPS,其中自主可控算力占比超70%,基于910B FP16算力 320TFLOPS进行测算,2027年上海市需求910B等效需求62.5万张。除了910B外,寒武纪思元370、天数智芯天垓100 芯片、海光DCU K100等都在性能、架构、应用场景和生态方面各具特点,适配不同的场景。
随着DeepSeek的开源和国产大模型成本的下降,人工智能技术在企业的应用场景大幅度拓展,国产算力也有机会在更多行业应用。在AI服务器之外,服务于个人和企业应用场景的DeepSeek一体机也日益火爆。DeepSeek一体机以高效、便捷、安全的特点,在市场上迅速取得了显著成绩,浪潮、华为、联想、新华三、中兴通讯、百度云、联通等十几家企业都推出相应的产品。一体机方案背后的AI芯片选择,也成为了业内关注的焦点。
赵成屏展示的联通推出的DeepSeek-R1一体机70B版本采用了燧原、华为910B和英伟达4090多款芯片;联想和沐熙合作推出了DeepSeek一体机,采用沐熙AI芯片,除了华为昇腾和沐熙之外,其他家采用的AI芯片来自昆仑芯、天数智芯、海光、壁仞、云天励飞、景嘉微等。
从算力数据看,华为昇腾凭借单卡320 TFLOPS的算力以及优良的集群扩展性领先;从能效维度看,沐曦以1.8 TFLOPS/W的能效比以及训推一体优化而表现突出;而在生态维度上,昆仑芯与百度飞桨深度整合,形成了一定的生态优势。而天数智芯则通过异构算力混合训练降低成本30%。此外,海光的Deepseek一体机搭载海光K100 GPU服务器,采用自主设计DCU芯片,单卡算力突破164TFLOPS,支持百亿级模型训练。
2025年,中美两国在AI算力基础设施和AI行业应用领域的竞争日趋激烈,英伟达CEO黄仁勋此前表示,华为的持续成功表明了美国遏制中国科技发展所作的工作没什么成效,并指出“他们在人工智能领域的影响力逐年增长,我们无法忽视其存在。”
随着阿里Qwen2、Qwen2.5及DeepSeek-V3在全球大模型领域的上榜,更多中国AI芯片推出新品配合DeepSeek一体机的落地,服务于企业场景的AI应用加速落地。H20之外,中国AI服务器和终端硬件厂商也具备越来越多的选项。
来源:核芯产业观察