摘要:这份名为“AI扩散管制框架”(Framework for Artificial Intelligence Diffusion)的文档洋洋洒洒一共168页,已经刊登在“联邦公报”federalregister上,公众可以在公布的四个月之内给与反馈评论和意见。
► 文 观察者网心智观察所
1月13日,美国史上第一个大规模AI出口管制框架靴子落地。
这份名为“AI扩散管制框架”(Framework for Artificial Intelligence Diffusion)的文档洋洋洒洒一共168页,已经刊登在“联邦公报”federalregister上,公众可以在公布的四个月之内给与反馈评论和意见。
之所以说是靴子落地而非揭开面纱,是因为这份管制框架的大部分细则早在一个多月前即12月初就以联邦法规立项通知的方式公开,经过美国媒体、智库、产业界关于该拟议法规的公开讨论后已经产生了足够的舆论发酵,当时政商界相关人士就普遍认为最终版的管制框架将在特朗普入住白宫前夕正式公开。
某种意义上,它是拜登给特朗普埋的一个雷,楔入的钉子,也更像是一份综合性的述职报告。
拜登政府“最后一舞”的三大特点
该AI扩散管制框架是对过去两年美国BIS(工业与安全局)针对高算力芯片出口管制政策的一个扩大版的总结和所谓的查缺补漏。它可以被总结为三大特点。
首先,在GPU的性能标准管制的基础上,增加了对管制模型权重参数的设置,并且区分了开源和闭源。
美国BIS依然延续了2022年10月7日(10.7规则)、2023年10月17日(10.17规则)以及2024年3月29日的(3.29规则)的思维模式,即划定一个AI大模型动态平衡的参数,对计算能力特定阈值划线,对“性能很强”的大模型,尤其是不如现有开源模型强大的闭源模型权重进行出口管制。
AI模型训练的权重(Weights)和数据处理量和算力体系密切相关,那如何定义“性能很强”呢?那就是通过对模型训练所需的浮点运算数(FLOPs)加以审定。FLOPs实际是模型训练做了多少次加法和/或乘法运算,FLOPs的数量如果很大,说明模型规模很大,带来的所谓风险也就更大。
在这一点上,美国相关部门已经发现,由于所有现代大语言模型都是由相同的算法模块构建而成,他们其实无法真正对已经落地的开源模型进行管制,只能采用“新人新办法,老人老办法”的原则,对新冒出来的被判定有一定调用大算力风险的,且性能性强的(以10的26次方次计)闭源模型进行审查处理。
事实上,在数据主权思维意识主导下,即便是美方不实施额外的卡脖子政策,我国政府也不会放任国内数据任意被Meta,OpenAI等公司拿去做AI模型训练;美国BIS也意识到这一点,对美国境外的模型权重也设定了外国直接产品规则,这意味着中国大型云服务商即便是在海外训练AI模型,如果超过以10的26次方次计的FLOPs,也有可能触发管制红线。
其次,该框架很大程度上试图恢复濒于死亡的“瓦森纳协定”的元气。
心智观察所之前曾撰文指出,冷战结束之后,美国领导下的西方在巴黎统筹委员会的基础上另起炉灶,搞出了一套面向全球的军民两用出口管制架构。不过随着世纪之交美俄矛盾的深化以及组织章程定义的不清晰,叠加中国硬科技实力的突飞猛进,美国商务部BIS逐渐跳上前台,以单边实体清单+最终用户、使用区域管制的办法逐渐侵蚀“瓦森纳协定”地盘,让后者在2019年之后逐渐名存实亡。
但这份AI扩散管制框架的出现,让我们突然再次嗅到了“瓦森纳协定”的腐尸气——创制性地搞出了一个GPU出口到全球数据中心的三层地域体系。
这个三层解构,最内圈的是美国20个不到的核心盟友。这些核心盟友国家,如澳大利亚、比利时、加拿大、丹麦、芬兰、法国等(值得注意的是日韩和台湾地区均在此列)只要提交申请保证不让数据中心GPU外泄到其他国家,就不受算力密度管制限制;
最外圈是被美国视为敌对国家的一类,当让包括中国。这些国家GPU需要最严格的推定拒绝。
这三个圈层中,最复杂的当属中间层,有100多个“待观察国家”。对这些国家美国采取了松紧适度原则,用“总处理性能”(TPP)划了两条线,一条是向单个该国家类别的公司出口大约1700块GPU,当然如果GPU的性能很低则不受管制;一条是GPU国家配额,设定为2025年至2027年向这类国家累计出口约5万块GPU的设为上限,用于科研院所等学术交流的则不受管制。
以数据中心高性能GPU出口目的地来划分美国盟友的亲疏有别,是该协议框架的一大特色,其实这也是被广大美国本土高科技公司,包括CSP云服务商、GPU厂商等广为诟病之处。
第三点,中东地区成为美国AI管制的重点监察区域。
如前所属,中间圈层的国家受到了GPU出口配额和总量限制,必然会连带影响到美国CSP们在这些国家数据中心的部署,而中东国家大多属于此类。
目前卡塔尔、阿联酋和沙特等国纷纷出台AI算力替代石油战略,数据中心的地位愈加提高,让美国忌惮中东有可能成为高性能GPU流向中国的中转站或者backdoor。因此,新的管制框架规定这些国家部署的GPU经销商,云服务运维等项目必须接受“经验证最终用户”(Validated End User,VEU)认定,才能安排受控的GPU部署。
除了上述三点之外,心智观察所还发现,有关GPU总处理性能、性能密度方面,新框架无甚高论,基本上延续了2023年10月的相关参数认定。
为何说这份管制框架必然烂尾?
在1月13日“AI扩散管制框架”正式出台之前,美国官方公告就悄悄上马了一份长达200页的上述三圈层管制细则。美国半导体行业协会(SIA)之前就发出警告,阐述了这种极为复杂的全球管制条例难以落地的原因。
一直强调合规经营,严格执行美国本土管制制度的英伟达,这次终于按耐不住,他们的反应比众多云服务商还要激烈:“这份文件纯属秘密起草,并未经过适当的立法审查。通过努力操纵市场结果并扼杀作为创新命脉的竞争关系,拜登政府的新规有可能浪费掉美国来之不易的技术优势。”
需要指出的是,让英伟达破防的不是这份总体性的框架,而恰恰是其中那部分带有“瓦森纳协定”色彩的三圈层管制条例,这会极大地增加企业的法律合规成本,让本来就在华业务不断受损的英伟达雪上加霜。
2023年10月新规之后,英伟达在华业务就已经不得不承受着巨大的地缘政治方面的额外压力。
从2023年第三季度开始,英伟达的数据中心营收在总营收中的占比已经超过80%,中国大陆市场在英伟达财报中的营收贡献长期在20%以上,英伟达中国大陆地区市场的实质营收贡献其实远大于财报数据。因为中国台湾地区的企业,如华硕、技嘉、微星等,集成了英伟达的芯片,大量最终客户仍在中国大陆地区。
比如说,2023年11月17日出口管制正式生效时,英伟达将主要用于消费端的RTX 4090系列显卡的产品信息从简体中文官网移除,并通知渠道商下架官方渠道销售的RTX 4090,日后不能再单独卖卡,只能以整机预装的方式销售。而且, 英伟达陆续推出的在华阉割版GPU,H100/H800的单价曾经一度在国内已经被炒至25万-30万一张,多轮出口管制正在让原本的算力价格平衡被逐渐打破,性能最强的H20理论性能仅为H100的20%左右,在国产AI加速器国产替代大潮之下,英伟达阉割版的性价比难匹昨日。
与英伟达斥责遥相呼应的是,甲骨文执行副总裁肯·格鲁克(Ken Glueck)在此之前就愤怒地表达了对拜登政府“人工智能扩散出口管制框架”的不满,称其“将成为美国技术产业所遭受的最具破坏性的规定之一”。
相比GPU制造商,云服务商更加看重infra部署的总成本优化,强调算力、运力、存力的协同作战,芯片、板卡、软件栈、服务器集群牵一发而动全身。
拜登政府的新AI管制框架不但要卡脖子GPU,还要结合区域性的总分配算力和模型训练的权重综合管制,必然会导致跷跷板效应,让大型云计算企业无所适从,而且数据隔离墙造成的语料孤岛,本身不利于LLA大模型的成熟化落地。
这份管制框架还有另一层面上面临崩殂的因素。
跟踪芯片禁令最紧密的Jefferies分析师认为特朗普政府大概率会给这次拜登Al扩散令暗中捣乱。因为越是复杂的规则,就越需要更多的人力去解读、执行和落地。
BIS庞大的AI管制框架,打着国家利益的幌子,其实也是在给自己捞预算和油水。
2020年以来,BIS雇员每年大幅增长,而且薪水待遇也水涨船高。根据美国职场数据咨询平台glassdoor数据,BIS的平均薪资范围约为141248美元/年至 141248美元/年(主管级别)。可以说,BIS是美国联邦机构众多大小堂口中人员迅速膨胀至臃肿的典型,应该属于马斯克DOGE(美国政府效率部)重点监察的对象。
DOGE是捅破BIS烂疮的匕首
叠床架屋必然四面漏风,而且新规让美国对全球200多个国家实施动态GPU管制,把全球生产要素流动管制做一种开天眼式,或者开启使用作弊器玩游戏的模式才能达到预期效果,无论从可能性和现实性上都让人感到荒谬满满。
特朗普的对外管制的特点是喜欢抓关税,而非手舞足蹈,脑体忙乱式的遵循复杂管制条例,Jefferies分析师已经预判,特朗普百日执政的重点就是手拿奥卡姆剃刀剔除繁文缛节,168页的框架对他来说,实在是太多了太复杂了,不忍卒读。
应对之策:推理与架构创新
为何美国商务部BIS如此迫不及待颁布新版本的AI管制框架?
除了作为国内党争的武器之外,也确实是看到了中国在AI大模型方面有突飞猛进之势。DeepseekV3的成功也许已经预示着AI大模型从数据的预训练时代向推理时代过渡,连OpenAI自己也不得不承认,test time compute也就是推理计算的scaling会让AGI更快到来。
训练是人工智能模型的第一阶段,这一阶段可能涉及反复试错的过程,对算力的要求非常高,对成本控制和功耗相对不那么看重,需要大力出奇迹,即向人工智能模型提供海量数据集。
而推理是人工智能训练之后的过程,模型训练得越好,调整得越精细,其推理就越准确,能在商业场景跑通的国产卡,远比训练要多。下游推理模型和应用,都处于剧烈变动的战国时代,而处于上游的计算体系架构,也完全没有定型。
AMD表示到2027年其4000亿美元AI加速器TAM中约65-70%将用于推理,英伟达也表示推理需求的增长开始迅速加速,有可能年增40%。
这对国产的云推理服务托管商,以及推理卡的应用来说是一个巨大的机会。
目前美国商务部的底线思维依然是卡你的硬件,我们也需要承认AI目前的阶段是硬件推着应用走,但可以预见,未来推理的应用会推动着芯片往前走。一旦出现AI超级应用,用场景定义芯片,就会有ASIC替代通用高算力GPU的可能,这也是中国AI产业的破局底气所在,毕竟,中华大地是一片数据和应用场景的原始丰饶之地。
算力、存力和运力三者合一,让中国大陆目前聚焦的近存计算和存算一体也大有可为。
之所以英伟达的NVLink协议具有较高的传输效率,重要原因之一是它在解决拥塞的时候有一套完整的方案。从芯片到集群,本身就是一个大系统。以存储架构为例,它正迎接一场颠覆传统的跨越式创新,随着高速网络、RDMA、NVMe等技术的发展,以及数据池化、湖仓一体化趋势的深入,文件、对象、大数据的多协议融合部署需求快速增长。
数据中心技术栈的生态建设(@燧原科技)
通过统一的大模型技术生态栈解决算力瓶颈问题目前成为了行业的共识,也能有效应对美国的硬件围堵。
其实,美国这次的AI巨型管制框架暴露了其柔弱和畏葸的一面——这一点已经被英伟达看穿了,他们在新闻稿的最后表示:“美国通过创新、竞争和与世界分享技术而赢得胜利,而不是躲在政府越权的高墙后面。”
美国商务部的“画地为牢,作茧自缚”这八个字,会在2025年及其以后的历史画卷中逐渐应验。
来源|心智观察所
来源:科技袁人袁岚峰视频