摘要:Graviton 4是一款Arm架构的CPU(中央处理器)芯片,它主要对标英特尔、AMD的x86架构芯片。Trainium 2,是一款AI(人工智能)训练芯片,它主要对标英伟达旗下A100/H100等旗舰AI训练芯片。Inferentia 2是一款AI推理芯片
亚马逊自研的AI训练芯片Trainium 2
无论是在美国还是中国,云厂商和AI创业公司自研算力芯片的趋势早已开始且逐步深入,这个过程虽然很慢,但不可逆文|《财经》研究员 吴俊宇
编辑|谢丽容
亚马逊旗下云计算业务——亚马逊AWS,在其年度全球大会re:Invent宣布了自研数据中心芯片进展。
亚马逊AWS目前量产了三款自研芯片,分别是——Graviton 4、Trainium 2、Inferentia 2。
Graviton 4是一款Arm架构的CPU(中央处理器)芯片,它主要对标英特尔、AMD的x86架构芯片。Trainium 2,是一款AI(人工智能)训练芯片,它主要对标英伟达旗下A100/H100等旗舰AI训练芯片。Inferentia 2是一款AI推理芯片,它主要对标英伟达旗下A10等入门级别的AI推理芯片。
亚马逊AWS CEO(首席执行官)马特·加曼(Matt Garman)在美国西部时间12月4日宣布,将在2025年量产新一代AI训练芯片Trainium 3。这款芯片采用了3纳米工艺制程,性能比前代产品Trainium 2高出两倍,性价比可以提升40%。
《财经》从亚马逊AWS了解到,2024年亚马逊AWS全球新增CPU(中央处理器)算力的一半以上都是基于Arm架构Graviton系列芯片,规模已经超过了x86架构芯片(主要生产企业包括英特尔、AMD)。
一位芯片行业人士解读,亚马逊AWS等云厂商自研芯片一般有两条逻辑:其一,云厂商自研芯片通常可以降低单位算力成本,让自家云业务更有性价比;其二,节省外部芯片采购费用,减少对芯片供应商的依赖。不过,这些芯片不会直接对外销售,而是在云厂商的数据中心,变成云化的算力对外租赁。
某中国云厂商的一位不具名的芯片负责人曾分析称,云厂商自研芯片通常可以针对自身业务特点做优化。自研芯片在实现量产的前提下,通常比英特尔、英伟达的芯片采购成本、运营成本更低。节省下来的成本用于降低算力价格。
谁在用?
一批知名企业是亚马逊AWS三款自研芯片(Graviton 4、Trainium 2、Inferentia 2)云服务的使用者,其中包括苹果公司、全球最大的ERP(企业资源管理)软件企业SAP、AI创业公司Anthropic、知名数据分析企业Datadog、社交平台Pinterest。
马特·加曼(Matt Garman)公开表示,在亚马逊AWS弹性计算产品的1000个最大客户,有90%以上正在使用Graviton芯片的算力资源。亚马逊AWS此前还公布称,有超过5万名客户在使用Graviton芯片。
苹果的搜索产品采用了Graviton 4和Inferentia 2的云服务,其机器学习推理工作负载的效率提高了40%以上。苹果机器学习和AI高级总监伯努瓦·杜宾(Benoit Dupin)在re:Invent 2024演讲时表示,苹果还处于评估Trainium 2芯片的早期阶段。目前的测试情况是,在Trainium 2上对其模型进行预训练,效率将提高50%。
AI创业公司Anthropic更激进。Anthropic联合创始人兼首席计算官Tom Brown(汤姆·布朗)在re:Invent宣布了“雷尼尔计划”(Project Rainier)。该计划的核心内容是,Anthropic未来将使用一个拥有数十万枚亚马逊自研芯片的算力集群,其芯片数量将是Anthropic现有算力集群的五倍以上。这将是世界上最大的机器学习算力集群(详见《Anthropic将使用数十万枚亚马逊自研芯片》)。
亚马逊近两年三次参与了Anthropic公司的投资,总投资额高达80亿美元。Anthropic的主要竞争对手是微软投资的AI创业公司OpenAI。Anthropic的Claude系列模型性能极强,是目前市面上几乎少数可以和OpenAI旗下GPT-4对标的模型(详见《亚马逊再出手,向OpenAI最大挑战者Anthropic追投40亿美元》)。
亚马逊AWS公开资料显示,Graviton 4、Trainium 2比同规格其他芯片,性价比可提升40%。一位亚马逊AWS中国区人士向《财经》表示,在亚马逊AWS的云服务中,自研芯片通常比同等规格的英特尔、AMD、英伟达算力资源售价低10%以上。
对芯片市场影响几何?
亚马逊AWS并不是唯一一家在自研芯片的云计算公司。微软、谷歌也在做类似的工作。在中国市场,华为、阿里、腾讯、百度等拥有云业务的科技公司也在自研芯片。
亚马逊AWS高级副总裁彼得·德桑蒂斯(Peter DeSantis)认为,亚马逊AWS每年都进行巨额差异化技术投资,比如自研芯片。这样做的目的是建成高性能和低成本的基础设施。
目前,云厂商是英特尔、AMD、英伟达等芯片厂商数据中心业务的重要客户。云厂商每使用一枚自研芯片,就会少从芯片厂商采购一枚芯片。这是此消彼长的关系。
一位芯片厂商技术人士对《财经》解释,云厂商的自研芯片如果能大规模量产,采购、运营成本会更低。目前亚马逊AWS、阿里云的CPU都做到了大规模量产,这有效降低了算力成本。但即使成本更高,为避免受制于人,一些云厂商也会坚持自研路线。
数据中心芯片市场主要分成CPU芯片、GPU/AI芯片两部分。GPU/AI芯片市场,英伟达处于垄断地位,市场份额超过90%,暂时受影响较小。但这只是暂时的,云厂商近两年为争夺大模型这个主战场,大规模采购英伟达的AI芯片。它们为此付出了巨额资本支出。因此云厂商自研AI芯片的动力越来越强。
一位国际云厂商人士今年11月曾对《财经》表示,云厂商不可能一直这样受制于人。哪怕成本更高,也要自研AI芯片,减少对英伟达的依赖。
CPU芯片市场,云厂商的自研动作已经取得了实际进展。英特尔、AMD正受到亚马逊AWS等云厂商自研芯片的冲击。
数据中心CPU芯片市场分成x86架构、Arm架构两大阵营。英特尔、AMD主导了x86架构芯片,但这个格局在松动。云厂商、芯片创业公司自研芯片以Arm架构为主,包括亚马逊、华为、阿里等公司的自研CPU芯片,都采用了Arm架构。2023年8月,伯恩斯坦研究公司 (Bernstein Research)报告称,亚马逊AWS在数据中心中部署了全球50%以上的Arm服务器芯片。
Arm架构的数据中心芯片占比正在迅速提升。国际市场调研机构Creative Strategies 2024年10月数据显示,2023年Arm架构数据中心芯片出货量占比约为7.1%,2027年占比将达到22%。
上述芯片厂商技术人士进一步解释,现在90%以上的数据中心CPU都是英特尔、AMD提供的,x86芯片短期内地位无法撼动。但是,云厂商和AI创业公司自研的Arm芯片正在一步步蚕食x86芯片的市场。这个过程虽然很慢,但很可能不可逆。
财报数据显示,英特尔受服务器市场周期波动、AMD市场竞争、云厂商自研芯片等影响,2023年数据中心芯片业务营收155.2亿美元,同比下滑19.1%。
责编|秦李欣
来源:财经杂志视频