ASIC爆火!大厂AI训练推理抛弃GPU;博通的护城河有多深?

摘要:电子发烧友网报道(文/梁浩斌)在上周末,博通应该可以说是投资圈和科技圈最火爆的话题,大家纷纷惊呼“英伟达的对手终于出现了!”“ASIC要超越GPU”云云。

电子发烧友网报道(文/梁浩斌)在上周末,博通应该可以说是投资圈和科技圈最火爆的话题,大家纷纷惊呼“英伟达的对手终于出现了!”“ASIC要超越GPU”云云。

这一切都要源于上周五博通公布的炸裂财报,AI业务营收同比暴增220%,当天公司股价大涨24.43%,市值突破万亿美元,成为第九家市值突破万亿美元的美股上市公司,全球第三家市值超万亿美元的半导体公司。

当然,更重要的是对未来的预期,博通在数据中心高速互连领域有非常大的市场份额,这代表着AI基础设施的规模增长,博通的部分增长也确实来自以太网网络部件。但除了高速互连之外,博通还正在与一些大型云服务供应商合作,帮助他们开发定制AI芯片,这部分业务的增长迅速,将会令博通成为英伟达的最大挑战者。

博通的传统优势是在高速互连方面,比如数据中心的以太网传输中用到的高速光模块产品组合,还有在高速互连中使用到的高速SerDes内核IP等。而目前博通在AI芯片领域,主要也是提供ASIC解决方案,提供设计、广泛IP组合、先进封装等方案,集成了内存、高速SerDes、PCIe接口等IP,以及Arm/Power PC等CPU内核。

ASIC即专用集成电路,顾名思义,与英伟达提供的通用GPU不同,ASIC是专门针对某种场景或应用设计,目前不少云计算巨头都在使用定制的ASIC作为数据中心的核心芯片。作为一种专用芯片,在设计之初就是为了满足特定的任务和算法需求,因此在针对算法开发的情况下,计算效率和能效比都能够相比通用GPU大幅提高。

比如谷歌去年推出的TPU v5e专为提升中大型模型的训练、推理等任务设计,相比上一代的TPU v4训练性能提高2倍,推理性能提高2.5倍,但成本只有上一代的一半不到,大幅提升了计算效率以及成本效益。

对于云计算巨头而言,为了降低对英伟达的依赖,同时也为了降低成本,选择定制ASIC都会是一个比较确定的方向。除了谷歌之外,亚马逊、华为、阿里、百度等云计算巨头都已经有自研数据中心ASIC产品,并已经投入使用。

而博通目前依靠在高速互连方面的关键技术,在对互连速率要求极高的AI计算领域就极具优势。早在2020年,博通推出了公司首款采用台积电N5工艺的数据中心ASIC,集成了PCIe Gen5协议、112 Gbps SerDes、运行频率为3.6 Gbps、集成HBM2e,利用TSMC CoWoS Interposer封装技术实现3.6 Tbps Die2Die PHY IP,几乎将先进的高速互连技术堆满。

最近博通还推出了3.5D XDSiP封装平台,可以将超过6000平方毫米的3D堆叠硅晶片和12个HBM模块集成到一个系统级封装中,同时大幅提升片内互连的性能。

与传统采用硅通孔TVS的F2B(面到背)的技术相比,3.5D XDSiP采用HCB(混合铜键合)以F2F(面对面)的方式将逻辑芯片堆叠,堆叠芯片之间的信号密度提高了7倍;3.5D XDSiP通过利用3D HCB代替平面芯片到芯片物理接口,芯片到芯片接口的功耗降低了90%,还能最大限度地减少3D堆栈中计算、内存和I/O组件之间的延迟。

据称博通的3.5D XDSiP目前已经被主要的AI领域客户使用,已经有6款产品正在开发中,博通预计最早在2026年2月实现出货。其中富士通下一代2nm制程的Arm处理器FUJITSU-MONAKA已经确认使用博通3.5D XDSiP技术,这款处理器面向数据中心、边缘计算等应用,据此前富士通的介绍,MONAKA每颗CPU包含一个中央的I/O die和四个3D垂直堆叠die,并集成SRAM,预计2027年出货。

今年9月,博通还展示了一种带有光学模块的AI计算ASIC,实现片间光互连。博通在制造中使用了FOWLP封装技术,将CPO模块与AI ASIC封装在一起,大幅降低了系统延迟,还实现了可插拔的激光器设计,便于数据中心维护。

目前来看,在AI计算中极为重要的互连技术上,博通拥有很强大的技术积累,这也为其ASIC定制服务建立了稳固的壁垒。从客户群来看,博通在财报中透露,目前正在与三家非常大型的云计算客户开发AI芯片,并预计到2027年,每个客户都将在网络集群中部署100万个AI芯片,届时市场对定制AI ASIC的需求容量将高达600亿-900亿美元。

最近大厂开发ASIC的消息频出,在博通公布财报的前一天,就传出苹果与博通合作,开发面向AI推理的ASIC芯片,将采用台积电N3P工艺,计划在2026年投入生产。而亚马逊也在月初公布了AI芯片Trn2UltraServer和Amazon EC2Trn2的应用实例,展示出ASIC的应用性价比远超GPU。

但可能大家也发现,目前定制开发高算力ASIC的厂商,无一例外是云计算大厂,本身公司业务就有极大规模的算力需求。这是由于ASIC的定制费用较高,需要有足够庞大的规模才能分摊前期定制开发费用。

ASIC定制费用,主要是开发过程中的一次性工程费用,也被业内称为NRE(Non-Recurring Engineering)。顾名思义,NRE费用只需要支出一次,后续规模生产中不需要再增加这部分费用。

NRE费用中,包含芯片设计的成本,比如研发人员薪酬、EDA工具授权费等,这与芯片使用的制程工艺、芯片本身的复杂程度相关;然后是版图设计成本,其实这里的概念跟芯片设计的成本类似,主要是涉及芯片的物理布局设计,需要特定的研发人员和软件支持;再是IP授权费用,一般是一些通用的IP,比如CPU IP、内存控制器、接口IP等。

以定制一款采用5nm制程的ASIC为例,NRE费用可以高达1亿至2亿美元。然而一旦能够大规模出货,NRE费用就可以很大程度上被摊薄。

博通也提到,未来每个客户将在网络集群中部署100万片AI芯片,即使其中只有30万片是定制的ASIC,那么分摊到每一片芯片上的NRE费用就大约只要300-600美元,相比GPU的成本有明显的优势。而据业内人士分析,中等复杂程度的ASIC盈亏平衡点在10万片左右。

尽管目前英伟达GPU在AI训练、推理的应用中还是处于一家独大的地位,但ASIC的成本效益,让各大大模型厂商不得不开始考虑转向ASIC。加上谷歌推出的Gemini2.0已经开始带头使用自家的TPU来进行训练和推理,以往ASIC不适用于AI训练的刻板印象也逐步被打破。

如果ASIC的成本效益未来能被进一步开发至极致,那么至少像百度、阿里、谷歌、腾讯、华为这样的集大模型开发和云计算服务于一体的互联网巨头,会先摆脱在AI大模型上对GPU的依赖。

来源:核芯产业观察

相关推荐