ASIC芯片引领AI之路【受益方向】

摘要:博通、Marvell与国际头部AI参与者(微软、谷歌、Meta、亚马逊、字节、苹果等)达成了稳固的合作关系。在ASIC市场,博通以55-60%的份额位居第一,而Marvell以13-15%的份额紧随其后。

博通、Marvell与国际头部AI参与者(微软、谷歌、Meta、亚马逊、字节、苹果等)达成了稳固的合作关系。在ASIC市场,博通以55-60%的份额位居第一,而Marvell以13-15%的份额紧随其后。

一 ASIC芯片只是刚刚开始

ASIC(Application Specific Integrated Circuit,中文名为专用集成电路芯片),顾名思义,是一种为了专门目的或者算法而设计的芯片。

ASIC芯片的架构并不固定,既有较为简单的网卡芯片,用于控制网络流量,满足防火墙需求等等,也有类似谷歌TPU,昇腾910B一类的顶尖AI芯片。

ASIC并不代表简单,而是代表面向的需求,只要是为了某一类算法,或者是某一类用户需求而去专门设计的芯片,都可以称之为ASIC。当下,ASIC芯片的主要根据运算类型分为了TPU、DPU和NPU芯片,分别对应了不同的基础计算功能。TPU即为谷歌发明的AI处理器,主要支持张量计算,DPU则是用于数据中心内部的加速计算,NPU则是对应了上一轮AI热潮中的CNN神经卷积算法,后来被大量SoC进了边缘设备的处理芯片中。

从芯片大类来看,目前人类的芯片可以被分为CPU、GPU、FPGA、ASIC四种大类,其中CPU是人类芯片之母,拥有最强的通用性,适合复杂的指令与任务,GPU则是人类历史上的第一大类“ASIC”芯片,通过大量部署并行计算核,实现了对于异构计算需求的优化。

FPGA芯片则更加强调可编程性,可以通过编程重新配置芯片内部的逻辑门和存储器,但是运算性能较低。

ASIC则完全为某类功能或者算法专门设计,通用性较低的同时,拥有对某一类算法最好的性能。

最早的CPU独霸天下,到并行计算时代GPU的崛起,挖矿时代专用ASIC的大放异彩,我们不难发现,新芯片的出现,往往是因为某一类需求的爆发,从而使得过往通用型芯片中的特定功能被分割出来,形成了新的芯片类目。

通用芯片发现需求、探索需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,需求决定一切,芯片的架构能否满足契合客户的需求,是决定一个芯片公司能否成功的重要因素。

二 ASIC的发展路线

初步专用化:

GPU亦是ASIC从历史来看,我们通过剖析GPU的结构和其与CPU的区别,不难发现,GPU也是某种意义上的ASIC,过去的数据处理任务,通常是单条复杂指令或逻辑运算,但随着图像处理需求的出现,计算过程中往往开始包含大量并行的简单计算,而CPU由于核心数量有限,虽然单核能够处理较为复杂的指令,但面对大量简单计算时,运算时间长的缺点逐渐暴露。

所以正如前文所说,CPU作为人类最通用的芯片,带领人类进入并探索了图像时代,紧接着,面对海量释放的AI需求,GPU作为“图像ASIC”横空出世,满足了海量的图像处理需求。

进一步探究GPU的发展历程,我们会发现芯片趋势的第二部分,如果说CPU到GPU是我们提到的“通久必专”,那么GPU本身的发展历史则是“专久必通”的最好诠释。在并行计算早期,算法大多数是由简单的加减乘除构成,因此通过在GPU芯片内部署大量的小核来并行计算这些简单算法。

但后来,随着并行计算,或者说图像处理需求慢慢衍生出图像识别、光线追踪、机器视觉等等新功能和与之对应的以“卷积计算”为代表的新算法,GPU本身也从专用芯片,变成了面向并行计算模式或者海量图像需求的“通用芯片”。

其中最有意义的事件,也奠定了英伟达如今领先地位的是TensorCore的发明与问世。英伟达在2017年5月发布的Volta架构中引入了第一代TensorCore,为混合精度矩阵乘法提供了突破性的性能,与上一代Pascal相比,用于训练的峰值性能提升了高达12倍,用于推理的峰值TFLOPS性能提升了高达6倍。

这项关键功能使Volta提供了比Pascal高3倍的训练和推理性能。

TensorCore又名张量计算核心,简单理解,便是专门用来计算矩阵乘法的一块大核,其具体结构为一个由乘法器和加法器共同构成的立方体。

立方体的主要部分为乘法器,最底部一层则为加法器,根据矩阵乘法公式,加法器将上方乘法器的运算结果进行累加,从而快速得出矩阵乘法的结果,这一特殊结构,使得过去有多个小核经过漫长计算才能得到的矩阵乘法结果,优化了许多。

TensorCore的问世,也标志着GPU的重心正式从图像训练转向深度学习,通过良好契合矩阵乘法的计算核形式,实现对于卷积或Transformer的性能提升。

此外,凭借CUDA生态和无数开发者、使用者的努力,人类历史上的科学计算领域,除了大模型之外,如量子物理、药理学计算、流体物理等等,均得到了英伟达GPU的算力支持,至此,英伟达凭借大小核心的架构,与CUDA生态,成为了图像、科学计算领域的“通用芯片”之王。

极致专用化:以Groq为例

为何一张14NM的芯片,能够在推理端打败昂贵的4NM制程H100呢?这其实就是极致ASIC化的必然结果。从Groq芯片的架构图中可以看出,除了舍弃掉小核,只保留了矩阵乘法核与向量乘法核外,Groq还创新性的引入了sRAM作为核与核之间互相传递数据的工具,这样MXU就无需频繁与外界的存储进行互动,可以搭建出一条由“矩阵核、向量核、SRAM”三者共同组成的数据处理“流水线”,从而完美契合推理过程,即用先前推理出的Token代入模型,得到下一个Token的过程。

但我们需要注意的是,由于Groq的芯片架构定型于四年前,以现在的视角来看,依旧有不少遗憾,第一,sRAM的容量较小,导致需要更多的groq显卡才能完整容纳大模型,第二,由于四年前依旧是CNN卷积计算占据主流,因此Groq有部分面积给了相对没有必要的向量计算核。

三 ASIC芯片主要类型

ASIC芯片主要分为全定制ASIC芯片、半定制ASIC芯片及可编程ASIC芯片。

(1)全定制ASIC芯片:全定制ASIC芯片是定制程度最高的芯片之一,研发人员基于不同电路结构设计针对不同功能的逻辑单元,于芯片板搭建模拟电路、存储单元、机械结构。全定制化ASIC芯片在性能、功耗等方面表现优异。

全定制化ASIC芯片平均算力输出约为半定制化ASIC芯片平均算力输出的8倍,采用24纳米制程的全定制化ASIC芯片在性能上优于采用5纳米制程的半定制化ASIC芯片。

(2)半定制ASIC芯片:构成半定制ASIC芯片的逻辑单元大部分取自标准逻辑单元库,部分根据特定需求做自定义设计。

1)门阵列芯片:门阵列ASIC芯片包括有信道门阵列、无信道门阵列和结构化门阵列。门阵列ASIC芯片结构中硅晶片上预定晶体管位置不可改变,设计人员多通过改变芯片底端金属层等方式调整逻辑单元互连结构;

2)标准单元:该类ASIC芯片由选自标准单元库的逻辑单元构成。设计人员可按算法需求自行布置标准单元。

(3)可编程ASIC芯片:PLD亦称可编程逻辑器件,在结构上包括基础逻辑单元矩阵、触发器、锁存器等,其互连部分作为单个模块存在。设计人员通过对PLD进行编程以满足部分定制应用程序需求。

四 ASIC受益方向

当下,海外ASIC设计巨头的财报已然出现了一些积极的变化。 2024财年公司AI收入(包括定制 AI 加速器、XPU、网络)同比增长220%至122亿美元,预计2024年XPU市场(博通对于 AI ASIC的说法)规模在 150-200 亿美元。公司预计,2027 年 XPU 和网络 SAM 在 600亿美元至 900 亿美元之间,24-27 年三年三倍级增长,显著高于 GPU 市场。三家大客户推出多代路线图。

下一代3nm XPU有望在2025年下半年批量出货,大幅增长。目前有三家超大规模客户,已经开发多代 AI XPU 路线图,将在未来三年内以不同的速度部署。到 2027 年,三个客户都计划在单个结构中部署 100 万 XPU 集群。美满电子在近期的FY24Q4电话会议上表示,预计来自云优化芯片(cloudoptimizedsilicon)的年收入有可能与数据中心光学业务相媲美(数据中心光学业务在2024财年的收入将超过10亿美元)。

可以看到,在生成式AI大时代面前,从头部大厂,再到中小客户,再到创业团队,均已经开始投身ASIC芯片的星辰大海。

当算法固定,AI下游需求加速放量之时,ASIC芯片也有望凭借更高的性价比,以及更加“开源”的生态而放量,因此,只要有充足的下游需求,大模型ASIC的前景广阔。

从全局来看,ASIC放量与对应的算力降本,是大模型走向一个更大产业的必经之路,但AI的算力叙事足够宏大,与比特币的一轮代替便成终局不同,我们认为在AI芯片的发展上,将会经历多轮螺旋上升式的发展,最终达到全社会的AGI,新的模型与算法通过通用性GPU被发现和初步开发,通过专用ASIC将需求繁荣,繁荣的生态吸引更多用户与参与者,最终培育出新的、更强的算法,循环往复,螺旋上升,最终达成AGI的宏伟目标。

抓住AISC的机会,主要从五大投资方向出发:

第一,全球晶圆代工龙头。

第二,协助全球ASIC开发的半导体平台类公司。

第三,参考矿机发展,散热对于ASIC的性能提升至关重要,因此散热公司将持续获得收益。

第四,与博通展开业务合作的,有需求用户的。比如字节。

第五,ASIC路线有望带动国内芯片起量,利好国内服务器公司。比如中昊芯英开发的产品TPU,也是基于ASIC设计路线。

一线晶圆厂:随着ASIC生态迅速繁荣,大量中小ASIC创业公司的流片需求将会爆发性释放。

由于AI芯片不再为某一大公司垄断,晶圆厂的议价能力将显著提升,同时由于ASIC芯片需求量巨大且性价比高,产业链的大部分利润将从晶圆设计转为晶圆厂代工成本。晶圆厂的分配地位有望上升。标的:台积电(TSMC)、英特尔(INITC)、中芯国际。

ASIC设计龙头:全球ASIC设计项目主要由两家业界巨头承担,两家公司为业内ASIC创业者提供设计平台、相关工具、部分功能IP等一站式解决方案,让创业公司能够专注于架构设计,随着ASIC创业热潮加剧,两家公司有望凭借“平台能力”迅速扩张业务。标的:美满电子(MRVL)、博通(AVGO)。

散热厂商:参考矿机芯片,ASIC芯片具有频率越高,性能越强,性价比越高的特性。矿机芯片的散热性能直接决定了矿机的性价比。矿机使用者目前是全球大规模液冷机房的使用者之一,ASIC芯片占比提升后,相较于传统GPU,对于散热的原发性需求会持续提升。对于客户来说,投资散热不再是可选项,而是有经济利益的必选项。标的:英维克、中航光电、高澜股份。

ASIC芯片公司:全球目前活跃的,对于顶尖制程掌握最深,并有大规模流片能力的ASIC公司中,矿机公司是最为重要的力量,将来有望凭借相关优势转型模型ASIC厂商。标的:寒武纪、芯原股份、中昊芯英(上篇有介绍)。

这里重点聊一下芯原股份:这也是一家做设计服务的公司,芯原在传统CMOS、先进FinFET和FD-SOI等全球主流半导体工艺节点上都具有优秀的设计能力。在先进半导体工艺节点方面,公司已拥有14nmv10nm/7nm/6nm/5nmFinFET和28nm/22nmFD-SOI工艺节点芯片的成功流片经验。

公司拥有自主可控的图形处理器P(GPU IP)、神经网络处理器,IP(NPU IP)视频处理器IP(VPU IP)、数字信号处理器IP(DSPIP)、图像信号处理器P(ISPIP)和显示处理器P(DisplayProcessorD)这六类处理器IP,以及1,600多个数模混合iP和射频IP。

只是它相比博通做的那种高端AI ASIC差距还是挺大的。

服务器龙头:与晶圆厂类似,大量中小ASIC公司将会催生大量的新建服务器需求。同时,国内芯片有望通过ASIC公司加速形成可用大模型算力,从而带动国内服务器需求起量。标的:工业富联、高新发展、中科曙光、紫光股份。

来源:潮汕十三亿

相关推荐