关于ASIC,Marvell:最新预测

360影视 日韩动漫 2025-06-20 09:34 3

摘要:在AI芯片这条竞逐速度与算力的赛道上,“定制化”正在成为新的关键词。随着模型体积的暴涨与行业应用的多样化,越来越多的企业开始意识到,通用GPU不再是唯一解,定制AI芯片正逐步走向聚光灯下。

在AI芯片这条竞逐速度与算力的赛道上,“定制化”正在成为新的关键词。随着模型体积的暴涨与行业应用的多样化,越来越多的企业开始意识到,通用GPU不再是唯一解,定制AI芯片正逐步走向聚光灯下。

事实上,尽管目前英伟达依然保持着AI芯片中的超然地位,但谷歌、亚马逊和微软等主要云巨头正在加速推动自研芯片开发计划,力图在英伟达解决方案之外实现多元化发展。

而在这些云巨头自研芯片背后的真正受益者,就是博通与Marvell。

有意思的是,博通和 Marvell 在定制AI领域采用了截然不同的发展战略。博通优先考虑大规模集成和平台设计,并以大量的研发投入和先进的技术集成为后盾。而 Marvell 则通过战略收购来追求增长,通过收购 Cavium、Avera 和 Innovium 等公司扩展了其技术组合。

在博通高调进军AI市场,赚得盆满钵满的同时,Marvell也在“闷声发大财”:从微软、AWS到谷歌,Marvell早已悄然占据了多个核心算力部署中的重要一环。

近日,Marvell举行了一场备受瞩目的定制AI投资者活动,首次系统性披露其在AI基础设施定制芯片领域的战略进展、技术优势与未来布局。活动内容不仅涵盖宏观趋势洞察,也具体呈现从IP、封装到客户项目的全栈能力,清晰刻画了Marvell如何成为“唯二的赢家”。

定制AI:从芯片到系统的时代拐点

活动伊始,Marvell董事长兼CEO Matt Murphy开宗明义地指出:“一场关于AI基础设施的革命,正在云数据中心内部悄然发生——这场革命的核心,是围绕定制硅芯片的系统化重构。”

他表示,早在2018年,Marvell就做出了一个具有前瞻性的战略决策:云计算的未来将是定制化的。时至今日,这一预判已得到充分验证。2021年Marvell首次展示战略蓝图时,业内对定制芯片是否能真正规模化起飞还存在诸多争议。如今,定制化已成为现实,每个云服务提供商都在积极布局。经过近十年的投资和积累,Marvell已经确立了领先优势。对于那些现在才意识到并想要进入为云构建定制硅业务的企业来说,时机已然错过。

他强调,当前云计算四巨头的资本支出2023年约为1500亿美元,2024年这一数字增长至超过2000亿美元,2025年预计将超过3000亿美元,其中最大一部分资金将投向“定制芯片”。更值得关注的是,定制化趋势已不再局限于前四大公司。Marvell看到一波新兴企业正在投资自己的数据基础设施,其称之为"新兴超大规模云服务提供商"。

其中,以XAI为代表的公司已经认识到控制自身基础设施的价值,正在建设专属数据中心。XAI在短短一年内就建成了一个20万单元的AI集群,并成功开发出强大的Grok模型;构建终端应用的公司也在为AI构建高度专业化的基础设施。特斯拉建造了基于Dojo的数据中心,为完全自动驾驶背后的AI提供算力支持;还有所谓"主权AI"的兴起,世界各国政府也在发起重大投资,建设本地AI基础设施。

分析师预测,到2028年,数据中心资本支出将超过1万亿美元。在这一过程中,传统四大超大规模云服务提供商短期内不会放缓投资步伐,而新兴超大规模云服务提供商也将发展成为重要力量。

Murphy也没掩饰Marvell对于未来定制市场的乐观,他表示,去年 AI 活动中,美满电子曾概述了一个 750 亿美元市场规模,涵盖定制硅、交换、互连和存储,复合年增长率接近 30%。而如今,市场规模已显著扩容,总体估计增长约 25%,预计到 2028 年将达到 940 亿美元,复合年增长率提升至 35%,其中计算市场比去年预测大了近 30%,互连市场增长约 37%,这两个领域均处于美满电子的优势范围,也是重点关注方向。

而在这 940 亿美元的总市场机遇中,定制计算是最大且增长最快的部分,互连为第二大市场,交换和存储则保持持续稳定增长。定制计算市场包含 XPU 和 XPU 附件两个关键组成部分,其中 XPU 市场规模约 400 亿美元,复合年增长率 47%,是世界上最大、最复杂的芯片;XPU 附件市场规模 150 亿美元,复合年增长率高达 90%,由于定制系统复杂性几乎每年翻一番,其增长迅猛,到 2028 年,定制 XPU 附件市场的规模将与今天整个定制硅市场的规模相当。

最后,Murphy指出,Marvell目前在美国前四大超大规模云服务商处获得了18个定制芯片订单,其中5个为XPU核心芯片、13个为XPU附件。同时,在新兴AI云客户中也已拿下6个订单,使公司面向的潜在终身收入(Lifetime Revenue)市场高达750亿美元。

他强调,Marvell之所以能够在激烈竞争中胜出,根本原因在于Marvell作为端到端全服务定制硅提供商的独特地位 —— 其将最佳系统架构设计、先进的 IP 技术、全面的芯片服务、专业的封装技术及完整的制造与物流支持等核心能力有机结合,这种一体化服务模式使客户无需从各种第三方拼凑 IP,也不需要雇佣多家设计公司和供应商,在技术格局加速发展的未来,这种整合能力将成为决定性优势。

同时,Marvell以技术领先地位构筑竞争壁垒:在先进工艺节点方面,当前已在 5 纳米和 3 纳米工艺上大规模生产,未来已在 2 纳米工艺上有测试芯片并正引领进入埃米时代,更前瞻布局 A16 和 A14 节点为未来产品开发;在 IP 组合优势上,Marvell构建了业内最广泛的模拟混合信号 IP 组合之一,专注于高性能低功耗设计、低延迟串行链路、高带宽裸片到裸片集成等领域,例如在 OFC 上展示的世界首个运行 448Gbps 的串行器 / 解串器(SerDes),这种能力对网络扩展至关重要。

在Marvell所构建的蓝图中,定制AI芯片,不再是少数头部客户的独角戏,而是一场“全行业全应用的系统化转向”。

Chris Koopmans:多样化AI工作负载推动平台定制化爆发

接下来,首席运营官Chris Koopmans进一步深化了“为什么定制”的核心逻辑。他指出,2028年约5000亿美元的数据中心芯片支出中,超过一半将用于AI加速计算,其中3500亿美元将落在XPU和其附件市场。而在这一巨大TAM中,Marvell聚焦的是定制部分——一个预计2028年可达550亿美元的新兴细分市场。

Koopmans指出,推动定制市场急速增长的核心动力,是AI工作负载的多样化演进:从预训练到后训练,从轻量级推理到思维链(Chain of Thought)等递归型模型,对算力结构和内存层次提出了截然不同的要求。例如,传统推理对低延迟内存密度要求高,而复杂多轮推理则需要高性能异构算力单元。

此外,训练数据的差异也决定了基础设施必须定制化 —— 比如训练自动驾驶模型的数据是数百万小时的视频,需要巨量本地内存带宽与视频处理逻辑,而社交模型的海量文本数据则更注重参数稀疏性与推理效率。

Koopmans由此得出结论:没有任何一种通用架构能 “一刀切” 适应所有场景,通用平台会造成 “内存闲置 - 计算瓶颈” 或 “计算闲置 - 访存不足” 的结构性浪费,只有定制平台才能按需配置核心类型(矩阵 vs 标量)、片上 SRAM 与 HBM 比例、IO 带宽与接口协议、集群拓扑(星型、环型、Mesh)及数据路径(铜线 vs 光纤 vs 封装内裸片互联)。

他特别指出,当前市场多数人关注的是 “XPU 本体” 这一 AI 加速计算的主芯片,但在 Marvell 眼中,真正的爆发点在于被忽视的 “XPU 附件市场”,其包括网络接口控制器(NIC)、电源管理 IC、HBM 控制器、IO 协处理器、安全模块、扩展交换器、池化器、封装子裸片等,关键数据显示,到 2028 年 XPU TAM 约 400 亿美元,CAGR 为 47%,而 XPU 附件 TAM 约 150 亿美元,CAGR 高达 90%,几乎年年翻倍,这表明在 AI 系统复杂性持续提升的背景下,定制硅早已不仅是 “算力之争”,更是 “平台之争”—— 每个 AI 平台都如同一座定制化的微型数据中心,XPU 只是其中一块主砖。

他还描绘了定制平台的发展路径:从为 x86 设计的传统通用平台,到为特定 XPU 定制主板、功耗、电源路径的第一代定制平台,再到标准化基础设施平台的崛起 —— 是否可能出现可插拔式标准化 AI 平台,供不同客户插入自己的 XPU?为此,Marvell 已开始积极行动,与 NVIDIA 合作支持其 NVLink Fusion 平台,并自建 UA Link 平台,致力于实现跨厂商 AI 加速平台的互通互联。

Koopmans最后落点于产业认知的变迁:“过去大家认为定制芯片是奢侈的‘特供品’,而现在每一个头部客户都把定制作为默认选项”,AI 基础设施已不再是单一系统或标准芯片的堆砌,而是横跨硬件、架构、封装、系统互联的协同工程,而 Marvell 正是这场系统工程中少数的 “全栈玩家” 之一。

Nick Kucharewski:构建一个端到端的“定制芯片工厂”

随后,云平台高级副总裁Nick Kucharewski详细介绍了Marvell“定制云平台”的能力矩阵。他强调,Marvell的核心差异化在于:不仅仅是做ASIC设计服务,更是从系统架构定义、IP集成、EDA流程、封装、制造、测试、量产等全流程深度绑定客户。

Kucharewski强调,市场上常见的定制芯片合作大致可分为三种模式:第一种是DIY,也就是客户完全自研,通过EDA工具自己流片;第二种是传统ASIC服务,客户只做架构定义,后端设计交由ASIC服务商完成;而Marvell代表的是第三种模式,即深度协同式的定制硅开发服务。从产品定义、IP集成、架构协同,到后端设计、封装选型、验证测试、量产导入,Marvell都可“一肩挑”。他

还特别提到,目前市场主流客户——如大型云服务商和AI模型公司——往往不愿意自己去搭建一整条芯片开发生产线,因为这需要大量的资源、人才、方法学、EDA流和IP积累,而这正是Marvell能为其补齐的关键短板。

Kucharewski提到,Marvell为客户提供的不仅是一套芯片方案,而是一种“系统层思考”的延伸。客户无需对每一个SerDes IP、SRAM宏单元或封装拓扑做出判断,而是专注于上层AI框架和系统调优,由Marvell将底层实现逻辑封装成可交付的“芯片平台”。这种模式不仅提升了开发效率,也极大压缩了项目周期,使得客户可以在12-18个月内完成从概念到量产的迭代。更重要的是,Marvell并不是基于一次性设计来实现盈利,而是通过长期维护、版本更新、工艺演进,与客户建立深度绑定关系。

在Kucharewski看来,这就像是为客户构建一个“AI芯片工厂”的外包服务中心,客户提供需求和场景,Marvell则负责将其落地为物理芯片和算力平台。他形容这种关系已经不再是供应商与客户,而更像是“共同体”,是一种在高算力需求驱动下形成的“技术共生”。

这一模式的成功也体现在Marvell目前已经拿下的18个定制芯片合作项目中,包括5个XPU主芯片和13个附件芯片,其中不乏超大规模云厂商和新兴AI基础设施创业公司。

Kucharewski指出,很多客户最初接触Marvell时,甚至并不知道自己到底需要一个什么样的芯片,但他们知道要解决的是AI推理的延迟瓶颈、功耗墙和散热限制,而这些需求正是Marvell能够通过其平台能力进行建模、迭代和实现的。“我们不是告诉客户能做什么,而是先理解他们面临的问题,然后共同定义答案。”Kucharewski如是说。

最后他特别强调,Marvell正在从“芯片公司”转型为“系统架构加速器”,为AI时代的基础设施重构提供底层支撑。正因如此,其得以成为微软、AWS、甲骨文等头部客户的核心合作伙伴。“你无法通过在Yelp上搜索就找到这些服务。”Kucharewski半开玩笑地说,“我们提供的是一套在公开市场上都无法获得的独家技术栈。”

Sandeep Bharathi:从5nm到2nm,美满如何构建AI芯片的“火箭发射台”

Marvell CTO Sandeep Bharathi则从技术视角全面剖析其技术堆栈。Bharathi一开始就提出一个判断:“AI芯片的技术路径已经从摩尔定律主导的线性演进,转向以系统集成为核心的异构演进。”换句话说,未来的算力竞争,早已不是比拼单颗芯片的工艺先进性或频率指标,而是比拼谁能在高度复杂的架构下,以最小功耗、最优互联方式和最大数据吞吐整合多个裸片与封装资源。

他强调:“AI芯片不是单点突破,而是系统集成能力的总和。”Bharathi将Marvell比作“AI芯片界的NASA”,拥有完整的“火箭发射系统”:从先进制程(5nm/3nm/2nm测试片)到多裸片封装、定制高带宽内存(HBM)、SerDes、高速裸片互联、共封装光学等关键IP。

他特别指出,在AI推理芯片设计中,最重要的不再是核心计算逻辑,而是“如何让数据以更短路径、更低功耗、更高带宽流动起来”。而这背后的技术支撑,是Marvell在D2D互联技术上的领先。通过使用封装内裸片高速总线,Marvell已实现单边带宽超10TBps/mm、延迟低于1ns、功耗低至1pJ/bit,这种能力使得计算裸片与HBM、SRAM IO裸片之间几乎可以无缝通信,从而彻底释放AI芯片的片内互联潜力。

Bharathi还表示,Marvell目前已进入AI封装架构的新阶段,不再是简单地将多个裸片“放入一块基板”,而是使用三维立体封装技术(3D IC)、中介层(interposer)与共封装光学(CPO)方式,将多个裸片、硅光模块、模拟接口统一封装于一个系统级载体中。这些先进封装不仅解决了功耗瓶颈,更为未来AI芯片的规模化部署与散热性能带来质的提升。

在最后,Bharathi提出一个发人深省的观点:“今天你看到的每一块AI芯片,其实已经是一整座数据中心的缩影。”他指出,AI芯片的系统复杂度正逼近小型超算,而这正是为什么“设计一个AI芯片,不只是设计一块芯片,而是设计一个系统架构”的真实写照。

Bharathi坚信,随着AI模型参数级数从百亿跃升到万亿,AI芯片的设计范式将彻底从“通用型SoC”转向“高度模块化的系统平台”,而Marvell已经完成了从IP、封装、互联、功耗、测试到量产全链路能力的聚合,成为这个新时代中极少数具备系统性技术闭环的公司之一。

Ken Chang:SerDes与裸片互联,是AI系统的“血管系统”

模拟混合信号设计高级副总裁Ken Chang则聚焦于AI芯片互连中的关键IP——SerDes与裸片到裸片(D2D)互联。

Ken指出,在现代AI芯片的运行中,“数据移动”已经成为最大的能耗来源,远超计算本身;而决定数据是否能够高效移动的关键因素,正是芯片内外的高速互联结构。SerDes已经从传统的数据中心IO工具,演进为AI系统的“神经系统”,一旦速率、功耗或误码率不达标,将导致整个平台崩溃。

Marvell在这一领域拥有超过20年的深厚积累,当前其SerDes IP已经达到448Gbps的世界领先水准,同时具备极低的BER(误码率)与功耗控制能力,广泛部署于AI加速器IO、交换芯片、XPU附件、HBM接口等多个关键路径中。在Marvell的设计哲学中,高速互联并不仅限于芯片对外通信,更关键的是芯片内部与裸片间的“D2D”连接。

Ken指出,在多裸片AI芯片架构日益成为主流的今天,将不同功能的裸片(如计算核心、IO裸片、HBM控制裸片)集成于一个封装中,并通过高带宽、低功耗的D2D互联连接,已成为突破工艺和散热限制的主流路径。为此,Marvell打造了多代D2D接口技术,其最新一代已实现单边带宽超10TBps/mm、延迟低于1ns、功耗低至1pJ/bit,而下一代目标是实现50+TBps/mm带宽与亚皮焦能耗。

他强调,这种指标的跃迁并非简单“制程提升”所致,而是依赖于Marvell自研的SerDes调制解调算法、高频信号完整性优化、超低功耗驱动电路设计以及跨裸片同步协议的完整工程闭环。这套D2D系统已在多个客户项目中实现量产,尤其是在XPU主裸片与HBM控制裸片、SRAM裸片、光IO裸片之间的互联场景中表现突出,形成Marvell区别于传统SoC芯片厂商的“系统级竞争力”。

更关键的是,Marvell的D2D互联技术具备高度可扩展性,不受限于硅中介层(interposer)或特定封装材料,可支持2.5D封装、3D堆叠、先进RDL结构甚至CoWoS-L与FOWLP等新型封装工艺,为客户提供灵活、低风险的工艺选型路径。

此外,Ken还分享了Marvell在D2D系统中的一个重要创新——将SerDes与互联接口逻辑“模块化封装”为可复用的IP裸片,这意味着未来客户甚至可以按需“插拔式组合”互联单元,从而构建面向特定AI负载优化的裸片拓扑。比如,有的客户可能在推理中更注重HBM与SRAM互联带宽,而有的客户则更关注多个计算裸片间的Mesh型拓扑互联,Marvell的模块化D2D设计让这些架构在设计早期便具备高度灵活性,不必反复迭代底层物理层协议。

Ken以一个客户项目为例说明:通过将计算裸片与HBM IO裸片之间的总线由原先的传统PCB互联升级为封装内D2D互联,不仅整体系统功耗下降了40%,而且在同等封装面积下实现了3倍以上的带宽提升,这一改变最终使该客户的整机系统在数据中心部署效率上提高了一个数量级。

最后,他总结道:在AI芯片性能瓶颈不断上移的今天,算力不再是核心竞争力的唯一体现,数据流的管理与通信路径的优化才是决定平台成败的根本,而Marvell正是以其在SerDes与D2D方面的领先布局,为全球AI基础设施搭建起“高速、稳定、可扩展”的数据血管系统,这不仅是技术能力的体现,更是一种对AI未来系统架构深刻理解的前瞻部署。

Mark Kuemerle:用SRAM与定制HBM为AI算力“拓展土地”

云定制业务技术副总裁Mark Kuemerle重点介绍了定制SRAM与HBM的创新路径。他提出了一个核心观点:“AI芯片的土地,不是逻辑单元,而是内存。”也就是说,当参数规模从百亿跃升到万亿时,AI芯片不再是比谁有更多的矩阵乘法单元,而是比谁能在极小的空间中有效整合更多、更快、更省电的存储资源。

正是基于这一判断,Marvell近年来在定制SRAM和高带宽内存(HBM)结构上持续投入,已经构建出行业领先的片上内存与外部内存接口能力。

Kuemerle首先介绍了Marvell新一代定制SRAM IP的关键突破。他指出,传统SRAM通常受限于标准工艺库和面积能效之间的折中,难以在面积敏感的XPU核心区域部署大容量高速缓存。而Marvell基于2nm工艺所开发的定制SRAM,在带宽上比业界通用SRAM快了17倍,同时待机功耗下降66%,这一成果使得客户在SoC中可以大规模部署片上高速缓存,从而减少数据出片所带来的延迟与能耗。这一点对于高频AI推理任务尤为重要,尤其是在生成式AI中频繁调用历史上下文和中间记忆数据时,大容量、低延迟的片上存储可以显著提升整体系统的吞吐效率。

更进一步,Kuemerle讲述了Marvell在HBM架构上的创新路线,即“去耦合HBM IO控制器”的设计思路。在传统AI芯片中,HBM IO接口通常集成在主计算裸片上,占据大量物理空间并产生高功耗,而Marvell采用一种模块化设计,将HBM IO接口拆解并独立部署在一个专用的底座裸片上,通过高密度的D2D互联将其与主XPU裸片进行连接。这种设计的优势在于,它能够将主计算裸片的有效利用率提高约1.7倍,为客户提供更多可用于核心计算单元的硅面积,同时由于HBM IO的电源路径与信号链被重新布线,也使得整体功耗下降了75%。

Kuemerle强调,这种架构本质上打破了传统SoC的“单芯片封装逻辑”,引导AI芯片走向“裸片模块协同设计”的新时代。他提到,在客户实际部署过程中,通过这种HBM分离封装结构,可以实现多个HBM堆栈裸片与多个计算裸片之间的非对称连接,从而根据具体模型的参数访问频率与访存拓扑定制化带宽路径,这种设计的灵活性远远超越传统的统一内存架构。

他还指出,随着HBM规格逐代演进(目前已到HBM3E,未来向HBM4过渡),内存功耗将成为制约整机AI加速卡部署密度的主要因素,而Marvell的模块化HBM架构不仅支持更高容量与带宽,还能支持动态功耗调节,使AI系统在推理、预训练、微调等不同阶段实现功耗弹性配置。

此外,Kuemerle还提及Marvell目前正在探索更高级的内存子系统架构,例如异构SRAM阵列、可组合共享内存池、通过光互联实现的片间缓存一致性协议等,未来可能进一步提升AI芯片在多任务、多模型并行执行时的数据调度能力。

Kuemerle最后强调,AI芯片已从传统“计算为王”的时代,走入了“数据为先”的体系重构阶段,Marvell的SRAM与HBM能力不是孤立存在,而是AI芯片平台生态中不可或缺的“土壤与水利工程”,决定了AI模型能否在高密度计算环境中高效生长,也决定了AI芯片是否能真正进入通用部署的拐点门槛。

定制AI,不再小众

值得一提的是,在这次活动中,微软Azure硬件系统副总裁Ronnie Borkar还专程发表了演讲。他指出,微软与Marvell的合作已持续十余年,从早期交换芯片到当前定制AI基础设施。“随着模型与计算需求超越硬件进展速度,我们必须重构整个堆栈。”

Borkar强调,微软希望构建“端到端协同优化”的AI基础设施,其中硅是最底层关键。Marvell不仅提供芯片,还能提供软件、封装、系统、EDA方法与交付支持,“是真正意义上的战略合作伙伴”。

2021 年,Matt Murphy 提出 “云优化芯片” 概念时,不少人持怀疑态度。而如今,“每个云服务商都在定制芯片” 已成为行业现实 —— 从最初的 3 个定制芯片项目发展到 18 个,覆盖传统云巨头、新兴 AI 基础模型公司及国家主权 AI 工程,Marvell 正通过系统级布局构建定制 AI 基础设施的竞争优势。更重要的是,它并非以 GPU、CPU 等传统硬件思路参与竞争,而是以 “平台级思维” 推动行业格局变革。

AI 定制芯片的时代已然到来,Marvell 凭借在该领域的持续投入与布局,成为这一趋势中不容忽视的重要参与者。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

来源:半导体行业观察一点号

相关推荐