摘要:在人工智能的浪潮中,端侧 大型语言模型(On-Device LLMs)迅猛发展且具备广 泛的应用前景。自2023年 起,随着参数量低于10B的 模型系列如Meta的LLaMA、 Microsoft的Phi系列等的涌现,LLMs在边缘设备上运 行的可行性和重要性
(报告出品方/作者:中邮证券,吴文吉、翟一梦)
端侧大模型
端侧大型语言模型演进
在人工智能的浪潮中,端侧 大型语言模型(On-Device LLMs)迅猛发展且具备广 泛的应用前景。自2023年 起,随着参数量低于10B的 模型系列如Meta的LLaMA、 Microsoft的Phi系列等的涌现,LLMs在边缘设备上运 行的可行性和重要性逐渐被 验证。这些模型不仅在性能 上取得了长足的进步,更通 过混合专家、量化和压缩等 技术,保持了参数量的优化, 为边缘设备的多样化应用场 景提供了强大支持。 进入 2024年,新模型的推出愈发密集 , 如左图所示 , Nexa AI的Octopus系列、 Google的Gemma系列等, 不仅在文本处理上有所增强, 更在多模态能力上展现了新 的可能性,如结合文本与图 像等多模态输入,以适应更 复杂的用户交互需求。
大语言模型架构基础
传统文本大型语言模型: 从Transformer架构发展而来,最初由编码器和解码器组成。如今,流行的模型如 GPT和LLaMA主要使用仅解码器架构。GPT模型在自注意力机制后应用层归一化,而LLaMA在每个子层前应 用归一化以提高训练稳定性。在注意力机制方面,GPT模型使用标准自注意力机制,允许模型在生成序列时 考虑输入序列中所有位置的信息,而LLaMA使用分组查询注意力(GQA),优化计算和内存效率。混合专家 (MoE)概念最早于1991年提出,在现代语言模型预训练中关键。MoE使用稀疏层减少计算资源,包含多 个独立的“专家”网络和一个门控网络,以确定token的路由。
多模态大型语言模型: 依托Transformer强大的学习能力,这些模型可以同时处理文本、图像、声音等多种模 态。其内部运作机制如下:A) 使用标准交叉注意力层在模型内部层对多模态输入进行深度融合(如 MultiModal-GPT);B) 使用定制设计的层在模型内部层对多模态输入进行深度融合(LLaMA-Adapter, MoE-LLaVa);C) 在模型输入阶段对多模态输入进行早期融合,使用特定模态的编码器(LLaVa,Qwen-VL); D) 在输入阶段进行早期融合,但使用tokenization技术(如分词器)处理不同模态。
在资源有限的设备上部署大型语言模型面临内存和计算能力的挑战。为解决这些问题,采用协作和分层模型 方法分配计算负载。在资源受限设备上进行训练的经典方法包括量化感知缩放、稀疏更新、微型训练引擎 (TTE)以及贡献分析。
端侧大语言模型的性能指标
在评估设备端大型语言模型的性能时,有几个关键指标需要考虑:延迟、推理速度、内存使用以及存储和能 耗,通过优化这些性能指标,设备端大型语言模型能够在更广泛的场景中高效运行,为用户提供更好的体验。 同时硬件技术的持续进步显著影响了设备端大语言模型的部署和性能。
边缘智能的新纪元
在人工智能的飞速发展中,大型语言模型(LLMs)以其在自然语言处理(NLP)领域的革命性突破,引领 着技术进步的新浪潮。自2017年Transformer架构的诞生以来,OpenAI的GPT系列到Meta的LLaMA系列 等一系列模型崛起。这些模型传统上主要部署在云端服务器上,这种做法虽然保证了强大的计算力支持,却 也带来了一系列挑战:网络延迟、数据安全、持续的联网要求等。这些问题在一定程度上限制了LLMs的广 泛应用和用户的即时体验。正因如此,将LLMs部署在端侧设备上的探索应运而生,不仅能够提供更快的响 应速度,还能在保护用户隐私的同时,实现个性化的用户体验。
随着技术的不断进步,端侧AI 市场的全球规模正以惊人的速 度增长,预计从2022年的152 亿美元增长到2032年的1436 亿美元,这一近十倍的增长不 仅反映了市场对边缘AI解决方 案的迫切需求,也预示着在制 造、汽车、消费品等多个行业 中,端侧AI技术将发挥越来越 重要的作用。
近存计算
存算一体技术分类
作为一种新的计算架构,存算一体的核心是将存储与计算完全融合,存储器中叠加计算能力,以新的高效运 算架构进行二维和三维矩阵计算,结合后摩尔时代先进封装、新型存储器件等技术,能有效克服冯·诺依曼架 构瓶颈,实现计算能效的数量级提升。存算一体可分为近存计算(PNM)、存内处理(PIM)以及存内计算(CIM)。
近存计算
根据存储单元与计算单元融合的程度,可以分为近存计算和存内计算两类。虽然两类没有具体的界限,一个 简单的分类如下:(1)近存计算设计,存储阵列一般无需改动,仍旧只提供数据的访存功能,而计算模块 通常安放在存储阵列的附近;(2)存内计算设计,存储器件可以参与计算操作,这通常意味着存储阵列 (memory cell array)需要改动来支持计算。可以按照存储器件工艺划分不同的技术路线,成熟存储工艺 包括SRAM、DRAM、Flash等,新型存储工艺包括ReRAM、MRAM、PCRAM、FeRAM等。
CUBE:近存计算的一种方案,适合端侧AI
近存计算(PNM)主要包括存储上移、计算下移两种方式。存储上移指采用先进封装技术将存储器向处理 器(如CPU、GPU)靠近,增加计算和存储间的链路数量,提供更高访存带宽。典型的产品形态为高带宽内 存(High Bandwidth Memory,HBM),将内存颗粒通过硅通孔(Through Silicon Via,TSV)多层堆 叠实现存储容量提升,同时基于硅中介板的高速接口与计算单元互联提供高带宽存储服务。计算下移指采用 板卡集成技术将数据处理能力卸载到存储器,由近端处理器进行数据处理,有效减少存储器与远端处理器的 数据搬移开销。典型的方案为可计算存储(Computational Storage Drives,CSD),通过在存储设备引 入计算引擎承担如数据压缩、搜索、视频文件转码等本地处理,减少远端处理器(如CPU)的负载。
基于HBM和3D封装的AI芯片由于成本高、功耗高等因素,不适合端侧,CUBE作为一款高带宽、低功耗、紧 凑尺寸、极具成本效益,以及可定制化的为近存计算解决方案,可供模组制造商和SoC厂商直接部署,可以 满足端侧AI应用日益增长的需求。
NPU
GPU&GPGPU
GPU,即图形处理器(Graphics Processing Unit),又称显示核心、视觉处理器、显示芯片,是一种专 门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工 作的微处理器。根据应用端,可将GPU分为移动端和桌面端,其中桌面端又分为服务器GPU和PC端GPU。 从结构看,GPU通常包括图形显存控制器、压缩单元、BIOS、图形和计算整列、总线接口、电源管理单元、 视频管理单元、显示界面。GPU的出现使计算机减少了对CPU的依赖,并解放了部分原本CPU的工作。最 初,GPU负责渲染2D和3D图像、动画和视频,现已发展成为人工智能领域重要的核心硬件。
虽然都是由GPU架构演进而来,但关注的重点有明显区别,GPU的核心价值体现在图形图像渲染, GPGPU的重点在于算力。GPGPU架构设计时,去掉了为图形处理而设计的硬件加速单元,保留了GPU的 SIMT架构和通用计算单元,使之更适合高性能并行计算,并能使用更高级别的编程语言,在性能、易用性 和通用性上更加强大。从技术架构上看,GPU包含多个GPC,每个GPC包含多个TPC,TPC中包含多个SM, SM中包含CUDA核心和张量核心。GPGPU在GPU的基础上,增加专用向量、张量及矩阵运算指令,强化 浮点运算的精度和性能。
随着人工智能大模型的快速发展,算力需求呈现出爆发式增长,传统的CPU芯片已经无法满足算力增长的 需求,异构加速卡成为当前大模型领域最常用的计算硬件。当前大模型主要是使用的加速卡从架构上可以 分为GPGPU和NPU两大阵营,其中GPGPU以国际大厂NVIDIA为代表,而NPU以国内厂商寒武纪MLU、 华为Ascend系列等加速卡为代表。
DRAM技术发展路径
长期DRAM技术发展
制程技术的持续微缩:制程技术的微缩是DRAM发展的核心方向之一。目前,三星、SK海力士和美光等主要 厂商已经进入1Znm(10-14nm)制程,并计划在未来几年内进一步缩小至1αnm(10nm以下)。2月18 日,TechInsights发布最新报告,揭示了DRAM技术的未来发展趋势:到2027年底,DRAM预计将迈入个 位数纳米技术节点,如D0a、D0b和D0c世代。这一突破将为AI和数据中心带来革命性的变革。
3D DRAM架构的兴起:为了进一步提升存储密度,3D DRAM架构成为未来的关键发展方向。3D DRAM 通过垂直堆叠存储单元,能够在不增加芯片面积的情况下显著提高存储密度。主要技术包括4F²垂直沟道晶 体管(VCT)、IGZO DRAM单元和3D堆叠DRAM单元等,这些技术将在10nm以下级别实现产品化。
高性能内存标准的演进:DDR内存技术一直是主流的高性能内存标准,从DDR1到DDR5,每一代都显著提 升了数据传输速率、降低了功耗,并优化了性能。作为最新一代标准,DDR5的传输速率从4800MT/s起步, 相比DDR4的3200MT/s,带宽提升了50%。与DDR4相比,DDR5具有更高的速度、更大的容量和更低的功 耗。此外,DDR5还集成了电源管理IC(PMIC),改善了信号完整性和功耗表现。随着AI和数据中心对内存 带宽需求的增加,DDR6等下一代标准也在研发中,预计将进一步提升数据传输速率和容量。
先进封装
基于XY平面的先进封装,主要通过RDL进行信号延伸和互连
先进封装技术是半导体行业近年来的重要发展方向,旨在通过创新的封装架构和工艺,提升芯片性能、降低 功耗、减小尺寸,并优化成本。可以列出的先进封装相关的名称至少有几十种,为了便于区分,我们将先进 封装分为两大类:① 基于XY平面延伸的先进封装技术,主要通过RDL进行信号的延伸和互连;② 基于Z轴 延伸的先进封装技术,主要是通过TSV进行信号延伸和互连。
这里的XY平面指的是Wafer或者芯片的XY平面,这类封装的鲜明特点就是没有TSV硅通孔,其信号延伸的手 段或技术主要通过RDL层来实现,通常没有基板,其RDL布线时是依附在芯片的硅体上,或者在附加的 Molding上。因为最终的封装产品没有基板,所以此类封装都比较薄,在智能手机中得到广泛的应用。
定制化存储:华邦CUBE介绍
CUBE:用于边缘计算且具备可扩展性
华邦电子开发的创新型CUBE(Customized Ultra Bandwidth Element,定制化超高带宽元件)技术,旨 在大幅提升内存接口带宽,以满足边缘计算平台上快速增长的AI应用需求。CUBE作为一款高带宽、低功耗、 紧凑尺寸、极具成本效益,以及可定制化的内存解决方案,可以满足AI应用日益增长的需求,并且可供模 组制造商和SoC厂商直接部署。
CUBE:小号HBM,客制化高宽带3D TSV DRAM
CUBE是客制化的高宽带存储芯片3D TSV DRAM,专门为边缘AI运算装置所设计的存储架构,利用3D堆 叠技术并结合异质键合技术以提供高带宽、低功耗、单颗256Mb至8Gb的存储芯片。
架构:CUBE是将SoC裸片置上,DRAM裸片置下,可以省去SoC中的TSV工艺,进而降低了SoC裸片的尺 寸与成本。同时,3D DRAM TSV工艺可以将SoC信号引至外部,使它们成为同一颗芯片,进一步缩减了 封装尺寸。而因为SoC裸片在上方也可以有比较好的散热效果。
制造:据了解,这个专案当时由联电推动,目标是锁定边缘运算AI应用在穿戴式装置、家用和工业物联网、 安全和智慧基础设备等,提供中高阶算力、可客制的存储模组和较低功耗需求的解决方案。联电负责 CMOS晶圆制造和晶圆对晶圆混合封装技术,华邦电导入客制化CUBE架构,智原提供全面的3D先进封装 一站式服务,以及存储IP和ASIC小芯片设计服务,日月光则提供晶圆切割、封装和测试服务,另外还有 Cadence负责晶圆对晶圆设计流程,提取TSV特性和签核认证。
3DCaaS (3D CUBE as a Service)一站式服务平台
在早前宣布加入UCIe联盟的时候华邦表示,公司将提供3DCaaS(3D CUBE as a Service)一站式服务平 台,为客户提供领先的标准化产品解决方案。他们指出,通过此平台,客户不仅可以获得 3D TSV DRAM (又名 CUBE)KGD 内存芯片和针对多芯片设备优化的 2.5D/3D 后段工艺(采用 CoW/WoW技术),还 可获取由华邦的平台合作伙伴提供的技术咨询服务。这意味着客户可轻松获得完整且全面的 CUBE 产品支 持,并享受 Silicon-Cap、interposer 等技术的附加服务。其中,CUBE正是华邦3DCaaS服务的核心之一。
报告节选:
来源:新浪财经