面向异构无线算网的高效大模型微调方法

360影视 欧美动漫 2025-05-21 14:01 2

摘要:随着大语言模型(LAMs, Large Artificial-Intelligence Models)的崛起,其卓越的自然语言处理能力受到广泛关注,但其庞大的计算需求使得微调的计算开销巨大。尽管移动终端算力不断提升,但仅依赖终端难以满足LAMs的计算需求。传统

专题-12

面向异构无线算网的高效大模型微调方法

112

(1.北京邮电大学网络与交换技术国家重点实验室,北京 100876;

2.南京师范大学计算机与电子信息学院,江苏 南京 210023)

【摘 要】随着大语言模型(LAMs, Large Artificial-Intelligence Models)的崛起,其卓越的自然语言处理能力受到广泛关注,但其庞大的计算需求使得微调的计算开销巨大。尽管移动终端算力不断提升,但仅依赖终端难以满足LAMs的计算需求。传统做法是将这庞大的计算任务卸载到云服务器上。但这会面临用户数据隐私泄露、主干网堵塞等问题。随着无线算力网络的发展,算力资源越来越多地分布在边缘侧,使得微调任务在边缘处理成为可能。这种方式既可以减少云卸载带来的主干网络流量压力,又能提高无线算网节点的算力利用率。但单一节点仍然面临算力有限与LAMs庞大计算量之间的矛盾。为了解决这个问题,针对以Transformer为基础的大语言模型,提出了一种基于分割学习的分布式并行微调及部署方法。实验表明通过分布式并行计算,这种方法最大化了系统内异构无线算网节点的算力利用率,实现了高效的大语言模型微调。而将一小部分计算任务部署在终端,使得原始用户数据不用上传至无线节点中,避免了原始数据的泄漏。

【关键词】AI大模型;分布式训练;分割学习;无线算力网络;能效

doi:10.3969/j.issn.1006-1010.20250111-0001

中图分类号:TN929.5 文献标志码:A

文章编号:1006-1010(2025)03-0092-08

引用格式:高瀏,刘喜庆,高镝翔,等. 面向异构无线算网的高效大模型微调方法[J]. 移动通信, 2025,49(3): 92-99.

GAO Liu, LIU Xiqing, GAO Dixiang, et al. Efficient Fine-Tuning of Large AI Models for Heterogeneous Wireless Computing Power Networks[J]. Mobile Communications, 2025,49(3): 92-99.

0 引言

近年来,人工智能(AI, Artificial Intelligence)大模型(LAM, Large AI Model)凭借其卓越的泛化能力、理解能力和生成能力,推动了各类智能应用的快速发展。如可穿戴设备利用预训练的Transformer模型能为用户提供便捷的健康管理服务[1]。然而,Transformer等LAM的卓越性能来源于庞大的模型规模。以亿级参数量和高计算需求为特点,LAM的微调对终端设备的算力和存储资源提出了巨大的挑战[2]。为把AI智能服务普及至每个角落,第六代(6G, Sixth Generation)无线接入网(RAN, Radio Access Network)正朝着将通信与计算深度融合的算力网络(CPN, Computing Power Network)方向发展[3]。通过高速的通信网络,CPN将云端的算力资源输送到用户终端,弥补了终端设备的算力不足。这一演进促使LAM的微调任务由云端服务器完成,成为了当前主流的解决方案[4]。然而,这种方案虽然缓解了终端设备资源不足的困境,但也面临着隐私泄露和数据安全问题,尤其是在处理敏感信息时[5]。此外,云端与终端的连接稳定性问题可能导致系统延迟增加,从而影响服务质量[6]。海量并发的请求也可能对骨干网络和云服务器造成巨大压力[7],带来进一步降低服务质量的风险。 为此,有学者提出了无线CPN(RCPN, Radio CPN)的概念,将CPN扩展到RAN的边缘,以便通过无线算力为用户提供智能服务[8]。其中,无线算力是指RAN中的边缘设备通过无线信道为用户提供算网服务的能力。通过将大量无线算力部署在地理上接近终端设备的位置,RCPN有望更快速地处理LAM的微调任务,并减轻对云端的依赖,缓解骨干网络的压力[9]。尽管如此,RCPN仍面临着资源异构和任务异构的问题。在RCPN中,不同边缘设备的算力和存储存在差异,使得统一的计算模型和优化策略难以在所有节点上高效运行[10]。此外,并发的用户任务需求和输入数据的异构性也使得系统的协调变得更加复杂[11]。因此,如何在异构环境中高效地分配资源,既保障计算效率又避免隐私泄露,是LAM在边缘侧实现微调的关键问题。分布式并行计算将微调任务分配到多个算力节点并行处理,能够大幅降低计算延迟[12],有望带来新的契机。数据并行(DP, Data Parallelism)是最为常见的并行策略。DP通过将输入数据拆分为多个片段,分配到不同的计算节点上处理,从而加速计算[14]。但随着模型规模的急剧扩大,并行的数据片段仍需要经过巨量的参数运算,同时微调请求数据通常简短,DP难以有效拆分请求,提高效率。在这种情况下,模型并行(MP, Model Parallelism)通过将模型切分成多个部分,能够进一步提高计算效率[15]。对于Transformer类的模型,常见的MP包括张量并行(TP, Tensor Parallelism)[16]和序列并行(SP, Sequence Parallelism)[17]。TP通过将Transformer微调任务中复杂运算的权重矩阵拆分为多个子矩阵,并在不同的算力节点上并行处理,实现更高效的资源利用[16]。而SP是将长序列划分为若干小段,分配到不同节点进行并行处理,提高了并行度同时减少了计算瓶颈[17]。此外,文献[18]提出了双重模型并行的方法,进一步提升计算速度。然而,随着模型规模的急剧扩大,分布式并行计算方法仍面临一些挑战。例如,TP和SP通过切分模型本身,尽管在提高计算效率方面具有一定优势,但对于不同节点之间的异构计算能力和存储差异仍然存在较大挑战,且依然存在隐私泄漏的风险。为此,分割学习(SL, Split Learning)将LAM模型切割成多个部分,将其中一部分部署在用户端,使得计算任务的一小部分能够在本地完成[20]。这种方法既避免了用户数据被直接发送到算力节点,提升了计算效率,又大大增强了隐私保护。为提高效率和隐私安全,文献[21]提出联邦分割学习的框架,并在此框架下微调LLM有效降低了边缘设备和服务器之间传递的参数数量,减少了系统的计算和通信开销。

本文结合无线算力、分布式计算和分割学习,提出了一种高效的大模型微调方法。该方法通过在多个无线算力节点之间并行处理微调任务,并在节点资源不足时,自动向云端请求补充计算,显著提升计算效率。此外,所提方法通过分割学习进一步分解LLM的计算任务并将部分计算任务保留在用户端做本地运算,在实现云-边-端算力协同处理的同时有效保证了用户原始数据的隐私性和安全性。

1 系统模型

1.1 能耗模型

1.2 时延模型

1.3 问题建立

2 基于分割学习的LAM分布式微调

2.1 用户端

2.2 边缘侧节点

2.3 云端

云端接收到来自边缘侧节点的计算结果后,将这些计算结果进行聚合,并将聚合结果发送给各算力节点。各算力节点通过无线将聚合结果发送给用户端,用户端根据梯度更新本地模型的权重,完成本轮微调过程。

2.4 负载规划算法

由于每个TP或SP块完成后都需要一个同步点。这些同步点的启动受最慢设备的完成时间的约束。此外,对基于Transformer的模型进行微调需要大量内存,这给有严格内存限制的边缘设备带来了重大挑战。因此,进行负载规划时应全面考虑每个设备的内存预算,以防止过度消耗可用内存。

为此,在TP中,根据MHA块的头部维度、MLP 块权重矩阵的行维度以及连接块的输入张量的序列维度进行分区来分配工作负载;在SP中,连接块的执行时间主要取决于内存访问量,而不是设备的计算能力。在这种情况下,采用等分区策略进行SP规划。对于TP,可以实现区块的最佳分区,工作负载分配与每个设备的计算能力成正比,而不考虑内存预算。这种分区方案可确保所有设备几乎同时完成其任务,从而有效减少可能导致资源利用率欠佳的潜在延迟。

如算法1中所述,本文设计了基于分割学习的大模型微调算法。第一步,该算法忽略了设备的内存限制,并根据其计算能力分配工作负载,从而确保工作负载的平衡(第8行)并进行MHA的TP和SP(第9~10行)。随后,在此初始分配的基础上,第二步微调工作负载分配。它将超出内存预算的设备中的超额工作负载重新分配到具有空闲内存容量的设备(第11~20行)。

计算能力分配工作负载,从而确保工作负载的平衡(第8行)并进行MHA的TP和SP(第9~10行)。随后,在此初始分配的基础上,第二步微调工作负载分配。它将超出内存预算的设备中的超额工作负载重新分配到具有空闲内存容量的设备(第11~20行)。最后完成MLP的TP并输出序列Y和模型配置参数(第23~28行)。

3 实验与结果分析

本节呈现了使用基于分割学习的分布式LAM微调方案得到的仿真实验结果。本实验是使用python在pytorch环境下进行的。本文使用GPT-2去评估性能,参数范围在六百万到二十亿之间。另外,采用Gelu的语料库中选取了平均序列长度为300的样本子集来测试。

为了更贴合真实的边缘环境,设置了三种不同类型的边缘设备,分别是节点L、节点M、节点S,它们的内存预算分别是:1.5 GB、1.2 GB和0.7 GB[22]。其他的仿真参数的设置如表1所示

图3展示了损失函数随着迭代次数变化的趋势。从图中可以看出,随着迭代次数的增加,各种微调策略的损失值逐渐减小。这是因为在微调过程中,模型不断更新和优化参数,从而减少了误差。所有策略在迭代次数达到8 000时都趋于收敛。当迭代次数等于8 000时,云边协同微调策略的损失值最低,其次是云上微调,而云边端协同微调的损失值最高。这是由于云边协同微调能够在边缘计算节点和云端之间高效分配计算资源,减少数据传输和延迟,从而实现最低的损失值;而云上微调虽然计算能力较强,但其传输延迟和资源分配的不均衡性导致损失略有上升;云边端协同微调则因部分模型部署在用户端,而用户端的计算能力和存储资源远小于边缘节点和云端,导致其损失值相对较高。此外,针对云边端协同微调策略,部署在用户端的模型层数为4层时损失值最低,而8层时损失值最高。这是因为在用户端计算资源有限的情况下,过多的模型层数增加了计算负担,导致微调过程中的损失值较大。

图4展示了模型微调的速度与在用户端部署层数之间的关系。从图中可以看出,在用户端部署的层数越少,每秒处理的批次数量越大,微调的速度越快。在用户端部署2层的微调速度比部署10层的微调速度每秒快13批次。这是因为在用户端部署的模型层数减少后,模型的计算复杂度降低,从而减轻了计算负担,使得每次前向和反向传播的计算更加高效。减少模型的层数有助于减小每次微调所需的计算量,进而提高了微调过程的速度。

图5展示了在不同的边缘侧算力节点个数和用户端层数配置下,微调时间的变化趋势。从图中可以看出,微调时间随着用户端层数的增加而逐渐上升。这表明用户端微调更多的层数相比云端微调速度慢。与此相反,微调时间随着边缘侧算力节点个数的增加呈现出下降趋势,表明增加算力节点能够有效地分担计算负载,加速微调过程。在较少的边缘侧算力节点配置下,节点数的增加对微调时间的缩短有明显的影响;然而,当节点数增加到一定程度后,微调时间的减少幅度逐渐放缓,表明计算资源的进一步增加对微调时间的影响逐渐趋于平稳。

图6为系统总能耗与边缘侧算力节点的个数之间的关系。从图中可以看出,云端微调策略的总能耗最多,云边端协同微调策略的总能耗次之,云边协同的能耗最多。相比云端微调方案,云边协同能效提升约29.7%。这是因为云边协同策略通过高效的计算资源分配和数据传输优化,实现了最小化能耗;云边端协同为了保护隐私泄露,将部分模型放在用户端,导致能耗有所提高;而云端微调策略由于没有做资源分配的高效优化,使得能耗最低。同时,随着边缘侧算力节点个数的增加,无论是云边协同还是云边端协同,系统的总能耗都在降低。这是因为节点个数的增加,使得更多的计算任务被更有效地分配到边缘节点,减少了对云端计算的依赖,降低了能耗,提高了算力利用率。

4 结束语

为了提高大模型微调的效率和隐私泄露的问题,本文提出了一种基于分割学习的无线CPN云-边-端协同微调方案。通过将大模型的微调任务分割成多个小任务,云端、边缘端和用户端协同工作,其中云端负责全局模型的管理,边缘端承担部分计算任务,用户端在本地进行数据处理和模型更新。这种方案能够充分利用边缘端算力节点辅助云端进行微调,有效缓解云端压力。本文通过实验验证了所提出方案与云端微调的基准方案相比,微调速度提高了17.6%,能耗提升了29.7%,算力利用率得到提高。随着边缘计算和分割学习技术的发展,本文方案有望在更多应用场景中得到推广,推动大模型微调的高效与智能化。

[1] Qu G, Chen Q, Wei W, et al. Mobile Edge Intelligence for Large Language Models: A Contemporary Survey[J]. IEEE Communications Surveys & Tutorials, 2024.

[2] Shuvo M M H, Islam S K, Cheng J, et al. Efficient Acceleration of Deep Learning Inference on Resource-Constrained Edge Devices: A Review[J]. Proceedings of the IEEE, 2023,111(1): 42-91.

[3] 郭凤仙,孙耀华,彭木根. 6G算力网络:体系架构与关键技术[J]. 无线电通信技术, 2023,49(1): 21-30.

[4] He Y, Fang J, Yu F R, et al. Large Language Models (LLMs) Inference Offloading and Resource Allocation in Cloud-Edge Computing: An Active Inference Approach[J]. IEEE Transactions on Mobile Computing, 2024,23(12): 11253-11264.

[5] Sun P J. Privacy Protection and Data Security in Cloud Computing: A Survey, Challenges, and Solutions[J]. IEEE Access, 2019(7): 147420-147452.

[6] Cai Y, Llorca J, Tulino A M, et al. Ultra-Reliable Distributed Cloud Network Control With End-to-End Latency Constraints[J]. IEEE Transactions on Networking, 2022,30(6): 2505-2520.

[7] Yang P, Zhang N, Bi Y, et al. Catalyzing Cloud-Fog Interoperation in 5G Wireless Networks: An SDN Approach[J]. IEEE Network, 2017,31(5): 14-20.

[8] Yukun S, Bo L, Junlin L, et al. Computing Power Network: A Survey[J]. China Communications, 2024(9).

[9] Guo J, Wang M, Yin H, et al. Large Language Models and Artificial Intelligence Generated Content Technologies Meet Communication Networks[J]. IEEE Internet of Things Journal, 2024.

[10] Xie R, Tang Q, Qiao S, et al. When Serverless Computing Meets Edge Computing: Architecture, Challenges, and Open Issues[J]. IEEE Wireless Communications, 2021,28(5): 126-133.

[11] Lee G, Espinosa J A, De Lone W H. Task Environment Complexity, Global Team Dispersion, Process Capabilities, and Coordination in Software Development[J]. IEEE Transactions on Software Engineering, 2013,39(12): 1753-1771.

[12] Ko S-W, Han K, Huang K. Wireless Networks for Mobile Edge Computing: Spatial Modeling and Latency Analysis[J]. IEEE Transactions on Wireless Communications, 2018,17(8): 5225-5240.

[13] Pal S, Ebrahimi E, Zulfiqar A, et al. Optimizing Multi-GPU Parallelization Strategies for Deep Learning Training[J]. IEEE Micro, 2019,39(5): 91-101..

[14] Li S, Zhao Y, Varma R, et al. PyTorch Distributed: Experiences on Accelerating Data Parallel Training[J]. arXiv, 2020.

[15] Song L, Mao J, Zhuo Y, et al. HyPar: Towards Hybrid Parallelism for Deep Learning Accelerator Array[C]//2019 IEEE International Symposium on High Performance Computer Architecture (HPCA). IEEE, 2019.

[16] Li R, Fu D, Shi C, et al. Efficient LLMs Training and Inference: An Introduction[J]. IEEE Access, 2024.

[17] Zhao X, Cheng S, Chen C, et al. DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers[J]. 2024.

[18] Karakus C, Huilgol R, Wu F, et al. Amazon Sage Maker Model Parallelism: A General and Flexible Framework for Large Model Training[J]. arXiv, 2021.

[19] Raposo D, et al. Mixture-of-Depths: Dynamically Allocating Compute in Transformer-Based Language Models[J]. arXivpreprint, 2024.

[20] Lin Z, Qu G, Chen X, et al. Split Learning in 6G Edge Networks[J]. IEEE Wireless Communications, 2024,31(4): 170-176.

[21] 谢思静,文鼎柱. 基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法[J]. 数据采集与处理, 2024,39(3): 577-587.

[22] Ye S, Du J, Zeng L, et al. Galaxy: A Resource-Efficient Collaborative Edge AI System for In-situ Transformer Inference[J]. IEEE INFOCOM 2024 - IEEE Conference on Computer Communications, 2024. ★

刘喜庆:博士毕业于哈尔滨工业大学,现任北京邮电大学副教授,博士生导师,主要研究方向包括通感一体化、波形设计和多址接入技术。

高镝翔:北京邮电大学在读博士研究生,主要研究方向为D2D通信、边缘计算技术和算力网络。

夏年:博士毕业于台湾成功大学,现任南京师范大学讲师,主要研究方向包括无线通信、网络安全和软件定义网络。

★往期推荐

汇总| 2025下半年专题征稿链接

《移动通信》杂志由中国电子科技集团公司主管,中国电子科技集团公司第七研究所主办,是中国期刊方阵“双效期刊”、工业和信息化部精品电子期刊、中国科技论文统计源刊、中国通信学会《信息通信领域高质量科技期刊分级目录》入选期刊、中国电子学会《电子技术、通信技术领域高质量科技期刊分级目录》入选期刊、中国应用型核心期刊、日本JST收录期刊。国内连续出版物号:CN44-1301/TN,国际连续出版物号:ISSN1006-1010,邮发代号:46-181。

来源:移动通信编辑部

相关推荐