IJCAI 25 | SAP——基于拆分与私有化框架的语言模型隐私保护微调方案

360影视 日韩动漫 2025-06-17 15:38 3

摘要:在当前大模型即服务(Language-Model-as-a-Service, LMaaS)的发展浪潮中,用户对于定制化微调专属大模型的需求日益迫切。然而,个人数据隐私问题依然不容忽视。在此背景下,来自字节跳动安全研究团队、香港城市大学、清华大学和南京大学的研究

在当前大模型即服务(Language-Model-as-a-Service, LMaaS)的发展浪潮中,用户对于定制化微调专属大模型的需求日益迫切。然而,个人数据隐私问题依然不容忽视。在此背景下,来自字节跳动安全研究团队、香港城市大学、清华大学和南京大学的研究人员共同提出了一种创新性的Split-and-Privatize (SAP)框架,旨在提供具备隐私保护功能的微调服务。研究成果《SAP: Privacy-Preserving Fine-Tuning on Language Models with Split-and-Privatize Framework》已被人工智能领域的顶级会议IJCAI 2025收录。在本届IJCAI 2025会议中,有效投稿数量达5404篇,录用1042篇,录用率仅为19.3%。

在当今数字化时代,预训练语言模型(PLM)凭借其强大的文本学习能力,在法律、金融、医疗等众多领域得到了广泛应用。如下图所示,为使PLM能更优适配下游任务,参数高效微调(PEFT)技术应运而生,企业也由此推出了大模型即服务(LMaaS)。LMaaS允许用户借助私有数据集对PLM进行微调、部署及使用,虽看似便捷,实则潜藏着巨大的数据隐私风险。用户上传的私人数据中往往包含敏感信息,一旦发生数据泄露,后果将极为严重。

为应对这一挑战,现有研究在三个主要方向上开展了初步探索:文本私有化、差分隐私微调以及基于拆分学习的微调。尽管前两种方法提供了不同程度的用户数据保护,但因引入(本地)差分隐私噪声,它们在有效平衡效用与隐私的权衡方面存在挑战。此外,差分隐私微调方案对生成任务不适用,这是由其特殊的加噪机制所致。第三种方案,即基于拆分学习的微调方案易遭受隐私推理攻击。例如,攻击者可通过属性推断攻击和嵌入反转攻击,利用文本嵌入推断用户的隐私信息。因此,现有方法要么难以在隐私与效用之间实现良好平衡,要么易受恶意隐私攻击

因此,大模型即服务亟需一种具备更优隐私 - 效用特性、且支持生成任务的微调服务框架。为达成此目标,字节跳动安全研究团队、香港城市大学、清华大学以及南京大学的研究人员联合提出了创新的 Split-and-Privatize(SAP)框架。该框架将拆分学习与差分隐私技术巧妙融合,有效降低了隐私泄露风险。同时,研究人员还提出了贡献令牌识别(CTI)方法,精准地平衡了模型效用与隐私保护,为语言模型的隐私保护带来了新突破。特别地,研究团队还开发了一种 CTI 变体技术以支持复杂的生成任务。研究人员对所提出的框架进行了全面评估,结果显示,在斯坦福情绪树库数据集上,SAP 的经验隐私提升了 65%,而模型性能仅下降了 1%,优于现有的最先进基线。

(一)工作流程概述

首先,SAP 运用 SplitNN架构将 PLM 拆分为底部模型与顶部模型。如下图所示,服务提供商将 PLM 的前 m 层(涵盖嵌入层以及部分编码器块)发送给用户,作为底部模型;自身保留剩余的(l - m)层,作为顶部模型。当用户使用 SAP 进行微调时,用户使用底部模型处理本地敏感数据,并通过 CTI 方法识别重要令牌,接着对这些重要令牌添加噪声以实现私有化输出,随后将其发送给服务提供商。服务提供商利用顶部模型完成前向过程,并将输出返回给用户。用户计算梯度并回传,双方进行迭代协作,直至模型收敛。需着重注意一个关键的参数选择问题,即选择合适的拆分层极为重要,这要求在隐私保护、计算负担以及模型资产保护之间达成平衡。

(二)文本私有化

前文提及,用户会运用底部模型(即编码层)对本地私有数据进行处理,此过程通常是提取本地私有数据的文本表征。为避免服务提供商从文本表征中恢复原始输入,用户在发送文本表征前需开展私有化处理。为此,SAP 采用 ηdχ - 隐私机制(本地差分隐私机制的一种变体)对文本表征进行私有化。具体而言,以底部模型作为冻结嵌入层为例,用户首先为输入文本的每个令牌获取嵌入向量,添加独立随机噪声,接着将扰动向量替换为嵌入空间中最近的邻居向量,最后将处理后的序列发送给服务提供商,以此确保符合 ηdχ - 隐私要求。

(三)贡献令牌识别(CTI)

文本私有化在保护隐私方面具有一定作用,但会导致模型在下游任务中的性能下降。为实现更优的隐私 - 效用权衡,SAP 的核心思想是对重要令牌添加适量的隐私噪声,对不重要的令牌添加较大的隐私噪声。 基于此,SAP 框架提出了 CTI 方法。具体而言,在文本分类任务中,借鉴 TF-IDF 概念,通过分析令牌对各类别的统计贡献来确定其重要性;在文本生成任务中,依据多头注意力(MHA)机制中的注意力分数判断令牌重要性,并结合令牌值的 L1 范数对计算结果进行优化。获得令牌重要性分数后,SAP 根据该分数自适应分配差分隐私参数(如下公式所示),减少对重要性高的令牌的扰动,增加对重要性低的令牌的扰动,从而实现更理想的隐私 - 效用平衡。

在该公式中 为自适应的差分隐私参数,为初始化的差分隐私参数,为令牌重要性分数,为常数。

(一)实验设置

实验环境:为评估 SAP 系统的性能,我们在四个数据集上开展了全面的实验。所有实验均基于 Python 3.9 和 PyTorch 1.12 进行开发,并在配备 NVIDIA A100 Tensor Core GPU 的服务器上完成评估。

数据集:本文选取多个基准数据集对 SAP 框架进行评估。在文本分类任务中,使用了 Financial Phrasebank(FP)、Stanford Sentiment Treebank(SST)和 Blog 数据集;在文本生成任务中,采用了 SQuAD 数据集。

模型:本文选取了 Roberta - Large 和 Llama - 3 作为预训练模型。

基线:对比的基线方法包括 DP - Forward、SLDP - FT、DP - OPT。为评估隐私性能,采用了嵌入反转攻击(EIA)和属性推理攻击(AIA)这两种前沿的隐私攻击方法,并在白盒设置下开展实验。实验基于 Huggingface 的 Transformers 库和 PEFT 库,运用 LoRA 方法对预训练语言模型(PLM)进行微调,使用 AdamW 优化器和线性学习率调度器。

实施细节:本实验基于Transformers库和Huggingface的PEFT库实现。具体而言,采用LoRA方法对预训练语言模型(PLM)进行微调,在微调过程中使用配备线性学习率调度器的AdamW优化器,初始学习率设定为3e - 4。根据经验,数

设置为。分别使用效用分类准确率(UA)和F1分数对效用绩效进行评估。此外,采用经验隐私(EP)作为评估隐私保护能力的指标,其中经验隐私定义为1 - X,X表示攻击成功率。

数据集信息如下:

(二)性能评估

在文本分类任务中,采用Roberta和Llama模型开展实验,不同隐私参数下的实验结果显示,在合理的隐私保护设置下,SAP框架对模型分类性能的影响较小。例如,当Roberta模型的η0处于[50, 70]区间时,其准确率与无隐私保护时相近。在文本生成任务中,运用Llama模型在SQuAD数据集上进行测试,发现当η0 = 500时,模型性能显著下降,但在[700, 800]区间内,性能逐渐恢复。这是由于生成任务对语义变化较为敏感,dx - 隐私机制会对生成内容产生影响。而现有的基线方法大多不支持生成任务,这凸显了SAP框架在该领域的创新性。

(三)隐私评估

与当前最先进的基线方法相比,在相同经验隐私(EP)条件下,SAP框架在抵御EIA和AIA攻击方面展现出卓越表现。于SST数据集上,当经验隐私(EP)为30%时,采用Roberta模型的SAP框架的性能比DP - Forward高出12%;在Blog数据集上,面对AIA攻击,无论标记数据的数量如何,SAP框架均显著优于基线方法。在生成任务中,基于注意力的CTI方法也有效改进了SAP框架的隐私 - 效用平衡。

(四)参数敏感性分析

PLM的拆分位置对SAP框架具有重大影响。实验结果显示,增加底部模型的编码器块数量能够提升隐私保护水平。当编码器块数量达到8个时,即便不进行文本私有化处理,经验隐私也可达到约80%。与此同时,随着底部模型层数的增加,未进行私有化处理的SAP框架的效用准确率(UA)会稍有下降,而经验隐私(EP)则会显著提高。若应用文本私有化并降低隐私参数,EP将进一步增强,但UA也会随之降低。

(五)消融分析

通过对 CTI 在 SAP 框架中的作用进行消融分析发现,当拆分模型但不进行文本私有化时,与集中式微调相比,其性能未受影响,但易遭受 EIA 攻击。引入扰动以确保 ηdx - 隐私可增强隐私保护效果,然而,较低的 η0 值在提高隐私性的同时会降低效用。基于频率的 CTI 方法能够有效优化 SAP 框架在分类任务中的隐私 - 效用平衡,可自适应地调整隐私预算,从而提升 UA 和 EP。

(一)隐私保护与模型性能的平衡突破

SAP框架采用创新方式对PLM进行拆分,并结合自适应文本私有化技术。在保护模型及数据隐私的同时,该框架最大程度地维持了模型性能,可适配多种大语言模型(LLM)定制场景。对于资源受限的用户,底部模型采用冻结嵌入层的方式,在SST数据集上可实现40%的隐私保护增强,且性能仅损失4.6%;对于资源充足的用户,使用包含6个编码器块的底部模型,能实现65%的隐私保护增强,性能仅下降1%。

(二)CTI方法的关键作用

CTI方法是SAP框架的核心优势之一。其针对不同的文本任务设计了差异化的令牌重要性计算方式,并自适应地调整隐私预算,能够有效平衡隐私保护与模型效用,为语言模型隐私保护技术的发展提供了新的思路。

(三)未来展望

随着技术的持续进步,对数据隐私保护的需求亦不断增加。未来,字节跳动安全研究团队计划进一步优化 SAP 框架,增强其在更多复杂场景中的性能,拓宽其应用范围,完善Jeddak核心产品能力,为用户提供更为全面且可靠的数据隐私保护方案,推动语言模型隐私保护技术达到新的高度。

来源:字节跳动技术团队

相关推荐