IJCAI 25 | SAP——基于拆分与私有化框架的语言模型隐私保护微调方案

摘要：在当前大模型即服务（Language-Model-as-a-Service, LMaaS）的发展浪潮中，用户对于定制化微调专属大模型的需求日益迫切。然而，个人数据隐私问题依然不容忽视。在此背景下，来自字节跳动安全研究团队、香港城市大学、清华大学和南京大学的研究

在当前大模型即服务（Language-Model-as-a-Service, LMaaS）的发展浪潮中，用户对于定制化微调专属大模型的需求日益迫切。然而，个人数据隐私问题依然不容忽视。在此背景下，来自字节跳动安全研究团队、香港城市大学、清华大学和南京大学的研究人员共同提出了一种创新性的Split-and-Privatize (SAP）框架，旨在提供具备隐私保护功能的微调服务。研究成果《SAP: Privacy-Preserving Fine-Tuning on Language Models with Split-and-Privatize Framework》已被人工智能领域的顶级会议IJCAI 2025收录。在本届IJCAI 2025会议中，有效投稿数量达5404篇，录用1042篇，录用率仅为19.3%。

在当今数字化时代，预训练语言模型（PLM）凭借其强大的文本学习能力，在法律、金融、医疗等众多领域得到了广泛应用。如下图所示，为使PLM能更优适配下游任务，参数高效微调（PEFT）技术应运而生，企业也由此推出了大模型即服务（LMaaS）。LMaaS允许用户借助私有数据集对PLM进行微调、部署及使用，虽看似便捷，实则潜藏着巨大的数据隐私风险。用户上传的私人数据中往往包含敏感信息，一旦发生数据泄露，后果将极为严重。

为应对这一挑战，现有研究在三个主要方向上开展了初步探索：文本私有化、差分隐私微调以及基于拆分学习的微调。尽管前两种方法提供了不同程度的用户数据保护，但因引入（本地）差分隐私噪声，它们在有效平衡效用与隐私的权衡方面存在挑战。此外，差分隐私微调方案对生成任务不适用，这是由其特殊的加噪机制所致。第三种方案，即基于拆分学习的微调方案易遭受隐私推理攻击。例如，攻击者可通过属性推断攻击和嵌入反转攻击，利用文本嵌入推断用户的隐私信息。因此，现有方法要么难以在隐私与效用之间实现良好平衡，要么易受恶意隐私攻击。

因此，大模型即服务亟需一种具备更优隐私 - 效用特性、且支持生成任务的微调服务框架。为达成此目标，字节跳动安全研究团队、香港城市大学、清华大学以及南京大学的研究人员联合提出了创新的 Split-and-Privatize（SAP）框架。该框架将拆分学习与差分隐私技术巧妙融合，有效降低了隐私泄露风险。同时，研究人员还提出了贡献令牌识别（CTI）方法，精准地平衡了模型效用与隐私保护，为语言模型的隐私保护带来了新突破。特别地，研究团队还开发了一种 CTI 变体技术以支持复杂的生成任务。研究人员对所提出的框架进行了全面评估，结果显示，在斯坦福情绪树库数据集上，SAP 的经验隐私提升了 65%，而模型性能仅下降了 1%，优于现有的最先进基线。

（一）工作流程概述

首先，SAP 运用 SplitNN架构将 PLM 拆分为底部模型与顶部模型。如下图所示，服务提供商将 PLM 的前 m 层（涵盖嵌入层以及部分编码器块）发送给用户，作为底部模型；自身保留剩余的(l - m)层，作为顶部模型。当用户使用 SAP 进行微调时，用户使用底部模型处理本地敏感数据，并通过 CTI 方法识别重要令牌，接着对这些重要令牌添加噪声以实现私有化输出，随后将其发送给服务提供商。服务提供商利用顶部模型完成前向过程，并将输出返回给用户。用户计算梯度并回传，双方进行迭代协作，直至模型收敛。需着重注意一个关键的参数选择问题，即选择合适的拆分层极为重要，这要求在隐私保护、计算负担以及模型资产保护之间达成平衡。

（二）文本私有化

前文提及，用户会运用底部模型（即编码层）对本地私有数据进行处理，此过程通常是提取本地私有数据的文本表征。为避免服务提供商从文本表征中恢复原始输入，用户在发送文本表征前需开展私有化处理。为此，SAP 采用 ηdχ - 隐私机制（本地差分隐私机制的一种变体）对文本表征进行私有化。具体而言，以底部模型作为冻结嵌入层为例，用户首先为输入文本的每个令牌获取嵌入向量，添加独立随机噪声，接着将扰动向量替换为嵌入空间中最近的邻居向量，最后将处理后的序列发送给服务提供商，以此确保符合 ηdχ - 隐私要求。

（三）贡献令牌识别（CTI）

文本私有化在保护隐私方面具有一定作用，但会导致模型在下游任务中的性能下降。为实现更优的隐私 - 效用权衡，SAP 的核心思想是对重要令牌添加适量的隐私噪声，对不重要的令牌添加较大的隐私噪声。基于此，SAP 框架提出了 CTI 方法。具体而言，在文本分类任务中，借鉴 TF-IDF 概念，通过分析令牌对各类别的统计贡献来确定其重要性；在文本生成任务中，依据多头注意力（MHA）机制中的注意力分数判断令牌重要性，并结合令牌值的 L1 范数对计算结果进行优化。获得令牌重要性分数后，SAP 根据该分数自适应分配差分隐私参数（如下公式所示），减少对重要性高的令牌的扰动，增加对重要性低的令牌的扰动，从而实现更理想的隐私 - 效用平衡。

在该公式中为自适应的差分隐私参数，为初始化的差分隐私参数，为令牌重要性分数，为常数。

（一）实验设置

实验环境：为评估 SAP 系统的性能，我们在四个数据集上开展了全面的实验。所有实验均基于 Python 3.9 和 PyTorch 1.12 进行开发，并在配备 NVIDIA A100 Tensor Core GPU 的服务器上完成评估。

数据集：本文选取多个基准数据集对 SAP 框架进行评估。在文本分类任务中，使用了 Financial Phrasebank（FP）、Stanford Sentiment Treebank（SST）和 Blog 数据集；在文本生成任务中，采用了 SQuAD 数据集。

模型：本文选取了 Roberta - Large 和 Llama - 3 作为预训练模型。

基线：对比的基线方法包括 DP - Forward、SLDP - FT、DP - OPT。为评估隐私性能，采用了嵌入反转攻击（EIA）和属性推理攻击（AIA）这两种前沿的隐私攻击方法，并在白盒设置下开展实验。实验基于 Huggingface 的 Transformers 库和 PEFT 库，运用 LoRA 方法对预训练语言模型（PLM）进行微调，使用 AdamW 优化器和线性学习率调度器。

实施细节：本实验基于Transformers库和Huggingface的PEFT库实现。具体而言，采用LoRA方法对预训练语言模型（PLM）进行微调，在微调过程中使用配备线性学习率调度器的AdamW优化器，初始学习率设定为3e - 4。根据经验，数

设置为。分别使用效用分类准确率（UA）和F1分数对效用绩效进行评估。此外，采用经验隐私（EP）作为评估隐私保护能力的指标，其中经验隐私定义为1 - X，X表示攻击成功率。

数据集信息如下：

（二）性能评估

在文本分类任务中，采用Roberta和Llama模型开展实验，不同隐私参数下的实验结果显示，在合理的隐私保护设置下，SAP框架对模型分类性能的影响较小。例如，当Roberta模型的η0处于[50, 70]区间时，其准确率与无隐私保护时相近。在文本生成任务中，运用Llama模型在SQuAD数据集上进行测试，发现当η0 = 500时，模型性能显著下降，但在[700, 800]区间内，性能逐渐恢复。这是由于生成任务对语义变化较为敏感，dx - 隐私机制会对生成内容产生影响。而现有的基线方法大多不支持生成任务，这凸显了SAP框架在该领域的创新性。

（三）隐私评估

与当前最先进的基线方法相比，在相同经验隐私（EP）条件下，SAP框架在抵御EIA和AIA攻击方面展现出卓越表现。于SST数据集上，当经验隐私（EP）为30%时，采用Roberta模型的SAP框架的性能比DP - Forward高出12%；在Blog数据集上，面对AIA攻击，无论标记数据的数量如何，SAP框架均显著优于基线方法。在生成任务中，基于注意力的CTI方法也有效改进了SAP框架的隐私 - 效用平衡。

（四）参数敏感性分析

PLM的拆分位置对SAP框架具有重大影响。实验结果显示，增加底部模型的编码器块数量能够提升隐私保护水平。当编码器块数量达到8个时，即便不进行文本私有化处理，经验隐私也可达到约80%。与此同时，随着底部模型层数的增加，未进行私有化处理的SAP框架的效用准确率（UA）会稍有下降，而经验隐私（EP）则会显著提高。若应用文本私有化并降低隐私参数，EP将进一步增强，但UA也会随之降低。

（五）消融分析

通过对 CTI 在 SAP 框架中的作用进行消融分析发现，当拆分模型但不进行文本私有化时，与集中式微调相比，其性能未受影响，但易遭受 EIA 攻击。引入扰动以确保 ηdx - 隐私可增强隐私保护效果，然而，较低的 η0 值在提高隐私性的同时会降低效用。基于频率的 CTI 方法能够有效优化 SAP 框架在分类任务中的隐私 - 效用平衡，可自适应地调整隐私预算，从而提升 UA 和 EP。

（一）隐私保护与模型性能的平衡突破

SAP框架采用创新方式对PLM进行拆分，并结合自适应文本私有化技术。在保护模型及数据隐私的同时，该框架最大程度地维持了模型性能，可适配多种大语言模型（LLM）定制场景。对于资源受限的用户，底部模型采用冻结嵌入层的方式，在SST数据集上可实现40%的隐私保护增强，且性能仅损失4.6%；对于资源充足的用户，使用包含6个编码器块的底部模型，能实现65%的隐私保护增强，性能仅下降1%。

（二）CTI方法的关键作用

CTI方法是SAP框架的核心优势之一。其针对不同的文本任务设计了差异化的令牌重要性计算方式，并自适应地调整隐私预算，能够有效平衡隐私保护与模型效用，为语言模型隐私保护技术的发展提供了新的思路。

（三）未来展望

随着技术的持续进步，对数据隐私保护的需求亦不断增加。未来，字节跳动安全研究团队计划进一步优化 SAP 框架，增强其在更多复杂场景中的性能，拓宽其应用范围，完善Jeddak核心产品能力，为用户提供更为全面且可靠的数据隐私保护方案，推动语言模型隐私保护技术达到新的高度。

来源：字节跳动技术团队

标签：模型 sap 私有化拆分 ijcai

本文地址：https://news.43u.com.cn/a/2054824.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!