蚂蚁数科、浙江大学、利物浦大学 和 华东师范大学团队 : 构筑更好的大模型隐私保护。摘要:要让大模型适应各不一样的下游任务,微调必不可少。常规的中心化微调过程需要模型和数据存在于同一位置 —— 要么需要数据所有者上传数据(这会威胁到数据所有者的数据隐私),要么模型所有者需要共享模型权重(这又可能泄露自己花费大量资源训练的模型)。此外,在第二种情况下
要让大模型适应各不一样的下游任务,微调必不可少。常规的中心化微调过程需要模型和数据存在于同一位置 —— 要么需要数据所有者上传数据(这会威胁到数据所有者的数据隐私),要么模型所有者需要共享模型权重(这又可能泄露自己花费大量资源训练的模型)。此外,在第二种情况下,模型的参数可能暴露,这可能会增加其微调模型受到攻击的可能性。这些问题都可能阻碍 LLM 的长期发展。
为了有效地保护模型所有权和数据隐私,浙江大学、蚂蚁数科、利物浦大学和华东师范大学的朱建科与王维团队提出了一种全新的 跨域微调(offsite-tuning) 框架:ScaleOT。该框架可为模型隐私提供多种不同规模的有损压缩的仿真器,还能促进无损微调(相比于完整的微调)。该研究论文已被人工智能顶会 AAAI 2025 录用。第一作者为姚凯(蚂蚁摩斯高级算法工程师,浙大博后),通讯作者为朱建科教授与王维老师。
框架设计和创建过程 如图 2 (c) 所示,该框架由两个阶段组成:重要性估计和仿真器生成。 对于第一阶段,该团队提出了一种基于重要性感知型层替换的算法 Dynamic LayerReplace,该算法需要使用一种强化学习方法来确定 LLM 中每一层的重要性。同时,对于不太重要的层,动态选择并训练一组可训练的协调器作为替代,这些协调器是轻量级网络,可用于更好地实现剩余层的对齐。 在第二阶段,根据学习到的重要性得分,可将原始模型层及其对应的协调器以各种方式组合到一起,从而得到仿真器(emulator),同时还能在模型所有者端维持令人满意的性能,如图 1 (d) 所示。 他们根据实践经验发现,如果使用秩分解来进一步地压缩剩余的模型层,还可以更好地实现隐私保护,同时模型的性能下降也不会太多。基于这一观察,该团队提出了选择性秩压缩(SRC)方法。 该团队进行了大量实验,涉及多个模型和数据集,最终证明新提出的方法确实优于之前的方法,同时还能调整压缩后仿真器模型的大小以及 SRC 中的秩约简率。因此,这些新方法的有效性和可行性都得到了验证。 总结起来,该团队的这项研究做出了三大贡献: 提出了一种灵活的方法,可为跨域微调得到多种大小的压缩版模型:提出了一种重要性感知型有损压缩算法 Dynamic LayerReplace,该算法面向使用 LLM 的跨域微调,可通过强化学习和协调器来扩展仿真器。这些组件可以实现灵活的多种规模的压缩模型生成。 仅需一点点微调性能下降,就能通过进一步的压缩获得更好的隐私:新提出的选择性秩压缩策略仅需少量性能损失就能进一步提升模型隐私。 全面的实验表明,新提出的 ScaleOT 优于当前最佳方法。 在研究中,该团队考虑到隐私问题阻止了数据和 LLM 的所有者之间共享和共存数据及模型。他们的目标是在不访问模型所有者的模型权重的情况下,使用数据所有者的数据来调整模型。从预训练的 LLM M 开始,其参数由权重 Θ 表示,以及下游数据集 D,该团队在下游数据上微调这个模型,以实现,其中 。 该团队的目标是通过找到一个比更小、更弱的替代模型(称为仿真器),来促进隐私迁移学习。这种方法可确保与下游用户共享不会威胁到 LLM 的所有权。然后,数据所有者使用他们的数据集对替代模型进行微调,得到。该团队希望,通过将训练好的权重∆^∗重新整合到原始模型中(表示为),几乎可以复制直接在数据集上优化 M 时观察到的性能(表示为 ),从而消除了直接访问 M 的需求。 表示零样本(ZS)性能;表示微调(FT)性能;和分别表示仿真器 ZS 和 FT 的性能; 表示插件性能。 一个有效的跨域微调应该满足以下条件:1)ZS 基于 Transformer 架构设计跨域微调
更具实用性 这篇论文关注的重点是基于 Transformer 架构来设计跨域微调。 这里需要将每个 Transformer 层视为一个基本单元,而 LLM 可以表示成 M = {m_1, m_2, . . . , m_n},其中 n 是总层数。该团队的新方法需要将 M 分成两个组件:一个紧凑型的可训练适应器 A 和模型的其余部分 E。层索引的集合可以定义成满足此条件。为了保护模型的隐私,需要对保持不变的组件 E 执行一次有损压缩,这会得到一个仿真器 E*,从而可通过更新 A 来促进模型微调。 待完成在数据所有者端的训练后,更新后的适应器 A′ 会被返回到模型所有者端并替换 M 中的原来的 A。于是可将最终更新后的 LLM 表示为 M′ = [A′, E]。值得注意的是,有损压缩必定会限制下游用户的 [A′, E∗] 模型性能,但却实现了对模型所有权的保护。 这篇论文解决了该问题的两个关键:获得 A 和 E 的适当划分以及实现从 E 到 E∗ 的更好压缩,从而实现有效的微调并保持隐私。 对于前者,该团队在模型层上引入了 重要性分数(importance score) ,可用于引导 A 和 E 的选择。具体而言,在用轻量级网络动态替换原始层的过程中,可通过强化学习来估计重要性分数。 这些轻量级网络(称为协调器 /harmonizer)可以进一步用作 E 中各层的替代,从而提高完整版已适应模型的性能。此外,对于 E 中被协调器替换的其余层,该团队还提出了 选择性秩压缩(selective rank compression) 方法,该方法在保持完整版已适应模型性能的同时还能保证更好的隐私。 重要性感知型动态层替换 该团队提出了一种全新的基于层替换的压缩算法: Dynamic LayerReplace(动态层替换) 。其目标是估计 LLM 中每层的重要性,并用轻量级网络(称为协调器)替换不太重要的层,以保持层之间的语义一致性。为此,他们采用了一种双过程方法,其中包括使用强化学习 (RL)来评估每个 LLM 层的重要性,使用深度学习(DL)来通过梯度下降训练协调器。在训练阶段,这些过程交替迭代以保持稳定性。 从数学形式上看,首先将 LLM 记为 M。然后对重要性分数 S 和协调器进行初始化。用于预训练的数据集的两个子集会被用作训练集 D^T 和验证集 D^V ,它们与下游任务无关。在训练过程中,利用 RL 更新 S 并通过 DL 训练 H,同时保持 M 不变。下面将介绍 RL 的基本动作 LayerReplace 采样,并描述如何获得重要性分数。 LayerReplace 采样 。首先,需要将 RL 过程的状态空间定义为网络内层的配置,其中包含了原有层和协调器。是否用相应的协调器替换特定层 —— 这个决定将用作动作,会受到基于每层重要性分数的动作策略 π_i 的影响: 其中 U (a, b) 表示 a 和 b 之间的均匀分布。每次,随机采样一个概率 p_i ∼ π_i,得到所有层的概率集 P = {p_1, p_2, . . . , p_n}。 根据实践经验,该团队具体设置成:根据 P 采样 LLM 中一半数量的层,然后代之以协调器。 但是,由于 LLM 通常很深,并且训练早期的动作策略不准确,因此直接选择一半的层可能会导致选中大量相邻层,从而可能导致训练崩溃。为了解决这个问题并确保训练稳定性,该团队将网络层重新分组为 N_g 个相邻层索引组,并替换每个组中的一半层。各个组的集合可记为
更好的性能,更优的模型隐私 该团队首先在中等大小的模型(包括 GPT2-XL 和 OPT-1.3B,大约 10 亿参数量)上评估了他们提出的 ScaleOT,如表 1 所示。所有方法都满足了跨域微调的条件,即插件的性能超过了完整模型的零样本和仿真器微调的性能。此外,没有 SRC 的 ScaleOT 几乎实现了与完整微调相当的无损性能。这突出了动态层替换与基线 OT 中使用的 Uniform LayerDrop 相比的有效性。 值得注意的是,由于选择了重要的层进行更新,插件的性能可以超过直接在 LLM 上进行微调的性能,这得益于稀疏训练带来的更好收敛性。最后,SRC 的加入显著降低了仿真器零样本和微调的性能,平均降低了 9.2% 和 2.2%,而插件的性能几乎没有下降。总体而言,ScaleOT 不仅实现了更好的性能,还确保了良好的模型隐私。
来源:科技之光
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!