摘要:随着大语言模型 (LLM) 的出现,扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此,无论是在工业界还是学术界,探索如何扩展 Transformer 模型日益成为一种趋势。
随着大语言模型 (LLM) 的出现,扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此,无论是在工业界还是学术界,探索如何扩展 Transformer 模型日益成为一种趋势。
在此背景下,LLM 的参数规模呈指数级增长,从数十亿级增长到数万亿级。因此,其爆炸式增长的参数规模也给训练带来了极其昂贵的负担,并且无法针对不同的部署环境提供不同的推理用途。
鉴于这种日益增长的扩展律,如何开发和有效利用 LLM 来处理各种场景中的用户指令,已成为整个社区面临的一个开放且关键的挑战。
目前,扩展 LLM 架构存在以下问题:
与人类智能能够渐进式获取新知识不同,现有的扩展策略无法保留已有知识规模,总是需要从头开始训练,导致效率低下。
现有 LLM 架构(如密集模型或 MoE)始终激活固定规模的参数,缺乏动态适应问题解决能力的机制。
本文,来自微软、复旦大学、浙江大学以及上海科技大学的研究者提出了一个新的概念, CoR(Chain-o f-Represe ntation,表征链) ,它将表征范式的范畴泛化到更广泛的范围。
具体而言,本文观察到任何表征总是可以看作是隐藏维度上多个子表征的组合。因此,本文将这种组合定义为表征链,每个子表征对应一条链。基于此定义,通过使用不同数量的前导链(preceding chains),其对应的特征可以用来编码不同的知识(称之为 scale),如图 1 所示。
因此,如何在 CoR 特征之间建立连接以确保跨尺度的特征转换是非常关键的。
为了实现这一目标,本文接着提出了一种名为 模型链(Chain-of-Model,CoM) 的新型学习范式,用于建模 CoR 特征。
其核心思想是在不同尺度之间引入因果依赖关系,确保每个尺度只能使用其前面尺度的信息。为此,本文提出了 链式层(Chain-of-Layer,CoL) ,以基于 CoR 特征重新构建当前的网络层。
在 CoM 框架的基础上,本文将 CoL 的思想应用于 Transformer 的每一层,重新构建了语言模型架构,并将其命名为 语言模型链(CoLM) 。
此外,基于 CoL 准则,本文在注意力模块中进一步引入了键值共享机制,该机制要求所有键和值都在第一个链中进行计算,并将其命名为 CoLM-Air 。基于此机制,CoLM-Air 提供了更高的可扩展性和灵活性。
多个基准测试实验结果表明,CoLM 系列模型能够达到相当的性能,同时展现出更好的可扩展性和灵活性。
方法介绍
首先是表征链的定义:
据定义 1,每个链对应于 CoR 中的每个子表征,通过激活前几个链,CoR 可以用来编码尺度。因此,CoR 允许在单一表示中编码 n 个不同的尺度。如果 n=1,CoR 与原始表示相同。图 1 展示了 CoR 的概念。
基于上述定义,现在面临的一个挑战是如何设计层来建立 CoR 输入和 CoR 输出之间的连接,从而实现多尺度特征转换,同时又能保持输出特征符合定义 1 中 CoR 的标准。
这就需要保证每个尺度只能利用其所有前一个尺度的信息,并同时引入 Chain-of-Layer 将因果关系融入 CoR 的隐藏状态中,如下所示:
其中,CoL 具有三个基本属性 —— 普遍性 、 因果性 和 组合性 。
最重要的是,CoL 支持组合性,这意味着堆叠多个 CoL 层也能保留 CoL 的特性。这一特性能够将 CoL 的范围从层级推广到模型级。
接着本文又给出了第三个定义
根据定义 3,如果一个模型满足了 CoM 的标准,那么它也继承了 CoL 的所有属性,例如通用性和因果关系。换句话说,任何模型都可以被视为一种 CoM(即 n = 1)。 CoM 可以将不同规模的多个子模型集成到一个模型中,能够在现有模型的基础上进行扩展。这种能力直接赋予了基础模型更好的可扩展性和灵活性。
接着,文章详细描述了如何将 CoM 应用于语言模型,包括 Linear、Transformer 中的每个模块(例如,嵌入、自注意力、前馈、归一化)以及目标函数,并将其称为 CoLM(Chain-of-Language-Model)。此外,本文进一步引入了一种基于 CoLM 框架的键值共享机制,并将其称为 CoLM-Air,它提供了更好的灵活性。
图 2 描述了线性层和 Chain-of-Linear 层的比较。
图 3 说明了注意力和注意力链的区别:
对这部分内容感兴趣的读者,可以参考原论文了解更多内容。
实验结果
表 1 结果表明,CoLM 取得了与基线相当的结果,同时提供了更快的预填充速度和更高的灵活性。
考虑到 CoM 的通用性与因果性,任何模型在链数为 1 时均可视为 CoM 的特例,并可扩展至多链结构。因此,本文提出链式扩展(Chain Expansion)方法:以训练完备的模型作为初始链,通过新增链进行扩展。
为验证这一观点,本文选择了两个 LLaMA 变体(即 TinyLLaMA-v1.1 和 LLaMA-3.21B)作为扩展的初始链。
表 2 结果表明,与 TinyLLaMA-v1.1 和 LLaMA-3.2-1B 相比,本文分别实现了 0.92 和 0.14 的提升。由于 LLaMa-3.2-1B 是更强的基线,因此需要更多计算才能获得显著提升,但本文方法在有限的计算量下仍然可以对其进行改进。总体而言,这些结果也表明,即使在资源受限的情况下,本文方法在改进基线方面仍然有效。
弹性推理旨在提供动态推理能力以满足不同部署场景的需求。表 3 结果进一步凸显了 CoLM 在实现弹性推理方面的潜力。
从图 5 可以看出,在参数量相近的情况下,CoLM-Air 相比 LLaMa 实现了更快的预填充速度。随着序列长度的增加,CoLM-Air 在预填充阶段能获得更显著的速度提升。这充分证明了 CoLM-Air 能有效加速预填充过程。
得益于 CoM 架构的因果特性,CoLM 由多个链式模块组成,其中每个链都能继承前序链的能力。基于这一特性,本文提出链式调优(Chain Tuning)方法 —— 在冻结前几个链的同时仅对后续链进行微调。该方法通过保留初始链参数,既能降低约 42% 的调优成本,又可有效缓解灾难性遗忘问题。
此外,当采用 CoLM-Air 配置并冻结首链时,经微调模型产生的键值对可无缝迁移至原始模型,无需额外计算。实验表明,链式调优仅需微调约 42% 的模型参数即可提升性能,且能与 LoRA 等参数高效微调方法兼容。
来源:晚晚的星河日记一点号