微软等提出「模型链」新范式，与Transformer性能相当

摘要：随着大语言模型 (LLM) 的出现，扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此，无论是在工业界还是学术界，探索如何扩展 Transformer 模型日益成为一种趋势。

随着大语言模型 (LLM) 的出现，扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此，无论是在工业界还是学术界，探索如何扩展 Transformer 模型日益成为一种趋势。

在此背景下，LLM 的参数规模呈指数级增长，从数十亿级增长到数万亿级。因此，其爆炸式增长的参数规模也给训练带来了极其昂贵的负担，并且无法针对不同的部署环境提供不同的推理用途。

鉴于这种日益增长的扩展律，如何开发和有效利用 LLM 来处理各种场景中的用户指令，已成为整个社区面临的一个开放且关键的挑战。

目前，扩展 LLM 架构存在以下问题：

与人类智能能够渐进式获取新知识不同，现有的扩展策略无法保留已有知识规模，总是需要从头开始训练，导致效率低下。

现有 LLM 架构（如密集模型或 MoE）始终激活固定规模的参数，缺乏动态适应问题解决能力的机制。

本文，来自微软、复旦大学、浙江大学以及上海科技大学的研究者提出了一个新的概念， CoR（Chain-o f-Represe ntation，表征链），它将表征范式的范畴泛化到更广泛的范围。

具体而言，本文观察到任何表征总是可以看作是隐藏维度上多个子表征的组合。因此，本文将这种组合定义为表征链，每个子表征对应一条链。基于此定义，通过使用不同数量的前导链（preceding chains），其对应的特征可以用来编码不同的知识（称之为 scale），如图 1 所示。

因此，如何在 CoR 特征之间建立连接以确保跨尺度的特征转换是非常关键的。

为了实现这一目标，本文接着提出了一种名为模型链（Chain-of-Model，CoM）的新型学习范式，用于建模 CoR 特征。

其核心思想是在不同尺度之间引入因果依赖关系，确保每个尺度只能使用其前面尺度的信息。为此，本文提出了链式层（Chain-of-Layer，CoL），以基于 CoR 特征重新构建当前的网络层。

在 CoM 框架的基础上，本文将 CoL 的思想应用于 Transformer 的每一层，重新构建了语言模型架构，并将其命名为语言模型链（CoLM）。

此外，基于 CoL 准则，本文在注意力模块中进一步引入了键值共享机制，该机制要求所有键和值都在第一个链中进行计算，并将其命名为 CoLM-Air 。基于此机制，CoLM-Air 提供了更高的可扩展性和灵活性。

多个基准测试实验结果表明，CoLM 系列模型能够达到相当的性能，同时展现出更好的可扩展性和灵活性。

方法介绍

首先是表征链的定义：

据定义 1，每个链对应于 CoR 中的每个子表征，通过激活前几个链，CoR 可以用来编码尺度。因此，CoR 允许在单一表示中编码 n 个不同的尺度。如果 n=1，CoR 与原始表示相同。图 1 展示了 CoR 的概念。

基于上述定义，现在面临的一个挑战是如何设计层来建立 CoR 输入和 CoR 输出之间的连接，从而实现多尺度特征转换，同时又能保持输出特征符合定义 1 中 CoR 的标准。

这就需要保证每个尺度只能利用其所有前一个尺度的信息，并同时引入 Chain-of-Layer 将因果关系融入 CoR 的隐藏状态中，如下所示：

其中，CoL 具有三个基本属性 —— 普遍性、因果性和组合性。

最重要的是，CoL 支持组合性，这意味着堆叠多个 CoL 层也能保留 CoL 的特性。这一特性能够将 CoL 的范围从层级推广到模型级。

接着本文又给出了第三个定义

根据定义 3，如果一个模型满足了 CoM 的标准，那么它也继承了 CoL 的所有属性，例如通用性和因果关系。换句话说，任何模型都可以被视为一种 CoM（即 n = 1）。 CoM 可以将不同规模的多个子模型集成到一个模型中，能够在现有模型的基础上进行扩展。这种能力直接赋予了基础模型更好的可扩展性和灵活性。

接着，文章详细描述了如何将 CoM 应用于语言模型，包括 Linear、Transformer 中的每个模块（例如，嵌入、自注意力、前馈、归一化）以及目标函数，并将其称为 CoLM（Chain-of-Language-Model）。此外，本文进一步引入了一种基于 CoLM 框架的键值共享机制，并将其称为 CoLM-Air，它提供了更好的灵活性。

图 2 描述了线性层和 Chain-of-Linear 层的比较。

图 3 说明了注意力和注意力链的区别：

对这部分内容感兴趣的读者，可以参考原论文了解更多内容。

实验结果

表 1 结果表明，CoLM 取得了与基线相当的结果，同时提供了更快的预填充速度和更高的灵活性。

考虑到 CoM 的通用性与因果性，任何模型在链数为 1 时均可视为 CoM 的特例，并可扩展至多链结构。因此，本文提出链式扩展（Chain Expansion）方法：以训练完备的模型作为初始链，通过新增链进行扩展。

为验证这一观点，本文选择了两个 LLaMA 变体（即 TinyLLaMA-v1.1 和 LLaMA-3.21B）作为扩展的初始链。

表 2 结果表明，与 TinyLLaMA-v1.1 和 LLaMA-3.2-1B 相比，本文分别实现了 0.92 和 0.14 的提升。由于 LLaMa-3.2-1B 是更强的基线，因此需要更多计算才能获得显著提升，但本文方法在有限的计算量下仍然可以对其进行改进。总体而言，这些结果也表明，即使在资源受限的情况下，本文方法在改进基线方面仍然有效。