Nature子刊｜长序列的悖论：状态空间模型能否打破注意力瓶颈？

摘要：在人工智能飞速发展的背景下，支撑大语言模型（LLM）的核心技术——Transformer，以其强大的序列建模能力广受瞩目。然而，随着应用规模不断扩大，其日益增长的计算成本也正逐渐显现为关键瓶颈。言模型的背后技术 Transformer 因其强大的序列处理能力而

导语

在人工智能飞速发展的背景下，支撑大语言模型（LLM）的核心技术——Transformer，以其强大的序列建模能力广受瞩目。然而，随着应用规模不断扩大，其日益增长的计算成本也正逐渐显现为关键瓶颈。言模型的背后技术 Transformer 因其强大的序列处理能力而广受关注。然而，随着应用需求的增长，其计算成本也日益成为瓶颈。近期一篇发表在 Nature Machine Intelligence 的综述指出：我们正迎来一场悄然的技术转变——循环神经网络（Recurrent Neural Networks, RNN）和状态空间建模（State Space Models, SSM）等经典方法正被重新审视，并与 Transformer 融合，推动更高效、可扩展的序列建模架构。这不仅关乎性能，更关乎未来人工智能系统的可持续发展。

关键词：循环神经网络（RNN）、Transformer、状态空间模型（SSM）、长序列建模、线性循环单元（LRUs）、自注意力机制、梯度消失、序列学习

论文题目：Back to recurrent processing at the crossroad of transformers and state-space models

发表时间：2025年5月15日

论文地址：https://doi.org/10.1038/s42256-025-01034-6

发表期刊：nature machine intelligence

开发能够处理和有效学习长序列数据的模型，一直是机器学习领域面临的一项长期挑战。 Transformer 架构 ，尤其是大语言模型所展现出的强大能力，使得基于并行注意力机制的方法成为应对这一挑战的核心路径，也在一定程度上弱化了传统循环架构在序列建模方面的优势与价值。然而，自注意力机制带来的计算复杂度问题日益受到关注，近年来涌现出一类新型神经网络模型—— 深度状态空间模型（(deep) State-Space Models, SSMs） , 它们融合了 Transformer 与循环网络的优势，旨在兼顾效率与表达能力。与此同时，也逐渐被证明是时间序列函数逼近的有效工具，为序列数据的学习提供了新的理论视角与建模思路。本文综述了这些在“循环模型”统一框架下的最新进展，并探讨其在未来大规模生成模型架构发展中的潜在关键作用。

以其并行注意力机制在自然语言处理、图像生成等任务中大放异彩，几乎取代了传统 RNN 成为主流。然而，随着对长序列处理的需求不断上升， Transformer 固有的O(L 2 ) 计算复杂度和显存瓶颈问题日益突出。与此同时，一批融合 Transformer 与循环机制的新一代架构陆续涌现，借助线性循环结构、状态更新函数和门控机制，在保持表达能力的同时显著降低计算开销，引发“循环复兴”浪潮。这不仅挑战了“注意力至上”的主流范式，也为模型在训练效率、推理速度与硬件友好性等方面提供了全新路径。

循环模型 在状态随时间演化的过程中捕捉序列数据中的时序特征。传统的 Elman 网络通过状态随时间递推建模时序依赖，但在反向传播中极易遭遇梯度消失或爆炸问题。为解决这一问题， 长短期记忆网络（LSTM） 和门控循环单元（GRU）引入了遗忘门和输入门等机制，通过动态调节信息流有效增强了模型对长程依赖的建模能力。

为进一步提升稳定性，近年来不少工作尝试使用正交或单位矩阵约束权重，从而控制梯度范数，减缓数值不稳定性。尽管这可能会牺牲一部分模型表达力，但其在增强记忆保持能力上的表现令人瞩目。

Transformer 的自注意力机制需对所有 token 对进行相似性计算，但其计算复杂度随序列长度L呈平方增长O(L 2 ) ，限制了其在长序列任务中的扩展性。为解决这一问题，线性 Transformer 重构了注意力核函数，使用非线性特征映射 ϕ(⋅) 将 query 和 key 映射至低维空间，使得注意力得分可以写作矩阵外积形式，从而将复杂度降至将 query 和 key 映射至低维空间，使得注意力得分可以写作矩阵外积形式，从而将复杂度降至 O(L) 。

公式如下：

这种形式将原本“全局比较”的注意力过程转化为状态递推过程，令 Transformer 层 具备“近似循环”的特征。进一步优化如随机特征映射、门控机制（RetNet、GAU 等）等策略，在提升表达能力的同时，也增强了模型的局部选择性与长期记忆保持能力。例如，门控线性注意力进一步引入了与输入相关的衰减因子 γ，以类比人类记忆的“遗忘机制”，增强对局部上下文的建模能力。

(该γ 为文中多种门控或指数衰减形式的泛指，而非特定变量。)

这些方法在语言建模等任务中已逼近甚至接近 传统 Transformer 的性能，同时大幅降低了内存占用和推理成本。

表1 ：用于长序列处理的前一代与当前一代架构对比（遵循图1的组织方式，展示了本文讨论的一些特征在近期不同方法中的分布情况，比较了几类代表性模型）

SSM 本质上是一类将序列建模视为微分方程求解过程的模型，形式如下：

其中，A 为状态转移矩阵，B 为输入矩阵。通过适当离散化（如零阶保持法），该模型可转化为线性 RNN 形式：

图2：具有因果注意力机制的 Transformer 中输出计算的演变

近期一系列工作（如 S4、HiPPO、Mamba）在以下三个方面进行了关键创新：

1. 对角化参数化：将状态矩阵 A 约束为复数对角矩阵，结合 HiPPO 初始化以优化长程建模能力；

2. 输入相关动态性：引入选择机制，使状态转移动态依赖于当前输入；

3. 卷积视角优化：将状态更新过程转化为全局卷积运算，并结合 FFT 实现并行加速。

实验表明， 纯SSM（如 S4 、 S5 ，可见相关论文）在长序列基准测试（如Long Range Arena）中显著优于传统RNN ，而混合架构（如Griffin模型）通过嵌入局部注意力模块，进一步缩小了与 Transformer 的性能差距。

图3：状态空间模型（SSMs）中输出计算的演变

Transformer 的瓶颈不仅在算法本身，更在于对显存和内存带宽的高度依赖。为此，诸如 FlashAttention、Mamba CUDA 核、RetNet 分块机制等优化方案被提出，通过融合计算、稀疏访存等方式，显著降低了计算图构建与内存读写开销。

例如：

FlashAttention：通过分块（tiling）和非物化（ non-materialization ）避免存储大型注意力矩阵，减少内存的读写操作；

Mamba：将状态更新表达为逐元素操作，极大提高 GPU 并行利用率；

Jamba、Zamba：以极少参数代价融合 Mamba 与注意力模块，实现精度-效率兼顾。

尽管当前模型在有限长序列任务上表现优异，但面对实时流数据、视频、传感器等无限输入场景，仍存在如下挑战：

1. 梯度截断限制在线学习：BPTT （时间反向传播）对固定长度窗口的依赖，使得模型难以适应长时流式输入；

2. 状态-计算权衡难题：长时间保持状态增加内存压力，而状态压缩又可能丢失关键信息；

3. 表达能力限制：理论上，SSM 和线性注意力无法模拟 TC0 以上复杂度的语言结构，处理嵌套关系存在天然障碍。

新兴模型如 Liquid-S4、神经振荡器等，尝试引入时变参数与节律性记忆更新机制，以提升非线性表达能力与上下文持续性，正在为 无限上下文（Infinite Context） 序列建模探索可能路径。

从 RNN 到 Transformer ，再到深度状态空间模型，长序列建模的演化史本质上是状态表示能力与计算效率的螺旋上升。当下新一代架构借助对角化、线性递推和硬件协同设计，逐渐模糊了原有技术边界，也重塑了我们对模型效率与可扩展性的理解。尽管 Transformer 仍是当前大模型的基石，但循环机制的复兴已成不可逆趋势 ——它不仅是效率提升的选择，更是对生物智能“逐步、流动式处理”本质的回归。在这一背景下，时序-时空大模型（Spatiotemporal Large Models, STLM）应运而生，将 SSM 的连续建模能力与 Transformer 的全局注意力能力融合，在气候建模、交通预测等多变量、长时域任务中展现出卓越潜力。未来的“终极架构”，很可能就在这些技术交汇处孕育而生。

来源：小夭看天下

标签：模型序列 transformer 悖论 ssm

本文地址：https://news.43u.com.cn/a/1837504.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!