Nature子刊|长序列的悖论:状态空间模型能否打破注意力瓶颈?

360影视 欧美动漫 2025-05-29 13:26 3

摘要:在人工智能飞速发展的背景下,支撑大语言模型(LLM)的核心技术——Transformer,以其强大的序列建模能力广受瞩目。然而,随着应用规模不断扩大,其日益增长的计算成本也正逐渐显现为关键瓶颈。言模型的背后技术 Transformer 因其强大的序列处理能力而

导语

在人工智能飞速发展的背景下,支撑大语言模型(LLM)的核心技术——Transformer,以其强大的序列建模能力广受瞩目。然而,随着应用规模不断扩大,其日益增长的计算成本也正逐渐显现为关键瓶颈。言模型的背后技术 Transformer 因其强大的序列处理能力而广受关注。然而,随着应用需求的增长,其计算成本也日益成为瓶颈。近期一篇发表在 Nature Machine Intelligence 的综述指出:我们正迎来一场悄然的技术转变——循环神经网络(Recurrent Neural Networks, RNN)和状态空间建模(State Space Models, SSM)等经典方法正被重新审视,并与 Transformer 融合,推动更高效、可扩展的序列建模架构。这不仅关乎性能,更关乎未来人工智能系统的可持续发展。

关键词: 循环神经网络(RNN)、Transformer、状态空间模型(SSM)、长序列建模、线性循环单元(LRUs)、自注意力机制、梯度消失、序列学习

论文题目:Back to recurrent processing at the crossroad of transformers and state-space models

发表时间:2025年5月15日

论文地址:https://doi.org/10.1038/s42256-025-01034-6

发表期刊:nature machine intelligence

开发能够处理和有效学习长序列数据的模型,一直是机器学习领域面临的一项长期挑战。 Transformer 架构 ,尤其是大语言模型所展现出的强大能力,使得基于并行注意力机制的方法成为应对这一挑战的核心路径,也在一定程度上弱化了传统循环架构在序列建模方面的优势与价值。然而,自注意力机制带来的计算复杂度问题日益受到关注,近年来涌现出一类新型神经网络模型—— 深度状态空间模型((deep) State-Space Models, SSMs) , 它们融合了 Transformer 与循环网络的优势,旨在兼顾效率与表达能力。与此同时, 也逐渐被证明是时间序列函数逼近的有效工具,为序列数据的学习提供了新的理论视角与建模思路。 本文综述了这些在“循环模型”统一框架下的最新进展,并探讨其在未来大规模生成模型架构发展中的潜在关键作用。

以其并行注意力机制在自然语言处理、图像生成等任务中大放异彩,几乎取代了传统 RNN 成为主流。然而,随着对长序列处理的需求不断上升, Transformer 固有的O(L 2 ) 计算复杂度和显存瓶颈问题日益突出。 与此同时,一批融合 Transformer 与循环机制的新一代架构陆续涌现,借助线性循环结构、状态更新函数和门控机制,在保持表达能力的同时显著降低计算开销,引发“循环复兴”浪潮。 这不仅挑战了“注意力至上”的主流范式,也为模型在训练效率、推理速度与硬件友好性等方面提供了全新路径。

循环模型 在状态随时间演化的过程中捕捉序列数据中的时序特征。传统的 Elman 网络通过状态随时间递推建模时序依赖,但在反向传播中极易遭遇梯度消失或爆炸问题。为解决这一问题, 长短期记忆网络(LSTM) 和 门控循环单元(GRU) 引入了遗忘门和输入门等机制,通过动态调节信息流有效增强了模型对长程依赖的建模能力。

为进一步提升稳定性,近年来不少工作尝试使用正交或单位矩阵约束权重,从而控制梯度范数,减缓数值不稳定性。尽管这可能会牺牲一部分模型表达力,但其在增强记忆保持能力上的表现令人瞩目。

Transformer 的自注意力机制需对所有 token 对进行相似性计算,但其计算复杂度随序列长度L呈平方增长O(L 2 ) ,限制了其在长序列任务中的扩展性。为解决这一问题, 线性 Transformer 重构了注意力核函数,使用非线性特征映射 ϕ(⋅) 将 query 和 key 映射至低维空间,使得注意力得分可以写作矩阵外积形式,从而将复杂度降至将 query 和 key 映射至低维空间,使得注意力得分可以写作矩阵外积形式,从而将复杂度降至 O(L) 。

公式如下:

这种形式将原本“全局比较”的注意力过程转化为状态递推过程,令 Transformer 层 具备“近似循环”的特征。进一步优化如随机特征映射、门控机制 (RetNet、GAU 等) 等策略,在提升表达能力的同时,也增强了模型的局部选择性与长期记忆保持能力。例如,门控线性注意力进一步引入了与输入相关的衰减因子 γ,以类比人类记忆的“遗忘机制”,增强对局部上下文的建模能力。

(该γ 为文中多种门控或指数衰减形式的泛指,而非特定变量。)

这些方法在语言建模等任务中已逼近甚至接近 传统 Transformer 的性能,同时大幅降低了内存占用和推理成本。

表1 :用于长序列处理的前一代与当前一代架构对比(遵循图1的组织方式,展示了本文讨论的一些特征在近期不同方法中的分布情况,比较了几类代表性模型)

SSM 本质上是一类将序列建模视为微分方程求解过程的模型,形式如下:

其中,A 为状态转移矩阵,B 为输入矩阵。通过适当离散化 (如零阶保持法) ,该模型可转化为线性 RNN 形式:

图2:具有因果注意力机制的 Transformer 中输出计算的演变

近期一系列工作 (如 S4、HiPPO、Mamba) 在以下三个方面进行了关键创新:

1. 对角化参数化:将状态矩阵 A 约束为复数对角矩阵,结合 HiPPO 初始化以优化长程建模能力;

2. 输入相关动态性:引入选择机制,使状态转移动态依赖于当前输入;

3. 卷积视角优化:将状态更新过程转化为全局卷积运算,并结合 FFT 实现并行加速。

实验表明, 纯SSM(如 S4 S5 ,可见相关论文)在长序列基准测试(如Long Range Arena)中显著优于传统RNN ,而混合架构 (如Griffin模型) 通过嵌入局部注意力模块,进一步缩小了与 Transformer 的性能差距。

图3:状态空间模型(SSMs)中输出计算的演变

Transformer 的瓶颈不仅在算法本身,更在于对显存和内存带宽的高度依赖。为此,诸如 FlashAttention、Mamba CUDA 核、RetNet 分块机制等优化方案被提出,通过融合计算、稀疏访存等方式,显著降低了计算图构建与内存读写开销。

例如:

FlashAttention:通过分块(tiling)和非物化( non-materialization )避免存储大型注意力矩阵,减少内存的读写操作;

Mamba:将状态更新表达为逐元素操作,极大提高 GPU 并行利用率;

Jamba、Zamba:以极少参数代价融合 Mamba 与注意力模块,实现精度-效率兼顾。

尽管当前模型在有限长序列任务上表现优异,但面对实时流数据、视频、传感器等无限输入场景,仍存在如下挑战:

1. 梯度截断限制在线学习:BPTT (时间反向传播) 对固定长度窗口的依赖,使得模型难以适应长时流式输入;

2. 状态-计算权衡难题:长时间保持状态增加内存压力,而状态压缩又可能丢失关键信息;

3. 表达能力限制:理论上,SSM 和线性注意力无法模拟 TC0 以上复杂度的语言结构,处理嵌套关系存在天然障碍。

新兴模型如 Liquid-S4、神经振荡器等,尝试引入时变参数与节律性记忆更新机制,以提升非线性表达能力与上下文持续性,正在为 无限上下文(Infinite Context) 序列建模探索可能路径。

从 RNN 到 Transformer ,再到深度状态空间模型,长序列建模的演化史本质上是 状态表示能力与计算效率的螺旋上升 。当下新一代架构借助对角化、线性递推和硬件协同设计,逐渐模糊了原有技术边界,也重塑了我们对模型效率与可扩展性的理解。 尽管 Transformer 仍是当前大模型的基石,但循环机制的复兴已成不可逆趋势 ——它不仅是效率提升的选择,更是对生物智能“逐步、流动式处理”本质的回归。在这一背景下, 时序-时空大模型(Spatiotemporal Large Models, STLM) 应运而生,将 SSM 的连续建模能力与 Transformer 的全局注意力能力融合,在气候建模、交通预测等多变量、长时域任务中展现出卓越潜力。未来的“终极架构”,很可能就在这些技术交汇处孕育而生。

来源:小夭看天下

相关推荐