一文解读:时序基础模型的缩放定律

摘要:随着时间序列基础模型 (Time series foundation models, TSFMs) 的快速发展,时序预测的研究正在从专门的任务模型转向通用模型的开发范式。模型如 Timer、Moirai 及最近提出的10B规模的 Time-MoE 表现出数据量

本文约3000字,建议阅读6分钟

本研究从参数规模、计算资源和训练数据规模三方面探讨了时间序列基础模型在分布内和分布外场景下的扩展特性,并研究了不同架构的扩展行为。

随着时间序列基础模型 (Time series foundation models, TSFMs) 的快速发展,时序预测的研究正在从专门的任务模型转向通用模型的开发范式。模型如 Timer、Moirai 及最近提出的10B规模的 Time-MoE 表现出数据量与模型规模的扩展趋势。社区期望通过更多资源的投入,进一步提升时序预测的性能。

模型缩放定律 (Scaling laws) 提供了一种定量框架,描述模型性能如何随模型参数、计算资源和训练数据规模等核心要素的变化而增长。建立时间序列基础模型的 scaling laws 对其开发至关重要,因为它提供了预测性能收益的参考依据,使研究者可以更加高效地配置资源。

近日,由来自澳大利亚格里菲斯大学、香港科技大学 (广州)、NVIDIA、东京大学等机构的研究团队对时序基础模型的缩放定律进行了深入探索。目前关于时间序列基础模型的 scaling laws 的探索仍然处于早期阶段。已有的研究主要关注时间序列基础模型在分布内(In-distribution, ID)数据上的scaling laws,缺乏对分布外(Out-of-distribution, OOD)的扩展行为,以及模型架构对扩展行为影响的研究。

【论文标题】

TOWARDS NEURAL SCALING LAWS FOR TIME SERIES FOUNDATION MODELS

【论文地址】

研究动机

在实际应用中,时间序列基础模型主要面临来自未知场景的挑战,因此分布外的预测能力尤为关键。这引出一个新的问题:scaling laws 能否用于预测时间序列模型在分布外数据中的性能表现?

尽管各种时间序列模型架构不断涌现,但大多专注于特定规模的性能改进。不同架构间的扩展特性尚未得到充分研究,进而引发了另一个关键问题:模型架构对其可扩展性有何影响?

此外,虽然投入的训练资源在增加,但构建更大模型的瓶颈和推动力尚不明晰。这提出了一个实际问题:如何从可扩展性视角设计时间序列基础模型?

技术贡献

本文旨在为上述研究问题提供实验支持。我们训练了一系列基于 encoder-only Transformer 的时间序列基础模型,探讨了模型参数、计算预算和训练集大小这三个训练因素对模型 ID 和 OOD 预测性能的影响,从而建立了跨分布的 scaling laws。

为进一步研究模型架构对缩放行为的影响,我们还训练了基于 encoder-only Transformer 的时间序列基础模型,并与基于 decoder-only Transformer 的模型进行了对比。此外,我们引入了两个 SOTA 时间序列基础模型——Moirai 和 Chronos,作为具体的案例进行深入研究。基于实验结果和对比分析,我们最终从扩展性角度提出了时间序列基础模型的设计指导。

我们的贡献总结如下:

跨数据分布的 scaling laws:将时间序列基础模型的 scaling laws 从分布内场景推广到分布外场景,涵盖模型规模、计算资源和数据集规模三个要素,为分布外数据的性能预测提供了基础。
跨模型架构的 scaling laws:研究 encoder-only 和 decoder-only Transformer 架构在扩展性上的差异,为可扩展的时间序列模型设计提供参考。
scaling laws 引导的设计原则:通过分析模型在跨分布和跨架构场景下的扩展行为,为时间序列基础模型的设计提供从数据、模型和计算角度的实际指导。

关键结论

01、跨分步的scaling laws

在分布内与分布外数据上,时间序列基础模型性能的扩展表现均符合 power laws。如图1,图2,图3所示,对数似然(log-likelihood)损失和 Mean Absolute Percentage Error(MAPE)分别随着模型的参数量(N),计算量(C),以及训练数据量(D)在对数尺度上线性下降。power law 表达式如下:

其中,

表示模型性能(对数似然损失或 MAPE),

是训练中的扩展要素(模型参数量,计算量或训练数据量),

是待求的归一化系数,

则为指数,用以表征模型性能随扩展要素提升的程度。

图1:参数量的扩展

参数量的扩展。图1展示了对数似然和 MAPE 随模型参数量增加在 ID 和 OOD 场景下的变化。当使用对数似然进行评估时,模型在不同数据分布中的缩放行为均符合 power law,且表现出一致的趋势。

图2:计算量的扩展

计算量的扩展。图2显示了对数似然和 MAPE 随计算量增加在 ID 和 OOD 场景下的变化。无论分布内或分布外,计算量的提升均带来预测性能的显著改善。同时,在给定计算量时,模型的预测性能在 ID 和 OOD 数据上都存在一个下边界。

图3:训练数据量的扩展

数据量的扩展。图3展示了数据量对模型在 ID 和 OOD 数据上预测性能的影响。随着训练数据增加,模型的对数似然损失和 MAPE 皆遵循 power law 下降。

此外,通过比较三项扩展要素的的指数 \alpha,我们发现参数量的扩展对提升 OOD 性能最为关键,这与 LLM 的 scaling laws 观察一致。

02、跨架构的scaling laws

时间序列的基础模型主要基于 Transformer 的架构。在此,我们对比了 encoder-only 和 decoder-only Transformer 架构的扩展行为,进一步探索模型架构对扩展性的影响。我们也研究了 Moirai 和 Chronos 模型的设计对扩展性的具体影响。

图4:encoder-only 和 decoder-only Transformer 在各项训练要素上的扩展行为

Encoder-only vs. Decoder-only Transformer。图4展示了 ID 和 OOD 场景下 encoder-only 和 decoder-only Transformer 的对数似然损失随三种训练要素的扩展情况。总体来看,encoder-only 架构在 ID 和 OOD 预测上均表现出优于 decoder-only 架构的扩展性。

图5:Encoder-only Transformer vs. Moirai

Encoder-only Transformer vs. Moirai。图5展示了在 ID 和 OOD 场景下 encoder-only Transformer 和 Moirai 的对数似然损失随模型参数量增加的扩展表现。在ID数据上,与本文提出的 encoder-only Transformer baseline 相比,Moirai 的设计显著提升了模型的性能。然而,在OOD数据上,Moirai 参数增大的性能提升幅度却小于 baseline,这表明 Moirai 的设计限制了模型的可扩展性。

图6:Decoder-only Transformer vs. Chronos

Decoder-only Transformer vs. Chronos。图6展示了 decoder-only Transformer 与 Chronos-T5 随模型参数量变化的对数似然损失扩展行为。在对数似然损失评估中,我们发现 Chronos-T5 的 power-law 曲线的斜率很小,可能因为 Chronos 采用了离散概率预测头。由于离散分布下的对数似然损失对距离不敏感,除非预测值完全匹配标签,否则损失值会很大。使用 Symmetric Mean Absolute Percentage Erro (SMAPE) 进行评估时,我们观察到 Chronos-T5 在 ID 预测中的性能略优于 decoder-only Transformer baseline,但其设计并未提升 OOD 预测能力。

02、“涌现”行为

图7:时间序列模型“涌现能力”的案例研究

涌现行为。图 7 展示了三个零样本分布外时间序列预测的例子。我们观察到模型行为偏离了预期的 power-law 的模式,而是表现出更类似于涌现现象的特征:在模型大小达到临界阈值之前,模型的性能保持较低水平,之后模型的性能显著提升。这表明某些时序预测任务可能需要参数足够大的模型以捕获内在的动力模式。

时间序列基础模型的设计原则

基于我们对时间序列基础模型缩放定律的研究结果,我们阐述了以下设计原则,以指导有效且可扩展模型的开发。这些原则围绕训练数据、模型参数和架构,以及计算预算三个维度展开。

训练数据

实验表明,相较于 ID 数据,在 OOD 数据上增加训练数据集的规模可以带来更多预测性能的提升,说明扩大预训练数据集对泛化能力至关重要。然而,在增加数据量的同时,保持数据集中的多样性也同样必要。此外,我们观察到,虽然仅编码器和仅解码器 Transformer 之间存在性能差异,但其缩放模式几乎一致。这意味着数据扩展的增益对模型架构的依赖性较小,可以与模型改进并行进行。

模型参数和架构

研究显示模型大小对提升 OOD 性能的作用最为显著。在三个扩展因素中,增加模型大小对 ID 数据的预测带来的增益最大。在架构方面,encoder-only Transformer 通常比 decoder-only Transformer 预测表现更好,并且更具可扩展性。而对于 Chronos 和 Moirai,尽管在 ID 预测上有所提升,但其OOD的可扩展性相对较低,表明过强的归纳偏差可能限制了扩展性。好的架构设计应综合考虑性能、泛化能力和可扩展性。

计算预算

实验表明在给定的计算预算下,对数似然损失和 MAPE 存在一个的下限。这意味着,随着模型大小的增加,必须投入更多的计算资源才能获得更好的性能。然而,不同的训练目标或模型架构可能会显着影响这个界限。与模型大小和数据集大小的缩放行为类似,计算规模的增加对提高 OOD 性能的影响比对 ID 性能的影响更大,说明实现跨分布的鲁棒的泛化需要更大的模型、更多的数据和计算资源。

总结与展望

本研究从参数规模、计算资源和训练数据规模三方面探讨了时间序列基础模型在分布内和分布外场景下的扩展特性,并研究了不同架构的扩展行为。未来工作将探讨这些因素间的制约关系,以更好地优化资源配置。此外,不同上下文窗口和预测范围对模型性能的影响也需进一步探索。

来源:鑫鑫聊科学

相关推荐