弹性时间序列Transformer：革新多预测范围建模的新范式

0 0

引言

在当今快速发展的工业和技术领域，时间序列预测已成为优化资源分配、提高决策效率的关键工具。然而，传统的时间序列预测模型往往需要针对不同的预测范围进行单独训练和优化，这不仅增加了计算成本，还限制了模型的灵活性和应用范围。微软亚洲研究院在NeurIPS 2024上提出的弹性时间序列Transformer（ElasTST）模型，正是为了解决这一问题而诞生的创新解决方案。

弹性时间序列Transformer：革新多预测范围建模的新范式

ElasTST的核心创新

ElasTST模型的设计包含了多项核心创新，旨在通过一次训练实现跨多预测范围的一致性和准确性。以下是其主要的创新点：

结构化自注意力掩码机制：该机制确保模型在不同预测范围中对重合部分的预测结果始终保持一致，实现“预测范围不变性”。这一设计有效减少了模型在不同预测范围间的性能波动。
可调旋转位置编码：为了适配时间序列数据的周期特性，ElasTST引入了可调旋转位置编码，增强了模型对多预测范围的适应能力。这一编码方式能够更好地捕捉时间序列中的周期性信息。
多尺度切片设计：结合细粒度与粗粒度信息，ElasTST的多尺度切片设计兼顾了短期动态与长期趋势，使模型获得更全面的特征表达能力。这一设计显著提升了模型在不同时间尺度上的预测精度。

弹性时间序列Transformer：革新多预测范围建模的新范式

实验结果与性能评估

通过在各种数据集上的广泛实验，ElasTST展现出了卓越的准确性与鲁棒性。以下是一些关键的实验结果：

跨预测范围的一致性：ElasTST无需针对每个预测范围单独调优，一次训练即可实现对任意长度的鲁棒预测。这一特性大大简化了模型的训练和部署流程。
长短期预测任务中的表现：在长短期预测任务中，ElasTST均表现出色，尤其在未见过的长预测范围上展现了出色的外推能力。这表明ElasTST在处理复杂时间序列数据时具有强大的泛化能力。
与预训练模型的比较：与预训练的通用时间序列模型相比，ElasTST通过一次有监督训练，就在下游数据集上展现出了显著优于零样本预测的性能。同时，在不同预测范围内也表现出了更稳定的性能优势。

未来展望

ElasTST模型的成功不仅为时间序列预测领域带来了新的突破，还为未来的研究方向提供了重要的启示。例如，针对某一领域的数据特定训练一个小规模的ElasTST模型，不仅可以显著提升在该领域内未来数据上的泛化性能，还能充分利用其适应多预测范围的“弹性”，从而避免传统时序模型中为每个预测长度单独调优和部署的繁琐流程。