组会分享TIMER-XL

TIMER-XL: LONG-CONTEXT TRANSFORMERS FOR UNIFIED TIME SERIES FORECASTING

长上下文Transformer 统一的时间序列预测。

从题目入手：

长文本：NLP领域的Transformer学习成千上万的token间依赖，传统只能学几百个token。
统一预测：做出改变：1维的token 预测下一个token 改成→ 2维的(多变量)。

图中介绍了何为token，以及不同模态（语言模型、视觉模型、时序模型）Transformer处理的上下文长度。

总结本文做了两个工作：

1.使用了NLP领域的Transformer应用到时序领域来，能处理更长的时间依赖；
2.在Transformer中包含了单变量、多变量（多目标变量/多协变量+一目标变量）。

模型：使用decoder-only的Transformer，利用不同长度的上下文来捕捉因果依赖关系。

因果（Causality）通常指的是模型在处理序列数据时，只能使用当前时间点之前的信息，而不能“看到”未来的信息。

通过“自注意力”和“因果掩码”实现。

使用因果掩码（Causal Masking）： 在计算**注意力权重（Attention Weights）**时，对未来的时间步置零，使得模型在计算第 ttt 个时间步的预测时，只能看到时间步 ≤t\leq t≤t 的数据。

解码器架构（Decoder-Only Architecture）： 采用自回归（Autoregressive） 方式进行预测，即模型逐步预测每个时间步的值，并将已预测的值输入到后续时间步的计算中，而不是一次性输出整个序列。

创新：1.提出了通用的TimeAttention机制；2.位置编码。

其中TimeAttention中提到了：Kronecker-based mask 和 RoPE 两个技术。

此为模型结构图。

# Time Series A & B
时序A(蓝色)，时序B(黄色) 被分割成多个Patch Token，作为输入。

# Variable Dependency 变量依赖
变量A和B之间存在依赖关系，A的值受B影响，反之亦然(绿色箭头)。
依赖矩阵C记录了不同变量间的关联程度。

# 不同时序建模方式
# (a) 单变量 Univariate
只考虑单个时间序列 + 时间掩码(确保只能看到过去的信息) + 没有跨变量依赖关系
# (b) 多变量 Multivariate
处理多个时间序列 + 变量依赖矩阵C全为1(变量间存在相互影响) + 时间掩码T(因果)
# (c) 带协变量 With Covariate B
A是目标变量，B是协变量 + C采用自定义依赖关系(A依赖A,B;B依赖B) + 时间掩码T(因果)

Kronecker 乘积 $ C⊗T $

变量依赖矩阵(时间因果) $C$ 与时间掩码 $T$ 通过 Kronecker 乘积，将变量间的依赖关系 (C) 和时间序列的因果结构 (T) 结合，形成一个完整的 注意力掩码（Attention Mask）。保证 Transformer 既能考虑时间因果性，又能捕获变量之间的相互影响。

RoPE 旋转位置编码：旨在为Transformer模型提供相对位置信息。

$RoPE(Q,K)=QR_θK^T$

其中，$R_{\theta}$ 是一个基于位置索引 $p$ 和一个预设的基数 $θ$ 生成的旋转矩阵。

==RoPE 在注意力计算时，利用旋转变换引入相对位置信息，而不是直接添加位置编码。==

可学习的标量参数（Scalars）

$Attention(Q,K,V)=softmax(\frac{S_1⋅QK^T}{S_2·\sqrt{d}})V$

在注意力机制中，每个注意力头（Attention Head）通常会处理不同的子空间信息。可以使用可学习的标量参数来调整不同变量的贡献。

TimeAttention 计算公式

$TimeAttention(H)=Softmax(\frac{Mask(C⊗T)+A}{\sqrt{d_k}})HW_v.$

$Mask()$ 的作用 $M_{i,j} = 1$ 该位置$=0$；$M_{i,j} = 0$ 该位置$=-∞$。相当于做了一步它和邻接矩阵相加，更改邻接矩阵的步骤，算是一个小优化。

$H$ 特征矩阵

$W_v$ 投影矩阵