Diffusion Models for Time Series Applications: A Survey (Paper reading)

Lequan Lin, The University of Sydney Business School, arXiv2023,Cited:5, Code, Paper

1. 引言

扩散模型是一类基于深度学习的生成模型，在前沿的机器学习研究中变得越来越突出。在生成类似于观测数据的样本方面表现出色，扩散模型如今在图像、视频和文本合成领域广泛应用。近年来，扩散的概念已经扩展到时间序列应用，并且许多强大的模型已经被开发出来。考虑到这些模型缺乏系统性的总结和讨论，我们提供这篇综述作为新研究人员在这一领域的基础资源，同时也为激发未来研究提供灵感。为了更好地理解，我们包括了有关扩散模型基础知识的介绍。除此之外，我们主要关注基于扩散方法的时间序列预测、插值和生成，在三个单独的部分分别进行介绍。我们还会比较同一应用领域的不同方法，并在适用的情况下突出它们之间的联系。最后，我们总结了扩散方法的共同局限，并突出潜在的未来研究方向。

2. 介绍

在这里插入图片描述

扩散模型是一类基于深度学习的生成模型，在近年来的机器学习社区中崭露头角。在诸如图像合成、视频生成、自然语言处理以及时间序列预测等各种实际应用中，扩散模型表现出卓越的性能，展示了其在许多现有生成技术上的优势。

给定目标分布 $q (x)$ 中的一些观测数据 $x$ ，生成模型的目标是学习一个生成过程，从 $q (x)$ 中产生新样本。为了学习这样的生成过程，大多数扩散模型开始通过注入高斯噪声逐步扰动观测数据，然后应用一个可学习的转换核心进行逆过程以恢复数据。典型的扩散模型假设在一定数量的噪声注入步骤后，观测数据将变成标准高斯噪声。因此，如果我们能够找到从标准高斯噪声恢复原始数据的概率过程，那么我们就可以使用相同的概率过程以任何随机标准高斯噪声作为起始点生成类似的样本。

最近三年见证了扩散模型向与时间序列相关的应用的扩展，包括时间序列预测、时间序列插补以及时间序列生成。在给定观测到的历史时间序列的情况下，我们通常尝试预测未来的时间序列，这个过程称为时间序列预测。由于观测到的时间序列有时由于数据收集失败和人为错误等原因而不完整，时间序列插补用于填补缺失值。与时间序列预测和插补不同，时间序列生成旨在产生具有与观察期相似特征的更多时间序列样本。

基本上，基于扩散的时间序列应用方法从三种基本公式中发展而来，包括去噪扩散概率模型（DDPMs）、基于分数的生成模型（SGMs）和随机微分方程（SDEs）。不同方法中扩散组件学习的目标分布通常涉及对先前时间步的条件。然而，扩散和去噪过程的设计因不同任务的不同目标而异。因此，相关文献的全面而自包含的总结将为刚进入这一新领域的新研究人员以及寻求未来方向的经验丰富的研究人员提供灵感。因此，本综述旨在总结现有的文献，比较不同方法，并确定潜在的局限性。

3. Time Series Forecasting

多变量时间序列预测是机器学习研究中的一个关键领域，在各种行业中具有广泛的应用。与仅跟踪一种特征随时间变化的单变量时间序列不同，多变量时间序列涉及多个特征的历史观测，这些特征相互作用并随时间演变。因此，它们能够更全面地理解复杂系统，并实现对未来趋势和行为的更可靠预测。近年来，生成模型已被用于多变量时间序列预测任务。例如，WaveNet是一个具有扩张因果卷积的生成模型，用于对序列进行长期依赖性编码。另一个例子是Rasul等，他们使用自回归深度学习模型对多变量时间序列进行建模，其中数据分布通过条件归一化流来表示。**然而，这些模型的共同缺点是它们的目标分布的功能结构受到严格的限制。**另一方面，基于扩散的方法可以提供一个不那么限制性的解决方案。在本节中，我们将讨论四种基于扩散的方法。我们还包括两个专门设计用于时空图（即具有多变量时间序列的空间相关实体）的模型，以突显将扩散理论扩展到更复杂的问题设置。由于相关文献大多集中在多变量时间序列预测上，“预测”在本综述的其余部分指的是多变量时间序列预测。

3.1 问题建模

考虑一个多变量时间序列 $X^0 = \{x_1^0,x_2^0,...,x_T^0 | x_i^0 \in \mathbb{R}^D\}$ ，其中上标 0 表示数据在扩散过程中没有受到干扰。预测任务是在给定历史信息 $X_c^0 = \{x_1^0,x_2^0,...,x_{t_0-1}^0 \}$ 的情况下，预测 $X_p^0 = \{x_{t_0}^0,x_{t_0+1}^0,...,x_{T}^0 \}$ 。这里 $X_c^0$ 被称为上下文窗口，而 $X_p^0$ 被称为预测区间。在基于扩散的模型中，问题被定义为学习预测区间内数据的联合概率分布:
$q(x_{t_0:T}^0|x_{1:t_0-1}^0) = \prod_{t=t_0}^Tq(x_t^0|x_{1:t_0-1}^0)$
一些文献还考虑了协变量在预测中的作用，比如 (Rasul et al., 2021a) 和 (Yan et al., 2021)。协变量是可能会影响变量随时间变化行为的额外信息，例如季节性波动和天气变化。将协变量纳入预测通常有助于加强识别驱动数据时间趋势和模式的因素。具有协变量的预测问题被表述为：
$q(x_{t_0:T}^0|x_{1:t_0-1}^0,c_{1:T}) = \prod_{t=t_0}^Tq(x_t^0|x_{1:t_0-1}^0,c_{1:T})$
其中 $c_{1:T}$ 表示所有时间点的协变量，并且假设在整个时期内这些协变量是已知的。为了进行训练，**可以从完整的训练数据中随机抽取上下文窗口，然后再抽取预测窗口。**这个过程可以看作是在整个时间线上应用一个大小为 $T$ 的滑动窗口。然后，可以使用这些样本来优化目标函数。通过与扩散模型相对应的生成过程，通常可以实现对未来时间序列的预测。

3.2 TimeGrad

首个引人注目的基于扩散的预测工作是由 Rasul 等人在 2021 年提出的 TimeGrad。基于 DDPM 模型开发的 TimeGrad 首先在每个预测时间点向数据中注入噪声，然后通过在历史时间序列条件下逐渐去噪，使用向后转移核进行。为了编码历史信息，TimeGrad 通过以下方式近似上面公式中的条件分布：
$\prod_{t=t_0}^Tp_{\theta}(x_t^0|h_{t-1})$
其中：
$h_t = RNN_{\theta}(x_t^0,c_t,h_{t-1})$
其中 $h_t$ 是使用 RNN 模块（如 LSTM或 GRU）计算得出的隐藏状态，该模块可以保留历史的时间信息。而 $θ$ 则包含了用于整体条件分布及其 RNN 组件的可学习参数。在训练过程中，参数 $θ$ 通过最小化带有随机采样的负对数似然目标函数来进行估计。然后，未来的时间序列会以逐步的方式生成。假设完整时间序列的最后一个时间点是 $\tilde T$ 。第一步是基于最后一个可用的上下文窗口推导出隐藏状态 $h_{\tilde T}$ 。接下来，下一个时间点 $\tilde T+1$ 的观测值会以类似 DDPM 的方式进行预测。