国思软件 - 南加大提出全新「通用时间序列」基础模型TimeDiT！基于扩散模型创新物理约束机制

　　新智元报道

　　编辑：LRST

　　通过结合去噪扩散模型和 Transformer 架构，TimeDiT 可以有效处理时间序列的多通道、多分辨率和缺失值问题，并能整合物理知识，提高时间序列分析的准确性和适用性。

　　随着近年来在文本和视频数据上构建基础模型的进展，学术界对时间序列的基础模型也表现出浓厚的兴趣。

　　时间序列分析在许多关键领域中具有重要性，能够影响从科学研究到经济决策的广泛应用。

　　例如，在自然科学中，气候数据的分析直接关系到全球变暖的预测和资源管理；在社会科学中，时间序列数据有助于理解社会行为的演变；在医疗健康领域，病人的生命体征和治疗进程记录依赖于时间序列分析。随着全球可持续发展目标的推进，能源和环境监控等领域的时间序列数据也越来越受到重视。

　　然而，尽管已经有许多模型专门针对特定的时间序列任务取得了显著的成果，现有的模型仍面临诸多挑战。

　　首先，现实世界中的时间序列数据往往含有缺失值，并且来自不同领域的数据通常具有多通道和多分辨率的特性。这些问题使得现有模型在处理数据不完整性和复杂性时表现不佳，难以有效地进行预测、补全和异常检测。

　　此外，现有模型在整合物理知识方面存在明显局限。许多真实的时间序列数据背后遵循着严格的物理定律，例如偏微分方程（PDEs），这些定律能够为数据建模提供重要的先验知识。

　　然而，已有的时间序列基础模型难以将这些物理知识直接融入预测或数据生成过程，从而限制了其在科学和工程等物理领域中的适用性。

　　为了应对这些挑战，南加州大学的研究人员提出了一种通用的时间序列基础模型 TimeDiT：通过结合去噪扩散模型和 Transformer 架构，TimeDiT 能够处理数据中的多通道、多分辨率和缺失值等问题，同时通过创新的物理约束机制，TimeDiT 能将物理知识无缝整合到时间序列生成和预测过程中。

　　论文链接：https://arxiv.org/pdf/2409.02322

　　这种灵活性不仅提高了模型应对复杂时间序列任务的能力，还使其能够在需要严格物理约束的领域（如气候建模和工程模拟）中表现出色。

　　背景与挑战

　　时间序列数据与文本和图像等数据有着根本的区别，因此直接将大型语言模型（如 GPT-4、LLaMA 等）的成功经验移植到时间序列领域并不现实。

　　时间序列数据的特殊性质使得该领域面临一系列独特的挑战，例如：

　　1. 通道维度不一致：在不同领域中，时间序列可能会有不同数量的通道。而这一现象在文本和图像数据上并不常见。这对通用模型设计提出了更高的要求，要求一个模型能够灵活处理不同通道数的多变量数据。

　　2. 缺失值问题：在实际应用中，时间序列数据往往存在大量缺失值，如何在这些不完整数据上实现有效的预测和补全是另一个难题。

　　3. 多分辨率问题：同一时间序列数据的不同维度采样频率可能各不相同，这种多分辨率特性增加了模型在处理时的复杂度。

　　4. 自回归生成方式的局限性：传统的时间序列模型通常采用自回归生成方式，即使是基于 Transformer 架构的模型亦然。这意味着数据是按顺序生成的，这种方式在整合外部知识（如以偏微分方程形式表达的物理定律）时存在局限性。

　　模型创新

　　为了解决这些问题，本文提出了一种全新的时间序列基础模型——TimeDiT，即时间扩散 Transformer 模型。该模型结合了 Transformer 架构和去噪扩散模型，既能捕捉时间序列中的长短期依赖，又能生成高质量的时间序列样本，与此同时又克服了传统自回归模型在生成过程中容易累积误差的问题。

　　TimeDiT 模型通过以下几个方面的创新来应对时间序列数据的挑战：

　　1. 扩散模型的引入

　　传统时间序列模型通常采用自回归生成方式，即逐步生成序列的未来值，这种方式的局限性在于其对模型的依赖较大，容易导致预测误差的累积。部分已有的工作通过独立预测不同时间窗口的结果来规避这一问题。然而这又使得模型一定程度上丧失了捕捉相邻时间信号间的依赖关系的能力。而扩散模型则采用了一个去噪的逆向过程，从噪声逐步生成数据，这种方法避免了自回归生成方式中常见的误差累积问题，又使得模型能够在每一步的去噪过程中根据附近时间片的预测值修正自身。

　　2. 通道对齐策略

　　为了应对不同领域中通道数量的变化，TimeDiT 模型设计了一个通道对齐策略，使得模型能够灵活处理不同输入数据的维度变化。

　　3. 综合掩码机制

　　TimeDiT 模型使用了一种新颖的掩码机制，通过不同的掩码方案来处理多分辨率、缺失值等问题，确保模型能够在各种数据条件下保持稳定的性能。这种掩码机制包括随机掩码(random position mask)、分段掩码(stride mask)、步幅掩码(block mask)等，能够适应不同的时间序列任务。

　　4. 无微调模型编辑策略

　　TimeDiT 模型还提出了一种创新的无须微调的模型编辑策略，允许在采样过程中无缝整合外部知识（如物理定律），而不需要更新模型的参数。这种策略使得 TimeDiT 模型能够根据偏微分方程（PDEs）等领域知识，在生成数据的过程中显式约束生成的样本，使其符合已知的物理规律。

　　模型架构与实现

　　TimeDiT 模型的架构设计围绕扩散过程展开，扩散过程可以看作是一个马尔科夫链，在前向过程中逐步向数据中加入高斯噪声，最终破坏数据的原始结构。然后，模型在逆向过程中通过逐步去噪的方式重建原始数据。

　　TimeDiT 的 Transformer 架构通过注意力机制来捕捉时间序列中的时间依赖关系，同时依靠扩散模型生成高质量的样本。在采样阶段，TimeDiT 模型还设计了一种基于物理知识的能量先验，通过偏微分方程（PDEs）来约束模型生成的时间序列样本，使其符合物理定律。

　　模型的标准化训练流程通过掩码机制实现，能够同时处理预测、数据补全、异常检测等任务。在训练阶段，TimeDiT 模型通过重建被掩盖的时间序列片段来进行自监督学习。在推理阶段，模型根据具体任务选择不同的掩码策略，以便更好地适应下游任务的需求。

　　图 1 TimeDiT 架构。左图：TimeDiT 框架包含来自不同领域的多分辨率、多变量时间序列数据，并能够利用掩码策略处理缺失值问题；中间：TimeDiT 模块的结构；右上方：由时间序列掩码单元生成的掩码的示意图；右下方：TimeDiT 在推理过程中处理下游任务时使用的掩码

　　此外，在 TimeDiT 架构中，物理知识的整合是一大亮点，特别是在生成高质量时间序列数据时，物理信息通过物理约束的扩散过程得到体现。通过引入偏微分方程（PDEs）作为物理先验，TimeDiT 在推理阶段可以显式的将物理定律融入扩散生成过程，确保生成的时间序列符合真实世界的物理规律。

　　具体而言，TimeDiT 使用能量函数来量化生成数据与物理模型之间的偏差，通过优化该能量函数，使生成的数据更加符合物理约束。这一过程通过朗之万动力学进行采样调整，结合物理先验和数据驱动模型，从而在生成过程中迭代优化，使生成的样本不仅符合数据分布，还满足物理定律。算法 1 中详细提供了伪代码

　　这种物理引导的扩散策略显著提升了 TimeDiT 在科学和工程领域中的应用潜力，尤其是在气候与海洋学等复杂物理现象的建模中，展现了较强的泛化能力和适用性。

　　算法 1 TimeDiT 中基于物理知识的采样过程

　　实验验证与结果分析

　　为了验证 TimeDiT 模型的有效性，本文进行了大量的实验。在 TimeDiT 模型的实验结果中，针对缺失值（missing value）和多分辨率数据（multi-resolution）的处理表现尤为突出（见图2）。传统的时间序列模型在应对这些复杂的现实问题时往往表现不佳，而 TimeDiT 通过其创新性的掩码机制，展现了卓越的适应能力。

　　对于含有缺失值的预测任务，TimeDiT 在不同缺失率条件下的表现优于现有的最先进模型。当缺失率从5% 增加至 50% 时，TimeDiT 依然保持较低的 CRPSsum 分数，显示出其对缺失数据的强大鲁棒性。与其他模型相比，随着缺失率的增加，TimeDiT 的性能优势愈加明显，表明其在面对更具挑战性的缺失数据条件下依然能够有效补全缺失值。

　　在处理多分辨率时间序列数据时，TimeDiT 同样表现优异。实验结果表明，随着数据的采样分辨率从 2 种增加至 6 种，TimeDiT 在处理多分辨率数据时依然能维持明显的性能优势，充分说明其能够有效整合不同采样频率的数据，进行高质量的预测。

　　这些实验结果表明，TimeDiT 不仅在理想化数据集上表现出色，更能应对现实中常见的复杂问题，如缺失数据和多分辨率采样，这使其在实际应用中的潜力大大提升。

　　图 2 针对含有缺失值和多分辨率数据的实验。从实验结果中，我们可以看出 TimeDiT 表现出色，显著优于其他模型。并且缺失值的比重越大、分辨率的种类越多，TimeDiT 的优势越明显

　　此外，TimeDiT 模型在物理约束下的时间序列生成实验也取得了优异的表现。通过引入偏微分方程（PDEs）作为能量先验，TimeDiT 模型能够生成符合物理规律的高质量样本，在多个物理领域的数据集上均超越了现有的基线模型（见图3）。

　　除了以上的实验结果，本文也在常用的基准数据（benchmark data）上对 TimeDiT 与其他先进的时间序列模型进行了对比实验，包括预测、数据补全、异常检测等任务。实验数据来自交通、电力、金融等领域，涵盖了多种具有挑战性的时间序列任务。

　　在这些实验中，TimeDiT 模型在多个任务上都取得了最先进的结果，表现出极高的泛化能力和适应性。

　　1. 预测任务：在时间序列的概率预测任务中（图4），TimeDiT 模型在电力和交通数据集上实现了新的最优 CRPSsum 评分，表明其在处理复杂多变量时间序列数据上的出色性能。

　　2. 数据补全任务：对于缺失值补全任务（图5），TimeDiT 模型的创新掩码机制使得它能够有效应对缺失率较高的数据集，实验结果显示，TimeDiT 在多个数据集上均实现了最优的均方误差（MSE）和平均绝对误差（MAE）。

　　3. 异常检测任务：TimeDiT 模型还在工业监控数据的异常检测任务中（图6）表现突出，通过频谱残差预处理方法，有效避免了模型对异常数据点的过拟合。

　　图 3 基于物理知识的时间序列生成任务

　　图 4 时间序列预测任务

　　图5：时间序列补全任务

　　图 6 时间序列异常检测任务

　　模型优势与局限

　　TimeDiT 模型的主要优势在于其灵活性和广泛的适应性。它不仅能够处理各种具有不同分布的时间序列数据，还能够通过无微调的模型编辑策略整合外部知识，如物理规律等，使其在科学和工程领域的应用具有巨大的潜力。

　　实验结果表明，TimeDiT 模型在处理预测、补全、异常检测等任务时，都表现出了强大的性能和鲁棒性。

　　然而，TimeDiT 模型也有一定的局限性。首先，本文主要在常见的序列长度上进行实验，尚未深入研究该模型在处理超长时间序列时的表现。

　　其次，虽然模型能够通过掩码机制处理多通道和多分辨率问题，但在高维多变量时间序列上的扩展性仍有待进一步提高。

　　此外，尽管模型能够整合物理知识，但不同类型外部信息对模型性能的具体影响还需要进一步的研究。

　　未来工作展望

　　未来的工作可以从以下几个方向进一步提升 TimeDiT 模型的能力：

　　1. 扩展性增强：进一步提升模型的扩展性，处理更高维度和更加复杂的时间序列数据，尤其是在应对实际应用中的超长序列时的表现。

　　2. 多模态数据融合：研究如何无缝整合多模态数据源，如文本、图像等信息，以提升模型在多任务场景下的表现。

　　3. 超长时间序列处理：探索如何提高模型处理超长时间序列的能力，以满足诸如气候变化、金融市场等领域的需求。

　　结论

　　TimeDiT 模型通过创新性地结合扩散模型与 Transformer 架构，为时间序列分析领域提供了一种通用的基础模型。它不仅能够有效应对真实世界中常见的多分辨率、缺失值等问题，还能在采样过程中整合物理学知识，使生成的时间序列符合已知的物理规律。

　　实验结果表明，TimeDiT 在多个时间序列任务上取得了最先进的结果，展示了其在广泛应用场景中的潜力。未来的研究可以进一步提升模型的扩展性和多模态融合能力，使其能够在更多的实际应用中发挥作用。

　　参考资料：

　　https://arxiv.org/pdf/2409.02322

南加大提出全新「通用时间序列」基础模型TimeDiT！基于扩散模型创新物理约束机制

我们的产品

相关链接

关于我们

联系我们