谷歌开源TimesFM:1000亿个时间点训练,入选ICML 2024

  新智元报道

  编辑:乔杨

  在大语言模型突飞猛进的同时,谷歌的研究团队在时序预测方面也取得了突破性的成果——今年 2 月发表的模型 TimesFM,而且放出了模型的代码和权重,让更多开发者体验这种「开箱即用」的零样本预测能力。

  今年 2 月,Google Research 的研究人员提出了一个时序预测基础模型 TimesFM,在 1000 亿个「真实世界时间点」上进行预训练,仅仅用 200M 的参数规模就展现出了超强的零样本学习能力。

  论文链接:https://arxiv.org/pdf/2310.10688.pdf

  当时权重还没有发布,就已经有人在 Reddit 社区中表达了难以克制的兴奋。

  5 月 8 日,这篇研究又掀起了一阵波澜。

  官方博客宣布这篇文章被 ICML 2024 接收,而且在 GitHub 和 HuggingFace 上公开了源代码和模型权重。

  开源后的短短几天内,GitHub 上项目标星数已经达到了 1.5k。

  DeepMind 首席科学家 Jeff Dean 转发了官方推特,为 TimesFM 的研究成果背书。

  在官宣的消息下面,网友们纷纷为谷歌这波公开模型的操作点赞:

  「非常酷,希望大多数公司经常做这样的事。」

  「非常高兴看到谷歌拥抱开源模型和 HuggingFace 社区。」

  也有网友称赞 TimesFM 的零样本表现。

  让时序模型实现「零样本」预测

  时间序列预测在零售、金融、制造业、医疗保健和自然科学等各个领域无处不在,比如预测股市、降雨量、流感病例、GDP 等各种各样的指标,是一种「基于过去预测未来」的科学。

  然而,时序预测并不是一件容易的事,模型需要处理各种复杂且动态的模式,比如循环周期、季节性、频率、趋势、异常值、噪音等等。

  传统的深度学习方法需要大量数据和领域知识,却只能针对特定的任务和数据集对模型进行训练和微调。

  与此同时,如 ChatGPT 等模型的问世让我们看到了 LLM 超强的零样本学习能力,只需要给出提示,不需要进一步训练或微调即可让模型完成各种类型的语言任务。

  这就引出了一个问题:时间序列的基础模型能否像自然语言一样存在?在大量时间序列数据上进行预训练的大模型,能否像在大量语料上训练过的 GPT 一样,对未见数据进行准确预测?

  这就是谷歌研究人员声称要让 TimesFM 实现的目标。

  「类 GPT」架构

  相比非常容易大量爬取的文本数据,时间序列方面的公共数据集非常稀缺。而且为了训练通用的时序模型,数据集中应该包含大量的(百万级别)来自各种领域的多样化数据,且有不同的时间粒度,比如每小时、每日、每周等。

  TimesFM 的研究团队设法从三个特别渠道找到了这样的时序数据:

  • Google Trends 中的随时间变化的搜索兴趣重新调整为时间序列

  • Wikipedia 页面每小时浏览量随时间变化的数据

  • 合成数据:使用传统的 ARMA 流程创建数据集

  通过大量的数据集创建和评估工作,他们得到了包含 1000 亿个数据点的数据集。

  虽然和 Llama 含有 1T token 的语料库依旧存在一定差距,但在时序预测领域是前所未有的大规模数据集。

  在模型架构方面,TimesFM 的灵感来自于 Vision Transformer(ViT)和 GPT,采用了 decoder-only 架构,主要由三个部分组成:输入编码器、解码器和输出解码器。

  对于输入数据的表达,同时借鉴了计算机视觉中的 patch 以及自然语言中的 token 两个概念。

  输入的时间序列数据会先被输入编码器表示为 token,再被分割为许多相同长度的 patch,再将每个 patch 映射为作为模型输入的 token。

  解码器是模型的核心组件,应用了自注意力和位置编码机制,让模型可以学习序列中不同 token 之间的依赖关系。最后,输出解码器将输出 token 映射为最终的预测。

  而且,TimesFM 的关键功能之一是,它可以生成可变长度的输出 token,这意味着模型可以预测任意数量的未来时间点,而不需要任何重新训练或微调。这是通过在模型输入中加入预测长度(PL)token 实现的。

  预测结果媲美监督学习

  研究人员使用 Monash Forecasting Archive 来评估 TimesFM 的「开箱即用」性能,该数据集包含来自各个领域的数万个时间序列,如交通、天气和需求预测,覆盖频率从几分钟到每年的数据。

  可以看到,zero-shot(ZS)TimesFM 比大多数监督方法都要好,包括最近的深度学习模型。论文还对比了 TimesFM 和 GPT-3.5 使用 llmtime(ZS)提出的特定提示技术进行预测,结果证明了 TimesFM 的性能优于 llmtime(ZS)。

  在 Monash 数据集上,TimesFM(ZS)与其他有监督和零样本方法的比例 MAE(越低越好)

  大多数 Monash 数据集都是短期或中期的,也就是说预测长度不会太长;研究人员还测试了 TimesFM 对常用基准长期预测对最先进的基线 PatchTST(和其他长期预测基线)。

  研究人员绘制了 ETT 数据集上的 MAE,用于预测未来 96 和 192 个时间点的任务,在每个数据集的最后一个测试窗口上计算指标。

  TimesFM(ZS)的最后一个窗口 MAE(越低越好)相对于 llmtime(ZS)以及 ETT 数据集上的长期预测基线

  可以看到,TimesFM 不仅超过了 llmtime(ZS)的性能,而且与在相应数据集上显式训练的有监督 PatchTST 模型的性能相匹配。

  参考资料:

  https://research.google/blog/a-decoder-only-foundation-model-for-time-series-forecasting/

  https://vivekupadhyay1.medium.com/timesfm-how-googles-pre-trained-model-can-revolutionize-time-series-forecasting-c0ac2e579d62

  https://towardsdatascience.com/timegpt-the-first-foundation-model-for-time-series-forecasting-bf0a75e63b3a