OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度

  OpenCity 团队投稿

  量子位公众号 QbitAI

  长时间交通状况预测,可以用大模型实现了。

  香港大学联合华南理工大学和百度,推出了长时间城市交通预测模型——OpenCity。

  而且泛化能力极强,可有效应用于广泛的交通预测场景。

  为了解决传统交通预测模型泛化性及长期预测能力不足的问题,研究团队新的基础模型 OpenCity。

  OpenCity 结合了 Transformer 架构和图神经网络,用以模拟交通数据中复杂的时空依赖关系。

  通过在大规模、异质性交通数据集上进行预训练,OpenCity 能够学习丰富、具有泛化性的表征,这些表征可有效应用于广泛的交通预测场景。

  相比于传统方法,OpenCity 具有以下特点:

  • 通用时空建模:OpenCity 旨在有效处理不同空间区域和时间城市交通模式的固有多样性和变化。
  • 卓越的零样本预测能力:与仅在目标区域训练的全样本模型相比,OpenCity 展示了更优越的性能。这种显著的零样本能力突出了模型学习泛化表征的能力,使其能够无需广泛重新训练或微调即可无缝应用于新的交通环境。
  • 快速的情境适应能力:OpenCity 在不同天的时空预测任务中展现了广泛的适用性。模型只需快速微调就能适应上下文,可以无缝部署在各种场景中。
  • 可扩展性:OpenCity 展示了有希望的缩放定律,表明该模型有潜力在最小的额外训练或微调需求下有效地扩展和适应新的、以前未见过的场景。

  长时间交通预测面临挑战

  当前的交通预测模型,主要面临着三大挑战。

  一是跨区域空间泛化能力

  当前交通预测模型的一个关键局限是它们在空间泛化能力欠佳。

  不同地理位置的交通模式可能因基础设施、人口统计等因素而有很大差异,现有模型通常仅从特定区域的数据中学习,无法有效地泛化到其他区域。

  然而,在整个城市区域部署全面的传感器网络来收集交通数据是不切实际的。

  一种更可行的方法是构建能够仅使用部分数据就能很好泛化到未见区域的模型。

  此外,开发适用于不同城市的时空模型将显著降低部署和维护成本。

  解决空间泛化挑战对于创建可以在不同城市环境中无缝部署,无需大量重新训练或微调的交通模型至关重要。

  第二个挑战是时间泛化与长期预测

  当前的交通预测模型擅长于短期预测,例如预测未来一小时内的交通状况。

  然而,它们在泛化到更长时间框架,如未来几小时或几天的能力明显有限。

  这种限制主要是由于模型在有效处理实际城市场景中较长时间范围内发生的时间分布变化方面的泛化能力较差。

  随着预测时间范围的增加,这些模型难以捕捉和考虑影响长期交通状况的交通模式的动态变化。

  这一限制为城市规划者和交通机构制定有效的长期战略带来了较大障碍。

  第三是学习有效的通用表征并应对时空异质性

  学习强大、具有泛化能力的交通动态表征对于开发多功能交通模型至关重要。

  通过学习通用表征,模型可以获得对交通模式的坚固且可转移的理解,使其能够有效地应用于多种场景,即使没有特定领域的训练数据。

  此外,城市交通模式的特点是其固有的多样性,在不同的空间区域和时间显示出显著的分布变化。

  解决这种异质性对于确保统一的时空交通模型保持多功能性和适应性至关重要。

  下方左图展示了不同交通数据集中数据分布的变化,突出了需要能够处理这种差异的模型的必要性;

  右图比较了 OpenCity 在零样本下的性能与基线在全样本下的性能,尽管存在时空异质性分布偏移挑战,OpenCity 的表现仍与全样本基线相当。

  为了解决这些挑战,研究团队采取了一系列新策略。

  用于分布偏移泛化的时空嵌入

  上下文归一化

  现有方法通常利用训练数据的统计特性如均值和标准差等,进行数据归一化。

  然而,当测试数据显示出显著的数据异质性且与训练数据分布没有地理空间重叠时,这些汇总统计可能是不充分的或不可转移的。

  为了应对这一挑战并适应零样本交通预测任务,作者采用实例归一化 IN (·)来处理数据。

  这种方法利用每个区域的单个输入实例 Xr ∈ ℝ^T的均值μ(Xr)和标准σ(Xr),而不依赖于全局训练集的统计数据,它能够有效缓解训练数据和测试数据分布偏移的问题,形式化如下:

  用于高效长期预测的 Patch 嵌入

  OpenCity 旨在解决长期交通预测问题,这涉及处理增加的输入时间步数,导致显著的计算和内存开销。

  为了缓解这些问题,作者采用基于 Patch 的方法按时间维度划分数据。

  定义P为 Patch 长度,指定分组到单个 Patch 中的时间步数,以及S为步长大小,决定连续 Patch 之间的重叠。

  Patch 操作后,输入数据被重塑为 Xr^P ∈ ℝ^(P×N),其中N是块的数量,N = (T-P) / S +1。

  通过将一小时的交通数据视为单个补丁的长度,并相应地调整步长(S=P),使得模型能够捕捉并适应交通数据在延长时间范围内的演变模式。

  此外,基于补丁的处理显著降低了计算和内存需求,使得更高效和可扩展的长期交通预测成为可能。

  在 patch 操作后,作者使用线性转换和正余弦位置编码 PE 以得到最终时空嵌入表征 Er ∈ ℝ^(P×d),它被用于后续组件的输入,如下:

  时空上下文编码

  为了捕捉交通数据中固有的复杂时空模式,模型整合了时间和空间上下文线索。

  通过显式地模拟这两个关键维度之间的相互作用,OpenCity 能够更好地理解影响交通模式的多方面因素。

  这种集成方法使所提出的框架能够在不同的时间范围和地理区域中生成更准确的预测。

  时间上下文编码

  OpenCity 模型有效地捕捉了交通数据中的独特时间模式,例如由日常或周常规引起的周期性变化,以及在更长的时间尺度上的复杂非线性依赖。

  具体来说,作者利用一天中的时间z^(d) ∈ ℝ^T和一周中的某天z^(w) ∈ ℝ^T等时间特征来提取周期关联,然后采用线性层来生成编码这些时间上下文线索的时间特定嵌入。

  通过显式地模拟交通流的周期性特征,该方法即使在长期预测范围下也能实行精确预测。

  时间上下文编码过程结合了 patch 操作与时空嵌入表征对齐,形式化如下:

  空间上下文编码

  由于地理特性的独特性,不同区域的交通模式各不相同(如交通枢纽有着的较高流量)。

  为了捕捉这些区域属性,作者在交通网络中整合了空间上下文。

  首先,作者计算了标准化的拉普拉斯矩阵,其中I和D分别是单位矩阵和度数矩阵:

  然后作者执行看特征值分解,得到△=UΛU^T,其中U和Λ分别是特征值矩阵和特征向量矩阵。

  使用k个最小的非平凡特征向量作为区域嵌入Φ ∈ ℝ^(R×k),编码交通网络的结构信息。

  然后通过线性层处理这些嵌入,以获得最终的空间编码 C ∈ ℝ^(R×d)。

  时空依赖建模

  时间依赖建模

  OpenCity 在所提出的 TimeShift Transformer 架构上构建,以编码时间依赖关系。作者主要从两个互补的视角捕捉交通模式:

  • 周期性交通转换:作者的模型捕捉周期性的、反复出现的交通模式,如每小时、每日和每周的循环。通过编码这些周期性变化,我们的方法可以更好地解释交通网络中的固有规律性。
  • 动态交通模式:除了周期性变化外,作者的时间编码器还捕捉交通数据随时间演变的复杂、非线性时态动态和趋势。

  周期性交通转换建模

  作者利用时间嵌入D和空间嵌入C捕获交通中的周期性模式,目标是揭示历史交通模式与未来实例之间的相关性。

  其中,时间嵌入被更新为两个组成部分:

  • D^his ∈ ℝ^(R×p×d):捕捉历史时间信号。
  • D^pre ∈ ℝ^(R×p×d):未来预测的预期时间信息。

  作者的模型明确地模拟了历史和未来导向的时间模式,使其能够更好地学习和利用交通时间序列的周期性特征。

  这个过程通过构建时间转移多头注意力机制实现——

  将未来的时空嵌入作为查询(Query),历史的时空嵌入作为键(Key),以及历史的时空数据表示作为值(Value)。

  作者引入了 RMSNorm 来提高训练稳定性。

  通过明确建模历史与未来时间信息之间的关系,OpenCity 具备了发现周期性时空交通模式的能力。

  动态交通模式学习

  该模块旨在捕捉不同时间段之间的动态依赖关系,例如,突发的交通事故可能导致交通速度和交通量急剧下降。

  为了实现这一点,我们采用类似于周期交通转换编码的注意力机制。

  不同之处在于,查询(Q)、键(K)和值(V)的输入被替换为上一步的归一化输出(M)。

  这一修改使得模型能够专注于学习不同时间段之间的动态依赖关系,而不仅仅是周期模式。

  得到的时间表示 H ∈ ℝ^(R×p×d)捕捉了这些动态时空关系。

  空间依赖建模

  捕捉空间依赖性是模型设计的一个关键方面,因为交通网络表现出强空间相关性,一个区域的交通状况往往受到邻近区域状态的影响。

  为了建模这些空间关联,作者采用了图卷积网络(GCNs):

  残差连接、RMSNorm 和 SwiGLU 激活函数被用于后续运算。

  所提出的模型通过堆叠多层此类时空编码网络,捕捉复杂的时空依赖关系,使其能够学习交通网络内复杂的关系。

  测试结果

  零样本 vs. 全样本

  作者全面测试了 OpenCity 的零样本性能,包括跨区域,跨城市和跨类型三种情形,并于基线全样本性能进行对比。

  首先,OpenCity 显现出了卓越的零样本预测性能。

  OpenCity 在零样本学习方面取得了重大突破,即使不进行微调,也超越了大多数基线。

  这突出了该方法在学习大规模交通数据中复杂的时空模式、提取适用于下游任务的通用见解方面的稳健性和有效性。

  OpenCity 在多个数据集上能够保持前两名的位置,即使在不领先的情况下差距也保持在8%(MAE)以内。

  卓越的零样本预测性能凸显了 OpenCity 在处理多样化交通数据集上的通用性和适应性,无需广泛重新训练。

  其关键优势在于可以立即部署到新场景中,显著减少传统监督方法通常所需的时间和资源,为实际应用带来了巨大的好处。

  OpenCity 还表现出了卓越的跨任务泛化能力。

  作者在交通流量(CAD3、CAD5)、交通速度(PEMS07M、TrafficSH)、出租车需求(CHI-TAXI)和自行车轨迹(NYC-BIKE)这四个不同的交通数据类别中评估了 OpenCity。

  基线分析显示,虽然各种模型在特定数据类型上表现出色,但没有一个能够在所有类别中始终提供最佳结果。

  然而,它们在其他领域保持该水平的表现却存在困难。

  相比之下,OpenCity 在所有测试类别中始终提供高质量的结果,突显其卓越的稳健性和多功能性。

  此外,为了评估 OpenCity 框架的通用性,作者在测试期间评估了其跨类别的零样本泛化能力(NYC-BIKE)。

  结果显示 OpenCity 在多个指标保持了优异的表现,进一步验证了其普适性和适应多样数据类型的能力。

  此外,OpenCity 还拥有强大的长期预测能力。

  OpenCity 架构的一个关键优势是其卓越的时间泛化能力,其能够在长期交通预测任务中优于基线方法。

  许多现有模型常常难以在延长的时间范围内维持准确的预测,因为它们倾向于过度拟合历史模式,未能充分捕捉交通条件的动态和演变特性。

  OpenCity 能够从多样化交通数据源学习通用时空表征,这使其能够生成稳健的预测,即使交通模式随时间变化和演进,预测仍然可靠。

  有监督预测性能

  为了进一步验证 OpenCity 的性能,作者进行了监督学习评估。

  其中,OpenCity 在 one-for-all 设置下与基线在单个数据集端到端训练测试进行对比。

  OpenCity 在监督设置中保持出色的表现,并在大多数评估指标中占据领先优势。

  此外,作者观察到大多数基线模型在 CAD-X 数据集上表现不佳,可能是因为它们倾向于过度拟合历史时空模式,使得它们难以泛化到长期交通依赖建模。

  相比之下,OpenCity 架构有效地从我们的预训练阶段提取了通用的周期性和动态时空表征,解决了由于跨时间和跨位置分布偏移引起的预测性能不佳的问题。

  △有监督性能评估 △有监督性能评估

  模型快速适应能力探索

  本节评估了 OpenCity 在下游任务中的快速适应能力。

  作者关注了一个之前未见过的交通数据集,并采用了“高效微调”方法,设置如下:

  只更新模型的预测头(最后一个线性层),最多进行三个训练周期。

  结果,OpenCity 在某些指标上的零样本表现不如基线模型的全样本表现,这可能是由于交通模式和数据采样的变化。

  然而,经过高效微调后,OpenCity 的表现显著提升,超过了所有比较的模型。

  值得注意的是,OpenCity 的训练时间只占基线所需时间的2% 至 32%。

  这种快速的适应能力突显了 OpenCity 作为基础交通预测模型的潜力,能够迅速适应新的时空数据类别。

  消融实验

  • 动态交通建模的效用(-DTP):移除动态交通建模模块后出现性能下降,展示了该模块能充分分析最近的交通模式,并有效地适应交通条件的突然变化来调整其预测。
  • 周期性交通转移建模的影响(-PTTM):我移除了周期相关编码,直接将时间和空间上下文整合到时空嵌入中。通过建模交通流在历史-未来时间对之间的映射,OpenCity 捕捉了控制时空模式演变的一般规律。
  • 空间依赖性建模的影响(-SDM):去除了空间编码模块。分析显示,学习空间关系显著增强了时空预测能力。通过聚合来自依赖空间区域的交通信息,模型有效地捕捉了动态交通流模式,从而为零样本交通预测提供了有价值的辅助信号。
  • 时空上下文编码的影响(-STC):移除了时空上下文信息的编码,导致了性能的显著下降。时间上下文信息帮助模型识别并学习特定时期内的常见交通模式,而区域嵌入包含了重要的区域特定特性。这些元素共同提供了理解城市间动态时空模式的宝贵见解。

  模型可扩展性研究

  作者还探索了 OpenCity 在数据和参数两个维度上的可扩展性。

  其中,参数可扩展性包括三个版本:OpenCitymini(2M 参数)、OpenCitybase(5M 参数)和 OpenCityplus(26M 参数)。

  在模型 plus 下,作者使用了 10%、50% 和 100% 的预训练数据来探索纳入更多数据的好处。

  为了标准化比较,纵轴代表相对预测误差值。结果显示,随着参数和数据规模的增加,OpenCity 的零样本泛化性能逐渐提升。

  这表明 OpenCity 能够从大规模数据集中提取有价值的知识,并且通过参数扩展增强了其学习能力。

  所展示的可扩展性潜力支持 OpenCity 成为通用交通应用的基础模型的前景。

  与大规模时空预测模型的比较

  作者还将 OpenCity 与其他先进的大型时空预训练模型进行比较,包括以强大的零样本泛化能力著称的 UniST 和 UrbanGPT。

  作者使用了三个模型的预训练阶段均未包含的 CHI-TAXI 数据集进行评估。

  结果显示,OpenCity 在其他先进的大规模时空模型中保持了显著的性能优势。

  此外,OpenCity 和 UniST 相比于 UrbanGPT 显示出显著的效率改进。这可能是因为 UrbanGPT 依赖于通过问答格式进行预测的大型语言模型 (LLM),这限制了其高效处理批量数据的能力。

  所提出的 OpenCity 模型在性能和效率上实现了双赢,突显了其作为交通基准测试的强大大规模模型的潜力。

  总之,OpenCity 这个用于交通预测的可扩展时空基础模型,在多个交通预测场景中实现了精确的零样本预测性能。

  通过采用 Transformer 编码器架构作为建模动态时空依赖关系的主干,并在大规模交通数据集上进行预训练,OpenCity 在各种下游任务上展示了卓越的零样本预测性能,与全样本设置下的最先进基线模型的结果相匹配。

  论文地址:

  http://arxiv.org/abs/2408.10269

  GitHub:

  https://github.com/HKUDS/OpenCity

  项目组主页:

  https://sites.google.com/view/chaoh/home