Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

[ICLR 2025(?)] Impermanent：打破静态幻象，首个实时 GitHub 动态预测榜单

总结

问题

方法

结果

要点

摘要

本文推出了 Impermanent，这是首个针对时间序列预测（Time-Series Forecasting）的“实时动态”基准测试平台。该平台基于 GitHub 开源活动数据，通过滚动更新的数据流评估模型在非平稳环境下的时间泛化（Temporal Generalization）能力，目前 TimesFM 等基础模型在性能上暂时领先。

TL;DR

在 AI 项目中，时间序列预测模型（TSFMs）一直宣称具备超强的泛化能力。但问题是：现有的测试集大都是“死”的。如果测试数据在模型的预训练阶段已经被见过，或者模型仅在特定历史切片上表现良好，这能叫泛化吗？Impermanent 给出了答案：它利用 GitHub 活跃度的实时流数据构建了一个“永不静止”的榜单，强制模型在数据发生前预测，真正考验其在非平稳环境下的生存能力。

痛点深挖：静态 Benchmark 的“盲区”

传统的时间序列评估（如 GIFT-Eval 或 FEV）通常采用静态的 Train-test Split。这种做法在学术界通行，但在工程落地时面临两大灾难：

数据污染 (Data Contamination)：大规模基础模型（如 Chronos, TimesFM）的预训练语料极度不透明，测试集很可能早已被模型“背下来”了。
分布漂移 (Distribution Shift)：真实世界是高度非平稳的。一个在 2023 年历史数据上表现完美的模型，可能由于 2024 年的一次软件框架迭代（如 React 的大版本更新）而彻底失效。

核心直觉：GitHub 数据的“非平稳性”

作者之所以选择 GitHub 作为实验场，是因为开源项目的活跃度是社会行为、技术趋势和突发事件的复合产物。它具有明显的间歇性 (Intermittency) 和 爆发性 (Burstiness)。

为了科学刻画这种复杂性，论文引入了两个物理层面的指标：

光谱质心 (Spectral Centroid, $C$ )：数值越大，代表序列动态变化越快。
光谱熵 (Spectral Entropy, $H$ )：数值越大，代表频谱越弥散，规律性越差。

GitHub 活跃度可视化及其光谱特征

方法论：实时预测协议

Impermanent 的核心是一个预序评估循环 (Prequential Evaluation Loop)：

数据源：抓取 Top 400 仓库的 Issues, PRs, Pushes 和 Stars。
多频率评估：涵盖 Hourly (h=24) 到 Monthly (h=1)。
防作弊机制：每个截止日期（Cutoff Date），模型必须输出预测值后，系统才会抓取未来的真实观测值进行评分。

模型评估架构图

实验战果：谁是真正的王者？

在针对 2026 年初数据集的截面分析中，TimesFM 以 MASE 0.609 的成绩领跑榜单，展现了强大的点预测能力。

然而，有趣的研究发现（Ablation-like Insight）：

基础模型的统治地位：Chronos、Moirai 和 TimesFM 在均值排名中占据前四，证明了 Large Context 预训练在处理复杂非平稳数据时的巨大优势（Inductive Bias 胜过了手工特征）。
SeasonalNaive 的顽强：在某些简单指标上，最简单的季节性朴素模型（SeasonalNaive）居然能击败一些复杂的统计模型（如 AutoARIMA），这说明很多所谓的 AI 模型在面对极度不规则的 GitHub 数据时，甚至不如直接预测“上个周期的值”。

核心结果对比表

深度洞察：时间泛化的真谛

Impermanent 的意义不仅在于提供了一个更难的榜单，而在于它改变了我们评估 AI 模型的方式。

性能稳定性 > 瞬时准确率：基础模型虽然目前领先，但其排名是否会随着 GitHub 生态内部的结构性变化（比如某新语言的兴起）而滑坡？
概率预测的必要性：实验中发现，很多模型虽然点预测（Point Forecast）凑合，但 CRPS 指标（衡量概率分布）表现极差，这意味着模型对“不确定性”的预估极度不准。

总结与局限

Impermanent 为时间序列社区注入了“实时性”和“透明性”。目前的局限在于其仅关注了单变量预测，且主要集中在软件开发领域。未来，这种Live Benchmark 范式可能会扩展到金融、气象等更多对“时间敏感”的领域。

如果你是一个 TSFM 的开发者，你的模型在这里能否经受住下周五 GitHub 活跃度波动的考验？这才是真正的战场。

发现相似论文

试试这些示例

查找其他类似于 LiveBench 这样试图解决大模型（尤其是时间序列或语言模型）测试集污染问题的动态评测平台。
哪篇论文最早讨论了时间序列基础模型（TSFMs）中的 Zero-shot 迁移能力，其评估方法与本文的动态流评估有何异同？
有哪些研究探讨了如何利用光谱分析（Spectral Analysis）或信息熵来度量时间序列数据分布漂移（Concept Drift）的严重程度？

[ICLR 2025(?)] Impermanent：打破静态幻象，首个实时 GitHub 动态预测榜单

1. TL;DR

2. 痛点深挖：静态 Benchmark 的“盲区”

3. 核心直觉：GitHub 数据的“非平稳性”

4. 方法论：实时预测协议

5. 实验战果：谁是真正的王者？

6. 深度洞察：时间泛化的真谛

7. 总结与局限