本文推出了 Impermanent,这是首个针对时间序列预测(Time-Series Forecasting)的“实时动态”基准测试平台。该平台基于 GitHub 开源活动数据,通过滚动更新的数据流评估模型在非平稳环境下的时间泛化(Temporal Generalization)能力,目前 TimesFM 等基础模型在性能上暂时领先。
TL;DR
在 AI 项目中,时间序列预测模型(TSFMs)一直宣称具备超强的泛化能力。但问题是:现有的测试集大都是“死”的。如果测试数据在模型的预训练阶段已经被见过,或者模型仅在特定历史切片上表现良好,这能叫泛化吗?Impermanent 给出了答案:它利用 GitHub 活跃度的实时流数据构建了一个“永不静止”的榜单,强制模型在数据发生前预测,真正考验其在非平稳环境下的生存能力。
痛点深挖:静态 Benchmark 的“盲区”
传统的时间序列评估(如 GIFT-Eval 或 FEV)通常采用静态的 Train-test Split。这种做法在学术界通行,但在工程落地时面临两大灾难:
- 数据污染 (Data Contamination):大规模基础模型(如 Chronos, TimesFM)的预训练语料极度不透明,测试集很可能早已被模型“背下来”了。
- 分布漂移 (Distribution Shift):真实世界是高度非平稳的。一个在 2023 年历史数据上表现完美的模型,可能由于 2024 年的一次软件框架迭代(如 React 的大版本更新)而彻底失效。
核心直觉:GitHub 数据的“非平稳性”
作者之所以选择 GitHub 作为实验场,是因为开源项目的活跃度是社会行为、技术趋势和突发事件的复合产物。它具有明显的间歇性 (Intermittency) 和 爆发性 (Burstiness)。
为了科学刻画这种复杂性,论文引入了两个物理层面的指标:
- 光谱质心 (Spectral Centroid, ):数值越大,代表序列动态变化越快。
- 光谱熵 (Spectral Entropy, ):数值越大,代表频谱越弥散,规律性越差。

方法论:实时预测协议
Impermanent 的核心是一个预序评估循环 (Prequential Evaluation Loop):
- 数据源:抓取 Top 400 仓库的 Issues, PRs, Pushes 和 Stars。
- 多频率评估:涵盖 Hourly (h=24) 到 Monthly (h=1)。
- 防作弊机制:每个截止日期(Cutoff Date),模型必须输出预测值后,系统才会抓取未来的真实观测值进行评分。

实验战果:谁是真正的王者?
在针对 2026 年初数据集的截面分析中,TimesFM 以 MASE 0.609 的成绩领跑榜单,展现了强大的点预测能力。
然而,有趣的研究发现(Ablation-like Insight):
- 基础模型的统治地位:Chronos、Moirai 和 TimesFM 在均值排名中占据前四,证明了 Large Context 预训练在处理复杂非平稳数据时的巨大优势(Inductive Bias 胜过了手工特征)。
- SeasonalNaive 的顽强:在某些简单指标上,最简单的季节性朴素模型(SeasonalNaive)居然能击败一些复杂的统计模型(如 AutoARIMA),这说明很多所谓的 AI 模型在面对极度不规则的 GitHub 数据时,甚至不如直接预测“上个周期的值”。

深度洞察:时间泛化的真谛
Impermanent 的意义不仅在于提供了一个更难的榜单,而在于它改变了我们评估 AI 模型的方式。
- 性能稳定性 > 瞬时准确率:基础模型虽然目前领先,但其排名是否会随着 GitHub 生态内部的结构性变化(比如某新语言的兴起)而滑坡?
- 概率预测的必要性:实验中发现,很多模型虽然点预测(Point Forecast)凑合,但 CRPS 指标(衡量概率分布)表现极差,这意味着模型对“不确定性”的预估极度不准。
总结与局限
Impermanent 为时间序列社区注入了“实时性”和“透明性”。目前的局限在于其仅关注了单变量预测,且主要集中在软件开发领域。未来,这种Live Benchmark 范式可能会扩展到金融、气象等更多对“时间敏感”的领域。
如果你是一个 TSFM 的开发者,你的模型在这里能否经受住下周五 GitHub 活跃度波动的考验?这才是真正的战场。
