Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

[2026 技术前瞻] Timer-S1：突破万亿时序数据，以“串行缩放”开启 8B 参数新纪元

Summary

Problem

Method

Results

Takeaways

Abstract

Timer-S1 是清华大学与字节跳动联合推出的 83 亿参数（MoE 架构，单 token 激活 7.5 亿）的时间序列基础模型。该模型引入了 Serial-Token Prediction (STP) 机制，通过串行缩放（Serial Scaling）在 GIFT-Eval 榜单上取得了 SOTA 成绩（CRPS: 0.485, MASE: 0.693）。

TL;DR

清华大学与字节跳动团队发布了 Timer-S1，一个拥有 83 亿参数 的稀疏专家模型（MoE）。它不仅是目前参数规模最大的时间序列基础模型之一，更重要的是它提出了 Serial-Token Prediction (STP) 机制。该机制通过在模型架构内部进行深度维度的“串行计算”，完美解决了传统模型在“长程预测精度”与“推理效率”之间的鱼与熊掌不可兼得的难题。

核心坐标：在 GIFT-Eval 全球榜单上位居榜首，标志着时序模型正式进入“大模型深度对齐（Deep Alignment）”时代。

痛点深挖：为什么简单的 Scaling 在时序领域失效了？

在 LLM 领域，增加参数量和数据量往往能直接带来能力的跃迁。但在时间序列中，开发者常面临两个极端：

并行预测（Parallel Forecasting）：一次性吐出未来 96 个点。这很快，但它忽略了时间点之间的因果依赖，长程预测就像“盲人摸象”。
滚动预测（Autoregressive/Next-token）：预测一步，带入输入，再预测一步。这很准，但预测长序列时慢得离谱，且“一步错步步错”，误差累积（Error Accumulation）灾难性。

Timer-S1 的核心 Insight 是：预测本质上是串行的（Serial Nature），我们需要的不是减少计算，而是将原本在时间轴上的“重复循环”转化为在模型内部深度上的“逐层细化”。

方法论详解：TimeSTP 与串行缩放的奥秘

1. 模型架构：TimeMoE + TimeSTP

Timer-S1 的主体是由 24 个 TimeMoE 块组成的特征提取器，随后紧跟 16 个特殊的 TimeSTP 块。

TimeMoE：利用 32 个专家（每个 token 激活 2 个）处理数据的异质性（Heterogeneity）。
TimeSTP：这是该模型的神来之笔。每个 STP 块不仅接受前一层的输出，还会重新“审视”最原始的 Lookback 嵌入。第 $j$ 个 STP 块负责生成偏移量为 $j + 1$ 的预测。这种设计意味着：预测越远的未来，经历的串行计算层数越多。

模型架构图

2. 万亿级数据集：TimeBench

为了喂饱 8B 模型，团队构建了包含 1.032 万亿个时间点 的 TimeBench。特别值得注意其数据增强策略：

Resampling：通过傅里叶变换改变采样频率，让模型对不同的时间分辨率（分辨率鲁棒性）产生免疫力。
Value-Flipping：将趋势上下翻转。这不仅增加了样本量，更纠正了模型容易产生的“刻板趋势偏见”。

3. 多阶段训练 pipeline

Timer-S1 并非一蹴而就，它经历了：

预训练：全量数据，平等对待远近预测任务。
持续预训练 (CPT)：引入 Weighted STP。根据马尔可夫过程的方差增长理论，给近期的预测块分配更高权重（ $1/ j$ 衰减），夯实预测的底层基础。
长上下文扩展：通过 RoPE（旋转位置编码）插值，将上下文长度从 2880 一举扩展到 11520。

实验与结果：统治级的性能表现

在涵盖金融、物联网、医疗等 24 个数据集的 GIFT-Eval 榜单上，Timer-S1 展现了压制性的实力。

中长期优势：实验数据显示，Timer-S1 在中长期任务上的提升最为显著（见下表），这证实了 TimeSTP 串行机制在处理复杂依赖时的有效性。

实验结果对比

消融实验：研究发现，如果去掉 TimeSTP 块回退到传统的 Rolling 模式，性能会大幅下降，这证明了这种“硬化”在架构里的串行结构比纯算法逻辑的循环更具归纳偏置（Inductive Bias）。

消融实验曲线

深度洞察与总结

Takeaway： Timer-S1 的成功标志着“通用时序预测”不再仅仅是把 NLP 的 Transformer 搬过来，而是需要针对时序数据的 Serial Nature（串行本质） 进行底层架构的重构。

局限性与未来：

外生变量（Covariates）：目前 Timer-S1 仍主要关注单变量时间序列，对于多变量间复杂交互的建模仍有提升空间。
多模态融合：未来的 AGI 代理需要模型能同时听懂文字指令并分析时序趋势，Timer-S1 为此预留了 Billion 级别的“大脑容量”。

正如论文标题所述，Serial Scaling（串行缩放） 可能是通往 General Forecasting 的最后一块拼图。

Find Similar Papers

Try Our Examples

查找最近一年内其他在时间序列基础模型中采用 Mixture-of-Experts (MoE) 架构并解决专家负载不均问题的论文。
哪篇早期的论文提出了时间序列预测的“串行缩放假设（Serial Scaling Hypothesis）”，Timer-S1 是如何将其转化为具体的 TimeSTP 块设计的？
有哪些研究探讨了将 TimeSTP 这种这种通过增加网络深度来替代时间迭代的机制应用到视频生成或流体动力学模拟任务中？

Contents

[2026 技术前瞻] Timer-S1：突破万亿时序数据，以“串行缩放”开启 8B 参数新纪元

1. TL;DR

2. 痛点深挖：为什么简单的 Scaling 在时序领域失效了？

3. 方法论详解：TimeSTP 与串行缩放的奥秘

3.1. 1. 模型架构：TimeMoE + TimeSTP

3.2. 2. 万亿级数据集：TimeBench

3.3. 3. 多阶段训练 pipeline

4. 实验与结果：统治级的性能表现

5. 深度洞察与总结