Helios: Real Real-Time Long Video Generation Model

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

Helios: Real Real-Time Long Video Generation Model

[CVPR 2026] Helios：14B 视频大模型的单卡“即兴”时代，19.5 FPS 开启分钟级实时长生成

Summary

Problem

Method

Results

Takeaways

Abstract

Helios 是由北京大学与字节跳动联合推出的 14B 参数级长视频生成模型。它首次在单块 NVIDIA H100 GPU 上实现了 19.5 FPS 的实时生成速度，支持分钟级视频创作，并统一了 T2V、I2V 及 V2V 任务。

TL;DR

在视频生成领域，我们曾长期在“大参数、高质量”与“实时、长生成”之间做二选一。北京大学与字节跳动的 Helios 团队打破了这一僵局。Helios 是首个能在单块 H100 GPU 上跑出 19.5 FPS 的 14B 视频生成模型。它不仅快，还能稳健生成长达数分钟的视频，且完全摒弃了极其耗时的 Self-Forcing 训练方案。

痛点深挖：为什么长视频总是“跑偏”？

长视频生成的最大敌人是 漂移 (Drifting)。当模型进行自回归生成时，微小的预测误差会不断累积，最终导致：

位置漂移 (Position Shift)：由于 RoPE 等位置编码的循环结构，模型会机械地重复动作或突然重置场景。
色彩漂移 (Color Shift)：随着时间推移，画面饱和度和色调失去控制。
修复漂移 (Restoration Shift)：画面逐渐变得模糊或充满伪影。

而为了实时化，前人要么把模型缩减到 1.3B（丢失细节），要么使用复杂的蒸馏技术，导致研究者无法在其基础上进行二次开发。

核心技术：如何让 14B 模型比 1.3B 还快？

1. 深度压缩流 (Deep Compression Flow) —— 从 Token 视角瘦身

Helios 团队意识到，视频生成中大部分 Token 是冗余的。

多期限内存分块 (Multi-Term Memory Patchification)：如图 7 所示，系统将历史背景分为短、中、长期。离当前越远的帧，使用的压缩倍率越大。这使得模型在维持固定 Token 预算的情况下，能“记住”长达 18 帧以上的有效历史，而不产生 OOM（显存溢出）。
金字塔统一预测器 (Pyramid Unified Predictor Corrector)：效仿图像生成的粗到精策略，在噪声较大的早期阶段使用低分辨率处理，后期再恢复全分辨率。这直接减少了 2.29 倍的计算负担。

模型架构图 图 4：Helios 整体架构，展示了其统一的历史注入与压缩流程

2. 简易去漂移策略 (Easy Anti-Drifting)

为了不使用 Self-Forcing（一种极慢的训练方式），Helios 引入了：

首帧锚点 (First-Frame Anchor)：在生成全程中始终保留第一帧作为视觉参考，极大地稳定了全局色彩分布。
帧感知腐蚀 (Frame-Aware Corrupt)：在训练时主动给历史帧加入噪声、曝光调整和降采样处理，强制模型学会如何纠正“带伤”的历史。

3. 对抗性分层蒸馏 (Adversarial Hierarchical Distillation)

通过 DMD（分布匹配蒸馏）将采样步数从 50 次压缩至 3 次，并引入 对抗后训练 (Adversarial Post-Training)。利用判别器在真实数据上进行额外监督，打破了蒸馏模型表现无法超越教师模型（Teacher Model）的魔咒。

实验与战绩：真正的实时性能

Helios 在单卡 H100 上的表现令人惊艳：

吞吐量：19.53 FPS，作为 14B 模型，其速度是 Wan 14B 基座模型的 58 倍。
长视频质量：在 HeliosBench 的 1440 帧（长视频段）评估中，其在语义一致性（Semantic）和自然度（Naturalness）上全面超越了 Reward Forcing 等强基线。

实验结果对比 图 1：Helios 与各类视频生成模型在 H100 上的 FPS 对比，可见其显著的性能红利

深度洞察：未来视界的启示

Helios 的成功在于它证明了**“系统级优化”与“算法级直觉”结合的重要性**。它没有一味堆砌算力去刷更长的自回归序列，而是通过精准的“历史帧腐蚀策略”模拟了推理时的风险，从而用极其低廉的代价解决了漂移难题。

局限性分析：尽管 Helios 表现优异，但论文也指出在接缝处仍可能存在轻微的闪烁问题（Flickering）。此外，为了实时性，目前的实验最高分辨率锁定在 384×640，更高精度的生成仍有待未来通过更先进的 VAE 或分块技术来解决。

总结： Helios 不仅仅是一个视频生成器，它更像是一个高效的“世界模拟器”原型，为未来的实时交互式 AI 视频应用（如生成式游戏引擎）铺平了道路。

Find Similar Papers

Try Our Examples

调研最近一年内除了 Helios 以外，还有哪些利用分层上下文窗口（Hierarchical Context Window）解决长视频生成 Token 冗余问题的研究？
追溯 RoPE（旋转位置编码）在视频生成中导致“重复运动”现象的理论根源，并查找本文提到的 Relative RoPE 改进的早期来源。
探究将 Helios 的“深度压缩流”技术应用于 3D 世界模型或交互式动态环境（如游戏引擎生成）的相关论文。

Contents

[CVPR 2026] Helios：14B 视频大模型的单卡“即兴”时代，19.5 FPS 开启分钟级实时长生成

1. TL;DR

2. 痛点深挖：为什么长视频总是“跑偏”？

3. 核心技术：如何让 14B 模型比 1.3B 还快？

3.1. 1. 深度压缩流 (Deep Compression Flow) —— 从 Token 视角瘦身

3.2. 2. 简易去漂移策略 (Easy Anti-Drifting)

3.3. 3. 对抗性分层蒸馏 (Adversarial Hierarchical Distillation)

4. 实验与战绩：真正的实时性能

5. 深度洞察：未来视界的启示