WisPaper
WisPaper
Search
QA
Pricing
TrueCite
[CVPR 2026] Helios:14B 视频大模型的单卡“即兴”时代,19.5 FPS 开启分钟级实时长生成
Summary
Problem
Method
Results
Takeaways
Abstract

Helios 是由北京大学与字节跳动联合推出的 14B 参数级长视频生成模型。它首次在单块 NVIDIA H100 GPU 上实现了 19.5 FPS 的实时生成速度,支持分钟级视频创作,并统一了 T2V、I2V 及 V2V 任务。

TL;DR

在视频生成领域,我们曾长期在“大参数、高质量”与“实时、长生成”之间做二选一。北京大学与字节跳动的 Helios 团队打破了这一僵局。Helios 是首个能在单块 H100 GPU 上跑出 19.5 FPS 的 14B 视频生成模型。它不仅快,还能稳健生成长达数分钟的视频,且完全摒弃了极其耗时的 Self-Forcing 训练方案。

痛点深挖:为什么长视频总是“跑偏”?

长视频生成的最大敌人是 漂移 (Drifting)。当模型进行自回归生成时,微小的预测误差会不断累积,最终导致:

  1. 位置漂移 (Position Shift):由于 RoPE 等位置编码的循环结构,模型会机械地重复动作或突然重置场景。
  2. 色彩漂移 (Color Shift):随着时间推移,画面饱和度和色调失去控制。
  3. 修复漂移 (Restoration Shift):画面逐渐变得模糊或充满伪影。

而为了实时化,前人要么把模型缩减到 1.3B(丢失细节),要么使用复杂的蒸馏技术,导致研究者无法在其基础上进行二次开发。

核心技术:如何让 14B 模型比 1.3B 还快?

1. 深度压缩流 (Deep Compression Flow) —— 从 Token 视角瘦身

Helios 团队意识到,视频生成中大部分 Token 是冗余的。

  • 多期限内存分块 (Multi-Term Memory Patchification):如图 7 所示,系统将历史背景分为短、中、长期。离当前越远的帧,使用的压缩倍率越大。这使得模型在维持固定 Token 预算的情况下,能“记住”长达 18 帧以上的有效历史,而不产生 OOM(显存溢出)。
  • 金字塔统一预测器 (Pyramid Unified Predictor Corrector):效仿图像生成的粗到精策略,在噪声较大的早期阶段使用低分辨率处理,后期再恢复全分辨率。这直接减少了 2.29 倍的计算负担。

模型架构图 图 4:Helios 整体架构,展示了其统一的历史注入与压缩流程

2. 简易去漂移策略 (Easy Anti-Drifting)

为了不使用 Self-Forcing(一种极慢的训练方式),Helios 引入了:

  • 首帧锚点 (First-Frame Anchor):在生成全程中始终保留第一帧作为视觉参考,极大地稳定了全局色彩分布。
  • 帧感知腐蚀 (Frame-Aware Corrupt):在训练时主动给历史帧加入噪声、曝光调整和降采样处理,强制模型学会如何纠正“带伤”的历史。

3. 对抗性分层蒸馏 (Adversarial Hierarchical Distillation)

通过 DMD(分布匹配蒸馏)将采样步数从 50 次压缩至 3 次,并引入 对抗后训练 (Adversarial Post-Training)。利用判别器在真实数据上进行额外监督,打破了蒸馏模型表现无法超越教师模型(Teacher Model)的魔咒。

实验与战绩:真正的实时性能

Helios 在单卡 H100 上的表现令人惊艳:

  • 吞吐量:19.53 FPS,作为 14B 模型,其速度是 Wan 14B 基座模型的 58 倍
  • 长视频质量:在 HeliosBench 的 1440 帧(长视频段)评估中,其在语义一致性(Semantic)和自然度(Naturalness)上全面超越了 Reward Forcing 等强基线。

实验结果对比 图 1:Helios 与各类视频生成模型在 H100 上的 FPS 对比,可见其显著的性能红利

深度洞察:未来视界的启示

Helios 的成功在于它证明了**“系统级优化”与“算法级直觉”结合的重要性**。它没有一味堆砌算力去刷更长的自回归序列,而是通过精准的“历史帧腐蚀策略”模拟了推理时的风险,从而用极其低廉的代价解决了漂移难题。

局限性分析: 尽管 Helios 表现优异,但论文也指出在接缝处仍可能存在轻微的闪烁问题(Flickering)。此外,为了实时性,目前的实验最高分辨率锁定在 384×640,更高精度的生成仍有待未来通过更先进的 VAE 或分块技术来解决。

总结: Helios 不仅仅是一个视频生成器,它更像是一个高效的“世界模拟器”原型,为未来的实时交互式 AI 视频应用(如生成式游戏引擎)铺平了道路。

Find Similar Papers

Try Our Examples

  • 调研最近一年内除了 Helios 以外,还有哪些利用分层上下文窗口(Hierarchical Context Window)解决长视频生成 Token 冗余问题的研究?
  • 追溯 RoPE(旋转位置编码)在视频生成中导致“重复运动”现象的理论根源,并查找本文提到的 Relative RoPE 改进的早期来源。
  • 探究将 Helios 的“深度压缩流”技术应用于 3D 世界模型或交互式动态环境(如游戏引擎生成)的相关论文。
Contents
[CVPR 2026] Helios:14B 视频大模型的单卡“即兴”时代,19.5 FPS 开启分钟级实时长生成
1. TL;DR
2. 痛点深挖:为什么长视频总是“跑偏”?
3. 核心技术:如何让 14B 模型比 1.3B 还快?
3.1. 1. 深度压缩流 (Deep Compression Flow) —— 从 Token 视角瘦身
3.2. 2. 简易去漂移策略 (Easy Anti-Drifting)
3.3. 3. 对抗性分层蒸馏 (Adversarial Hierarchical Distillation)
4. 实验与战绩:真正的实时性能
5. 深度洞察:未来视界的启示