Helios 是由北京大学与字节跳动联合推出的 14B 参数级长视频生成模型。它首次在单块 NVIDIA H100 GPU 上实现了 19.5 FPS 的实时生成速度,支持分钟级视频创作,并统一了 T2V、I2V 及 V2V 任务。
TL;DR
在视频生成领域,我们曾长期在“大参数、高质量”与“实时、长生成”之间做二选一。北京大学与字节跳动的 Helios 团队打破了这一僵局。Helios 是首个能在单块 H100 GPU 上跑出 19.5 FPS 的 14B 视频生成模型。它不仅快,还能稳健生成长达数分钟的视频,且完全摒弃了极其耗时的 Self-Forcing 训练方案。
痛点深挖:为什么长视频总是“跑偏”?
长视频生成的最大敌人是 漂移 (Drifting)。当模型进行自回归生成时,微小的预测误差会不断累积,最终导致:
- 位置漂移 (Position Shift):由于 RoPE 等位置编码的循环结构,模型会机械地重复动作或突然重置场景。
- 色彩漂移 (Color Shift):随着时间推移,画面饱和度和色调失去控制。
- 修复漂移 (Restoration Shift):画面逐渐变得模糊或充满伪影。
而为了实时化,前人要么把模型缩减到 1.3B(丢失细节),要么使用复杂的蒸馏技术,导致研究者无法在其基础上进行二次开发。
核心技术:如何让 14B 模型比 1.3B 还快?
1. 深度压缩流 (Deep Compression Flow) —— 从 Token 视角瘦身
Helios 团队意识到,视频生成中大部分 Token 是冗余的。
- 多期限内存分块 (Multi-Term Memory Patchification):如图 7 所示,系统将历史背景分为短、中、长期。离当前越远的帧,使用的压缩倍率越大。这使得模型在维持固定 Token 预算的情况下,能“记住”长达 18 帧以上的有效历史,而不产生 OOM(显存溢出)。
- 金字塔统一预测器 (Pyramid Unified Predictor Corrector):效仿图像生成的粗到精策略,在噪声较大的早期阶段使用低分辨率处理,后期再恢复全分辨率。这直接减少了 2.29 倍的计算负担。
图 4:Helios 整体架构,展示了其统一的历史注入与压缩流程
2. 简易去漂移策略 (Easy Anti-Drifting)
为了不使用 Self-Forcing(一种极慢的训练方式),Helios 引入了:
- 首帧锚点 (First-Frame Anchor):在生成全程中始终保留第一帧作为视觉参考,极大地稳定了全局色彩分布。
- 帧感知腐蚀 (Frame-Aware Corrupt):在训练时主动给历史帧加入噪声、曝光调整和降采样处理,强制模型学会如何纠正“带伤”的历史。
3. 对抗性分层蒸馏 (Adversarial Hierarchical Distillation)
通过 DMD(分布匹配蒸馏)将采样步数从 50 次压缩至 3 次,并引入 对抗后训练 (Adversarial Post-Training)。利用判别器在真实数据上进行额外监督,打破了蒸馏模型表现无法超越教师模型(Teacher Model)的魔咒。
实验与战绩:真正的实时性能
Helios 在单卡 H100 上的表现令人惊艳:
- 吞吐量:19.53 FPS,作为 14B 模型,其速度是 Wan 14B 基座模型的 58 倍。
- 长视频质量:在 HeliosBench 的 1440 帧(长视频段)评估中,其在语义一致性(Semantic)和自然度(Naturalness)上全面超越了 Reward Forcing 等强基线。
图 1:Helios 与各类视频生成模型在 H100 上的 FPS 对比,可见其显著的性能红利
深度洞察:未来视界的启示
Helios 的成功在于它证明了**“系统级优化”与“算法级直觉”结合的重要性**。它没有一味堆砌算力去刷更长的自回归序列,而是通过精准的“历史帧腐蚀策略”模拟了推理时的风险,从而用极其低廉的代价解决了漂移难题。
局限性分析: 尽管 Helios 表现优异,但论文也指出在接缝处仍可能存在轻微的闪烁问题(Flickering)。此外,为了实时性,目前的实验最高分辨率锁定在 384×640,更高精度的生成仍有待未来通过更先进的 VAE 或分块技术来解决。
总结: Helios 不仅仅是一个视频生成器,它更像是一个高效的“世界模拟器”原型,为未来的实时交互式 AI 视频应用(如生成式游戏引擎)铺平了道路。
