PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

[CVPR 2026] PackForcing：突破显存瓶颈，5 秒训练开启 2 分钟长视频生成新纪元

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 PackForcing，这是一个旨在解决自回归视频生成中 KV-Cache 线性增长和长视频误差累积问题的统一框架。通过创新的“三分区 KV-Cache”策略和 32 倍 Token 压缩技术，PackForcing 仅需 5 秒短视频训练，即可在单张 H200 GPU 上实现 120 秒高动态、长相干视频的 SOTA 生成。

TL;DR

在自回归（Autoregressive）视频生成的道路上，开发者一直面临“显存溢出”与“长程失效”的双重夹击。PackForcing 给出了一份优雅的答卷：通过将 KV-Cache 进行分区管理并实施 32 倍的高倍率 Token 压缩，它仅凭 5 秒短视频的微调，就能在单卡上生成 2 分钟连贯的高动态视频。

核心痛点：为什么长视频生成这么难？

自回归模型虽然能理论上“无限”生成，但现实极其残酷：

内存黑洞：视频 Token 极为密集。生成 120 秒视频对应的 KV-Cache 约需 138GB，这意味着目前的单卡 GPU 根本无法承载其“记忆”。
渐进式崩溃：传统的缓存截断（Truncation）会导致模型“失忆”，随着时间推移，生成的物体会变形、消失，或者背景完全错位（Semantic Drift）。

PackForcing 的绝招：三位一体的缓存管理

作者提出，视频的记忆不应该是扁平的，而应该是具有层次结构的 Three-Partition KV-Cache：

Sink Tokens（语义锚点）：保留视频最初的几帧。它们像“定海神针”一样锁定全局布局和主体身份，防止语义漂移。
Compressed Mid Tokens（中程记忆）：这是本文的重头戏。中间的大量历史帧不直接保留，而是通过一个双分支（Dual-Branch）模块进行 128 倍体积压缩（Token 数减少约 32 倍）。
- HR 分支：利用 3D 卷积保留精细结构。
- LR 分支：通过 VAE 重编码捕获全局语义。
Recent Tokens（近期触感）：保留最近生成的帧，不进行压缩，以确保动作的流畅和局部时序相干性。

模型架构图

破解位置偏移：增量 RoPE 旋转

在动态丢弃（Eviction）旧 Token 时，剩下的 Token 会面临位置编码断层的问题。PackForcing 引入了 Incremental RoPE Adjustment。

物理直觉：既然 RoPE 是复数旋转，那么删除 $\Delta$ 块后，只需对 Sink Tokens 应用一个补偿旋转因子 $e^{i heta_t(\delta)}$，即可让记忆在时间轴上实现“无缝对接”，计算开销几乎为零（<0.1%）。

实验战绩：短练长用的奇迹

PackForcing 最令人惊艳的是其外推能力。即便只在 5 秒的短片上训练，它也能稳定输出 120 秒的视频。

显存效率：KV-Cache 稳定在 ~4.2GB。
画质表现：在 VBench 的 Dynamic Degree 指标上，PackForcing 达到了 56.25，远超同类模型。这意味着它生成的视频不是“PPT 动画”，而是具有丰富摄影机运动和主体动作的真实视频。

实验结果对比

在长达 2 分钟的“水獭冲浪”测试中，PackForcing 保持了极高的主体一致性，黄色救生衣和水花纹理在 120 秒后依然清晰可辨，而对比 baseline（如 Self-Forcing）在 60 秒处就已出现色彩塌陷。

深度洞察

PackForcing 的成功在于它精准捕捉到了视频数据的 Spatiotemporal Redundancy（时空冗余）。它不仅仅是简单地“丢弃”记忆，而是通过学习一种压缩表征，让模型在有限的注意力带宽内，依然能看到“过去”。

局限性：尽管动态度极高，但在极端长的时间窗口（>2min）下，主体一致性仍有微幅下滑。此外，目前的 32 倍压缩率是否是帕累托前沿的最优点仍值得进一步探索。

总结

PackForcing 为我们展示了长视频生成的一个重要趋势：高效的上下文管理比单纯扩大模型参数更有意义。它打破了显存的物理枷锁，标志着个人工作室级别的硬件也能产出电影级长度的 AI 视频。

Find Similar Papers

Try Our Examples

查找其他通过学习得到的（Learned Compression）方法来压缩 Transformer 中 KV-Cache 的最新研究。
哪篇论文最早在 LLM 中提出了 Attention Sink 概念，本文是如何将其物理直觉延伸到视频生成领域的？
调研 PackForcing 中提到的流匹配（Flow Matching）架构与最新视频大模型（如 Sora、Mamba-Video）结合的可能性。

Contents

[CVPR 2026] PackForcing：突破显存瓶颈，5 秒训练开启 2 分钟长视频生成新纪元

1. TL;DR

2. 核心痛点：为什么长视频生成这么难？

3. PackForcing 的绝招：三位一体的缓存管理

4. 破解位置偏移：增量 RoPE 旋转

5. 实验战绩：短练长用的奇迹

6. 深度洞察

7. 总结