EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

[CVPR 2026 预测] EVATok：告别冗余，视频生成进入“按需分配”Token 的高效时代

总结

问题

方法

结果

要点

摘要

本文提出了 EVATok，一种针对视频自回归生成的自适应长度分词（Tokenization）框架。通过一种新颖的四阶段训练流程和路由机制，EVATok 实现了根据视频内容的复杂度和动态性动态分配 Token 数量，在 UCF-101 任务上达到了 SOTA 生成效果，且相比 LARP 等方法节省了至少 24.4% 的 Token 使用量。

TL;DR

在视频自回归生成领域，Token 的长度直接决定了计算开销。传统的固定长度分词器在处理简单背景时浪费资源，处理复杂动作时又力不从心。字节跳动 Seed 团队与港大提出的 EVATok 打破了这一僵局：它通过一个聪明的 Router（路由器） 预判视频每段的“信息密度”，实现 Token 的动态分配。结果不仅让 Token 使用量减少了 24.4%，生成质量（FVD）还刷写了 SOTA。

痛点深挖：为什么“平均主义”在视频压缩中行不通？

自回归（AR）模型在视觉生成中大放异彩，但其计算复杂度随序列长度呈平方级增长。目前的视频分词器（Video Tokenizer）大多非常“死板”：

静态场景浪费：一个蓝天白云的空镜头和一段激烈的足球比赛，往往被分配了同样多的 Token。
信息表示不足：在有限的预算下，复杂的动态细节因为 Token 拥挤而变得模糊。

作者敏锐地发现，理想的分词器应该具备“量体裁衣”的能力。

核心机制：EVATok 的四阶段炼金术

EVATok 的核心直觉是：如果能提前知道每段视频需要多少 Token 才能修得好，那生成就会既快又准。 为了实现这一点，作者设计了一个精妙的四阶段框架。

1. 架构解析：Q-Former 与 1D Token 序列

EVATok 采用了类 Q-Former 的架构。它将视频分解为多个时空块，每个块通过可变数量的 1D Query 进行特征提取。

模型架构图 图 1：EVATok 的 1D 变长视频分词架构，支持根据 Assignment $a$ 动态初始化 Query 长度。

2. 代理奖励（Proxy Reward）：量化“性价比”

作者定义了一个数学公式来寻找最佳分配方案： $R_{p r o x y} = w_{q} Q (x, a) - w_{l} L (a)$ 其中 $Q$ 是质量（重建效果）， $L$ 是成本（Token 长度）。通过在代理模型上进行暴力搜索，团队建立了一个包含 10 万特征视频及其“最优分配标签”的数据集。

3. 训练轻量级路由器 (Router)

有了标签，作者训练了一个微型的 ViT 作为 Router。在生成或编码前，Router 先看一眼视频，直接喷出每个时间段最合理的 Token 数量分配（例如：第一秒给 512 个，第二秒给 64 个）。

实验战绩：更少，但更强

在 UCF-101 的对比实验中，EVATok 展示了降维打击般的优势。

实验结果对比 表 1：与 SOTA 方法对比，EVATok 在 Token 更少的情况下取得了更低的 rFVD（重建）和 gFVD（生成）。

关键发现：

显著节能：相比之前的 SOTA 模型 LARP，EVATok 节省了约 26% 的生成 Token。
视觉直觉吻合：可视化结果显示，Router 确实给动作复杂的视频段分配了更多 Token，而对重复性场景进行了极致压缩。
语义对齐：引入 VideoMAE 指导训练后，模型在保持时空一致性方面表现优异，减少了视频闪烁。

深度洞察：为什么它能打败“Tail-token-dropping”？

此前也有人尝试过“丢弃末端 Token”来实现变长，但 EVATok 认为那是不完美的：

训练-推理偏差：丢弃法在训练时模型不知道哪些会被丢，导致特征编码不够聚焦。
计算浪费：即使丢掉，编码过程还是算了一遍。

EVATok 的 “先预测、再分配、后编码” 流程彻底解决了这个问题，确保了每一颗 Token 都死死锁在最有价值的信息点上。

总结与局限

EVATok 证明了**内容感知（Content-adaptive）**是视频生成走向大规模应用的必经之路。

局限性：目前实验主要集中在 16 帧短视频。对于工业级的长视频生成，Token 分配的搜索空间会呈指数爆炸。作者在附录中提到了未来将引入“自回归搜索”来解决长视频的计算开销问题。

资深主编点评：EVATok 的价值不在于它用了多复杂的公式，而在于它通过“代理奖励”巧妙地给不可导的 Token 长度分配问题找到了一个监督学习的平替方案。这对于未来想要在移动端实现高效视频生成的开发者来说，具有极强的工程参考意义。

发现相似论文

试试这些示例

查找最近一年中除了 EVATok 外，还有哪些论文利用动态稀疏性或自适应长度来优化视频 Transformer 的推理效率？
追溯视觉分词领域中“Tail-token-dropping”技术的起源，并分析 EVATok 提出的路由预测机制与其相比在解决训练-推理偏差（Training-inference gap）方面的优势。
调研是否有研究尝试将 EVATok 这种基于代理奖励的自适应分词方法应用到 3D 医疗影像处理或长时段监控视频解析任务中？

[CVPR 2026 预测] EVATok：告别冗余，视频生成进入“按需分配”Token 的高效时代

1. TL;DR

2. 痛点深挖：为什么“平均主义”在视频压缩中行不通？

3. 核心机制：EVATok 的四阶段炼金术

3.1. 1. 架构解析：Q-Former 与 1D Token 序列

3.2. 2. 代理奖励（Proxy Reward）：量化“性价比”

3.3. 3. 训练轻量级路由器 (Router)

4. 实验战绩：更少，但更强

5. 深度洞察：为什么它能打败“Tail-token-dropping”？

6. 总结与局限