WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[CVPR 2026 预测] EVATok:告别冗余,视频生成进入“按需分配”Token 的高效时代
总结
问题
方法
结果
要点
摘要

本文提出了 EVATok,一种针对视频自回归生成的自适应长度分词(Tokenization)框架。通过一种新颖的四阶段训练流程和路由机制,EVATok 实现了根据视频内容的复杂度和动态性动态分配 Token 数量,在 UCF-101 任务上达到了 SOTA 生成效果,且相比 LARP 等方法节省了至少 24.4% 的 Token 使用量。

TL;DR

在视频自回归生成领域,Token 的长度直接决定了计算开销。传统的固定长度分词器在处理简单背景时浪费资源,处理复杂动作时又力不从心。字节跳动 Seed 团队与港大提出的 EVATok 打破了这一僵局:它通过一个聪明的 Router(路由器) 预判视频每段的“信息密度”,实现 Token 的动态分配。结果不仅让 Token 使用量减少了 24.4%,生成质量(FVD)还刷写了 SOTA。

痛点深挖:为什么“平均主义”在视频压缩中行不通?

自回归(AR)模型在视觉生成中大放异彩,但其计算复杂度随序列长度呈平方级增长。目前的视频分词器(Video Tokenizer)大多非常“死板”:

  • 静态场景浪费:一个蓝天白云的空镜头和一段激烈的足球比赛,往往被分配了同样多的 Token。
  • 信息表示不足:在有限的预算下,复杂的动态细节因为 Token 拥挤而变得模糊。

作者敏锐地发现,理想的分词器应该具备“量体裁衣”的能力。

核心机制:EVATok 的四阶段炼金术

EVATok 的核心直觉是:如果能提前知道每段视频需要多少 Token 才能修得好,那生成就会既快又准。 为了实现这一点,作者设计了一个精妙的四阶段框架。

1. 架构解析:Q-Former 与 1D Token 序列

EVATok 采用了类 Q-Former 的架构。它将视频分解为多个时空块,每个块通过可变数量的 1D Query 进行特征提取。

模型架构图 图 1:EVATok 的 1D 变长视频分词架构,支持根据 Assignment 动态初始化 Query 长度。

2. 代理奖励(Proxy Reward):量化“性价比”

作者定义了一个数学公式来寻找最佳分配方案: 其中 是质量(重建效果), 是成本(Token 长度)。通过在代理模型上进行暴力搜索,团队建立了一个包含 10 万特征视频及其“最优分配标签”的数据集。

3. 训练轻量级路由器 (Router)

有了标签,作者训练了一个微型的 ViT 作为 Router。在生成或编码前,Router 先看一眼视频,直接喷出每个时间段最合理的 Token 数量分配(例如:第一秒给 512 个,第二秒给 64 个)。

实验战绩:更少,但更强

在 UCF-101 的对比实验中,EVATok 展示了降维打击般的优势。

实验结果对比 表 1:与 SOTA 方法对比,EVATok 在 Token 更少的情况下取得了更低的 rFVD(重建)和 gFVD(生成)。

关键发现:

  • 显著节能:相比之前的 SOTA 模型 LARP,EVATok 节省了约 26% 的生成 Token。
  • 视觉直觉吻合:可视化结果显示,Router 确实给动作复杂的视频段分配了更多 Token,而对重复性场景进行了极致压缩。
  • 语义对齐:引入 VideoMAE 指导训练后,模型在保持时空一致性方面表现优异,减少了视频闪烁。

深度洞察:为什么它能打败“Tail-token-dropping”?

此前也有人尝试过“丢弃末端 Token”来实现变长,但 EVATok 认为那是不完美的:

  1. 训练-推理偏差:丢弃法在训练时模型不知道哪些会被丢,导致特征编码不够聚焦。
  2. 计算浪费:即使丢掉,编码过程还是算了一遍。

EVATok 的 “先预测、再分配、后编码” 流程彻底解决了这个问题,确保了每一颗 Token 都死死锁在最有价值的信息点上。

总结与局限

EVATok 证明了**内容感知(Content-adaptive)**是视频生成走向大规模应用的必经之路。

局限性:目前实验主要集中在 16 帧短视频。对于工业级的长视频生成,Token 分配的搜索空间会呈指数爆炸。作者在附录中提到了未来将引入“自回归搜索”来解决长视频的计算开销问题。


资深主编点评:EVATok 的价值不在于它用了多复杂的公式,而在于它通过“代理奖励”巧妙地给不可导的 Token 长度分配问题找到了一个监督学习的平替方案。这对于未来想要在移动端实现高效视频生成的开发者来说,具有极强的工程参考意义。

发现相似论文

试试这些示例

  • 查找最近一年中除了 EVATok 外,还有哪些论文利用动态稀疏性或自适应长度来优化视频 Transformer 的推理效率?
  • 追溯视觉分词领域中“Tail-token-dropping”技术的起源,并分析 EVATok 提出的路由预测机制与其相比在解决训练-推理偏差(Training-inference gap)方面的优势。
  • 调研是否有研究尝试将 EVATok 这种基于代理奖励的自适应分词方法应用到 3D 医疗影像处理或长时段监控视频解析任务中?
目录
[CVPR 2026 预测] EVATok:告别冗余,视频生成进入“按需分配”Token 的高效时代
1. TL;DR
2. 痛点深挖:为什么“平均主义”在视频压缩中行不通?
3. 核心机制:EVATok 的四阶段炼金术
3.1. 1. 架构解析:Q-Former 与 1D Token 序列
3.2. 2. 代理奖励(Proxy Reward):量化“性价比”
3.3. 3. 训练轻量级路由器 (Router)
4. 实验战绩:更少,但更强
5. 深度洞察:为什么它能打败“Tail-token-dropping”?
6. 总结与局限