[CVPR 2025 候选] CompACT：仅需 8 个 Token，开启世界模型实时规划新时代

总结

问题

方法

结果

要点

摘要

本文提出了 CompACT，一种针对潜空间世界模型（Latent World Model）设计的极简离散分词器（Tokenizer）。该方法将每张图像压缩至仅 8-16 个 Token，在视觉导航与机器人操作任务中实现了与传统方法相当的规划性能，同时将规划延迟降低了 40 倍以上。

TL;DR

在机器人控制和自主导航领域，世界模型（World Models）被视为预测未来、进行模拟规划的神器。然而，现有的模型（如 NWM）在规划时由于 Latent Token 数量过多，往往需要数分钟才能计算出一个动作序列，这在实时控制中简直是灾难。CompACT 跨出了激进的一步：它将图像压缩到极致的 8-16 个 Token，在保持规划精度的同时，实现了 40 倍以上的加速。

动机：为什么我们需要“模糊”的大脑？

人类在思考如何穿过房间时，脑海里并不会渲染出一幅 4K 高清画面。我们只需要知道那里有一把椅子、一扇门，以及大致的距离。

现有的视觉分词器（Tokenizer）如 SD-VAE 走的却是相反的道路：它们追求像素级的完美重建，强行把背景的纹理、阴影等噪声都塞进数百个 Token 里。这不仅造成流量爆炸，更让 Transformer 的计算量呈二次方增长。作者认为：对于规划（Planning）而言，极端压缩不仅是必要的，甚至是益处的——它迫使模型学习抽象的语义，而非沉溺于视觉细节。

核心方法：CompACT 的两把刷子

CompACT 的架构设计精妙地平衡了“信息丢弃”与“视觉恢复”：

1. 语义编码器（Semantic Encoder）

作者不再从头训练编码器，而是直接搬出 DINOv3 这种强大的视觉基座模型（VFM）。这些模型天然具备识别物体边界和空间关系的能力。通过一个基于 Cross-Attention 的 Latent Resampler，模型像“抽真空”一样，只从 DINO 特征中提取最关键的 8-16 个语义锚点。

模型架构图 图 1：CompACT 整体架构。左侧为压缩流程，右侧为基于 MPC 的决策规划流程。

2. 生成式解码（Generative Decoding）

用 8 个 Token 重建图像在数学上是病态的（信息太少）。CompACT 开发了一种新思路：把解码看作是一个“条件生成”任务。它使用预训练的 VQGAN 作为目标，让 8 个语义 Token 作为“指令”，引导模型去“脑补”那些丢失的细节。结果是：虽然细节（如阴影方向）可能不完全一致，但物体的相对位置和逻辑关系完全正确。

实验战绩：速度与精度的双赢

在 RECON 导航数据集上的表现令人震惊：

延迟对比：传统的 SD-VAE（784 tokens）规划一次需要 178.78 秒，而 CompACT（8 tokens）仅需 4.83 秒。
精度表现：尽管 Token 数量减少了近 100 倍，但在轨迹误差（ATE）上，CompACT 依然保持了与之相当的水平，甚至远优于拥有 64 Tokens 的 FlexTok。

实验结果对比 表 1：不同 Tokenizer 在导航任务中的性能对比，CompACT 在 Latency 上呈现断层领先。

有趣的是，作者通过 逆动力学模型（IDM） 验证发现，CompACT 提取的 16 个 Token 在预测机器人末端执行器位置时（R² = 0.716），竟然比 256 个 Token 的传统模型更准。这证明了其捕获的确实是“动作相关”的核心特征。

深度洞察：模块化 Latent 的奥秘

为什么这么少的 Token 就够了？通过可视化 Attention Map，我们可以发现 CompACT 的 16 个 Token 并不是随机分布的，而是自动对齐到了环境中的实体：比如一个 Token 负责盯着机器人手臂，一个专注于目标物体，另一个负责观察地标。这种由于语义驱动产生的模块化（Modularity），正是其高效规划的物理直觉所在。

可视化分析 图 2：Latent Resampler 的注意力可视化。每个 Token 都能精准命中一个语义实体。

总结与局限性

CompACT 为世界模型的落地扫清了一个巨大的障碍：计算量。它告诉我们，世界模型的未来不在于更高分辨率的生成，而在于更精准的语义抽象。

局限性：目前的解码仍然依赖于预训练的目标分词器。如果目标场景极其复杂且从未在训练集中出现，生成式解码可能会产生“幻觉”，虽然这可能不影响规划路径，但会干扰需要高精度视觉反馈的任务（如精细手术机器人）。

未来展望：这种“极简 Token”的思路非常适合结合大语言模型或多模态模型，将物理世界的动态映射为极短的“状态符号”，或许能真正实现具身智能的长程逻辑推理。

发现相似论文

试试这些示例

查找最近其他试图通过压缩 Token 数量来加速基于 Transformer 的世界模型规划效率的论文。
哪篇论文最早提出了在图像分词中使用预训练冻结特征（Frozen Features）的想法，本文在此基础上做了哪些关键改进？
有哪些研究将 CompACT 这种极简 Token 机制应用到了自动驾驶或复杂多步机器人操控（Multi-step Manipulation）任务中？

[CVPR 2025 候选] CompACT：仅需 8 个 Token，开启世界模型实时规划新时代

1. TL;DR

2. 动机：为什么我们需要“模糊”的大脑？

3. 核心方法：CompACT 的两把刷子

3.1. 1. 语义编码器（Semantic Encoder）

3.2. 2. 生成式解码（Generative Decoding）

4. 实验战绩：速度与精度的双赢

5. 深度洞察：模块化 Latent 的奥秘

6. 总结与局限性