本文提出了 CompACT,一种针对潜空间世界模型(Latent World Model)设计的极简离散分词器(Tokenizer)。该方法将每张图像压缩至仅 8-16 个 Token,在视觉导航与机器人操作任务中实现了与传统方法相当的规划性能,同时将规划延迟降低了 40 倍以上。
TL;DR
在机器人控制和自主导航领域,世界模型(World Models)被视为预测未来、进行模拟规划的神器。然而,现有的模型(如 NWM)在规划时由于 Latent Token 数量过多,往往需要数分钟才能计算出一个动作序列,这在实时控制中简直是灾难。CompACT 跨出了激进的一步:它将图像压缩到极致的 8-16 个 Token,在保持规划精度的同时,实现了 40 倍以上的加速。
动机:为什么我们需要“模糊”的大脑?
人类在思考如何穿过房间时,脑海里并不会渲染出一幅 4K 高清画面。我们只需要知道那里有一把椅子、一扇门,以及大致的距离。
现有的视觉分词器(Tokenizer)如 SD-VAE 走的却是相反的道路:它们追求像素级的完美重建,强行把背景的纹理、阴影等噪声都塞进数百个 Token 里。这不仅造成流量爆炸,更让 Transformer 的计算量呈二次方增长。作者认为:对于规划(Planning)而言,极端压缩不仅是必要的,甚至是益处的——它迫使模型学习抽象的语义,而非沉溺于视觉细节。
核心方法:CompACT 的两把刷子
CompACT 的架构设计精妙地平衡了“信息丢弃”与“视觉恢复”:
1. 语义编码器(Semantic Encoder)
作者不再从头训练编码器,而是直接搬出 DINOv3 这种强大的视觉基座模型(VFM)。这些模型天然具备识别物体边界和空间关系的能力。通过一个基于 Cross-Attention 的 Latent Resampler,模型像“抽真空”一样,只从 DINO 特征中提取最关键的 8-16 个语义锚点。
图 1:CompACT 整体架构。左侧为压缩流程,右侧为基于 MPC 的决策规划流程。
2. 生成式解码(Generative Decoding)
用 8 个 Token 重建图像在数学上是病态的(信息太少)。CompACT 开发了一种新思路:把解码看作是一个“条件生成”任务。它使用预训练的 VQGAN 作为目标,让 8 个语义 Token 作为“指令”,引导模型去“脑补”那些丢失的细节。结果是:虽然细节(如阴影方向)可能不完全一致,但物体的相对位置和逻辑关系完全正确。
实验战绩:速度与精度的双赢
在 RECON 导航数据集上的表现令人震惊:
- 延迟对比:传统的 SD-VAE(784 tokens)规划一次需要 178.78 秒,而 CompACT(8 tokens)仅需 4.83 秒。
- 精度表现:尽管 Token 数量减少了近 100 倍,但在轨迹误差(ATE)上,CompACT 依然保持了与之相当的水平,甚至远优于拥有 64 Tokens 的 FlexTok。
表 1:不同 Tokenizer 在导航任务中的性能对比,CompACT 在 Latency 上呈现断层领先。
有趣的是,作者通过 逆动力学模型(IDM) 验证发现,CompACT 提取的 16 个 Token 在预测机器人末端执行器位置时(R² = 0.716),竟然比 256 个 Token 的传统模型更准。这证明了其捕获的确实是“动作相关”的核心特征。
深度洞察:模块化 Latent 的奥秘
为什么这么少的 Token 就够了?通过可视化 Attention Map,我们可以发现 CompACT 的 16 个 Token 并不是随机分布的,而是自动对齐到了环境中的实体:比如一个 Token 负责盯着机器人手臂,一个专注于目标物体,另一个负责观察地标。这种由于语义驱动产生的模块化(Modularity),正是其高效规划的物理直觉所在。
图 2:Latent Resampler 的注意力可视化。每个 Token 都能精准命中一个语义实体。
总结与局限性
CompACT 为世界模型的落地扫清了一个巨大的障碍:计算量。它告诉我们,世界模型的未来不在于更高分辨率的生成,而在于更精准的语义抽象。
局限性:目前的解码仍然依赖于预训练的目标分词器。如果目标场景极其复杂且从未在训练集中出现,生成式解码可能会产生“幻觉”,虽然这可能不影响规划路径,但会干扰需要高精度视觉反馈的任务(如精细手术机器人)。
未来展望:这种“极简 Token”的思路非常适合结合大语言模型或多模态模型,将物理世界的动态映射为极短的“状态符号”,或许能真正实现具身智能的长程逻辑推理。
