本文提出了 OVGGT,这是一个实现 O(1) 恒定资源消耗的流式视觉几何 Transformer 框架。通过在不进行额外训练的情况下引入自选择缓存(SSC)和动态锚点保护(DAP)机制,该方法在保持 SOTA 3D 重建精度的同时,彻底解决了流式推理中 KV Cache 线性增长导致的内存溢出问题。
TL;DR
在自动驾驶和 AR 领域,实时从视频流中重建 3D 几何结构是一项核心挑战。传统的 Transformer 模型虽精度高,但 KV Cache 的线性增长 像一张“显存吞噬者”的巨网,让直播流推理往往止步于数百帧。
OVGGT (Constant-Cost Streaming Visual Geometry Transformer) 横空出世:它无需重新训练,通过 自选择缓存 (SSC) 和 动态锚点保护 (DAP),将显存和计算开销锁死在恒定区间(O(1)),支持处理万帧级别的视频流,且重建精度不降反升!
1. 痛点深挖:为什么流式 3D 重建这么难?
现有的几何基础模型(如 DUSt3R, VGGT)虽然在离线任务中表现惊艳,但在“流式”场景下却面临尴尬境地:
- 显存放逐:StreamVGGT 类模型通过缓存过往所有帧的 Key-Value 对来实现单次推理,但处理到 300 帧左右就会撑爆 80GB 的 A100 显存。
- 精度与成本的博弈:如果简单限制缓存大小(如随机丢弃 Token),模型会迅速遗忘之前的空间坐标,导致生成的 3D 点云发生严重的“几何漂移(Drift)”和结构断裂。
- 计算效率递减:随着序列变长,Attention 机制查询的 Token 越来越多,推理延迟逐渐从“实时”变为“幻灯片”。
2. 核心机制:如何在丢弃 Token 的同时保住精度?
OVGGT 的作者提出了一种极具物理直觉的方案:“并非所有的 Token 都有价值,只有影响了几何结构的 Token 才值得被铭记。”
2.1 自选择缓存 (Self-Selective Caching, SSC)
作者发现,Transformer 中的 FFN(前馈网络)残差幅度 能够完美充当几何显著性的“探测器”。
- 物理直觉:浅层 FFN 激活强的地方通常是纹理丰富的区域,深层 FFN 则锁定几何特征或语义边界。
- 空间平滑:为了防止保留的 Token 过于破碎(导致深度图麻点),作者引入了 高斯平滑,鼓励以“块”为单位保留 Token,维持局部几何连贯性。
图注:OVGGT 架构概览。SSC 模块进行 Token 实时评分与剔除,而 DAP 模块负责守住核心几何参考。
2.2 动态锚点保护 (Dynamic Anchor Protection, DAP)
为了防止相机走远后再回来时发生坐标偏离,DAP 机制设立了两种“保命符”:
- 全局初始锚点:永久保留第一帧的所有 Token。因为第一帧确立了世界坐标系的原点,它是所有后续 3D 点的“根”。
- 历史轨迹锚点:根据相机视野覆盖率(Coverage Ratio),自适应地挑选极少数关键历史视角加入保护区,防止在长距离移动中“迷路”。
3. 实验战绩:全量缓存居然不是上限?
实验结果令人大吃一惊:在 7-Scenes 等数据集上,使用 OVGGT 压缩方案的效果竟然优于保留全部缓存的版本!
- 信噪比提升:全量缓存会引入大量冗余和噪声 Token,反而干扰了注意力机制。OVGGT 像是一台精密的滤网,去粗取精。
- 恒定开销:无论视频是 500 帧还是 10,000 帧,显存占用稳定在 10GB 左右,推理速度(FPS)始终如一。
图注:效率对比。OVGGT(橙色线)在显存和速度上表现出完美的 O(1) 特性,而 StreamVGGT 在 200 帧处准时崩溃。
4. 深度洞察:为何 FFN 残差如此有效?
这是本篇论文最优雅的一点。作者没有额外训练一个复杂的评分网络,而是直接利用了模型已有的结构。 在几何 Transformer 中,FFN 的非线性映射决定了 Token 如何从“像素点”转化为“空间坐标”。残差越大,说明该 Token 携带的几何信息越关键。这种 Zero-shot 的插件式设计,让 OVGGT 可以直接应用在任何现成(Pre-trained)的因果注意力模型上。
5. 局限性与未来展望
虽然 OVGGT 解决了内存爆炸问题,但作为单次传递(Single-pass)的流式模型,它依然面临单向误差累积的挑战。如果前期预测错了,目前还没有机制能够回头修正。
作者在文末给出了极具启发性的建议:未来的研究方向应当是 Staged Streaming(阶段式流式推理) —— 结合滑动窗口的局部优化与定期的全局轻量级精炼,从而在保持 O(1) 开销的同时,彻底消除长程漂移。
总结:OVGGT 为我们展示了通过“精细化管理显存”来挖掘模型潜力的巨大空间。在边缘侧设备(如 VR 眼镜、无人机)上实现无限时长的 3D 感知,由这篇论文迈出了一大步。
