WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] FILT3R:当 Kalman 滤波遇见 Transformer,攻克流式 3D 重建的长程漂移难题
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 FILT3R,一种用于流式 3D 重建的无需训练(Training-free)的自适应隐空间滤波层。该方法将隐式状态更新建模为 Token 空间的随机状态估计,通过引入 Kalman 增益动态平衡历史记忆与新观测,在长序列(Long-horizon)任务中实现了显著的稳定性提升。

TL;DR

流式 3D 重建要求模型在有限内存下,通过不断更新隐状态(Latent State)来吸收新帧信息。然而,如何优雅地处理“喜新厌旧”与“固步自封”的矛盾?本文提出的 FILT3R 引入了**自适应 Kalman 滤波(AKF)**层,无需重训模型,通过在线估计 Token 级别的不确定性,实现了对历史记忆的精准保护与对场景变化的快速响应。在超长序列测试中,其定位与重建稳定性远超现有的覆盖策略和门控机制。

1. 痛点深挖:流式感知的“训练长度限制”

目前的 SOTA 流式重建框架(如 CUT3R)通常在短序列上训练,但在实际应用中,序列长度可能远超训练窗口。这时,简单的更新策略会暴露严重问题:

  • 覆盖(Overwrite)策略:每一帧都暴力替换状态,导致严重的“灾难性遗忘”和累积误差。
  • 启发式门控(Gating):虽然引入了注意力统计量来调节更新权重,但缺乏物理直觉和时序相干性。 一旦进入长 rollout,隐状态的漂移会导致几何结构的破碎和相机轨迹的崩溃。

2. 核心直觉:隐状态即“置信状态” (Belief State)

作者提出一个深刻的洞见:流式重建的循环状态本质上是一个 Belief State,而解码器产生的新 Token 只是一个带噪声的测量值(Measurement)。

基于此,FILT3R 将更新规则形式化为随机状态估计。核心公式如下:

  1. 过程模型:$ \mathbf{s}t = \mathbf{s}{t-1} + \mathbf{w}_t, \mathbf{w}_t \sim \mathcal{N}(0, \mathbf{Q}_t) $ (描述场景如何随时间演变)
  2. 测量模型:$ ilde{\mathbf{s}}_t = \mathbf{s}_t + \mathbf{v}_t, \mathbf{v}_t \sim \mathcal{N}(0, \mathbf{R}) $ (描述解码器预测的可靠性)

模型架构图 图 1:FILT3R 滤波层在流式框架中的嵌入位置,它作为插拔模块替换了传统的覆盖逻辑。

3. 方法论详解:自适应过程噪声与固定测量锚点

FILT3R 成功的关键在于其不对称的自适应策略

  • 在线估计 $Q_t$:通过计算连续候选状态之间的时间漂移(Temporal Drift),并使用 EMA 进行流级别的归一化。当检测到剧烈漂移(如相机快速转动)时,增大过程噪声,从而提高 Kalman 增益,让模型“多看新证据”。
  • 固定 $R$:作者发现,如果同时自适应 $Q$ 和 $R$,会产生正反馈耦合导致系统不稳定。固定 $R$ 作为一个“稳定性锚点”,体现了预训练解码器本身的固有不确定性。
  • 方差收缩(Confidence Accumulation):在稳定场景下,随着证据累积,Token 的后验方差 $p_t$ 会以 $O(1/t)$ 的速率衰减。这意味着模型对旧有记忆越来越自信,从而抑制了噪声的注入。

4. 实验结果:长程时代的统治力

实验在 TUM-RGBD、Bonn 和 7-Scenes 等多个数据集上展开,重点考察了超出训练长度(300-1000 帧)的表现。

关键发现:

  • 轨迹稳定性:在 TUM-800 序列上,FILT3R 的 ATEorig(起始对齐绝对轨迹误差)仅为 0.107,比之前最好的 TTT3R (0.214) 降低了一半。
  • 几何一致性:实验结果显示,FILT3R 能够生成更连贯的几何体,避免了 TTT3R 在长序列中常见的表面碎片化问题。

实验结果对比 表 1:TUM-RGBD 长序列相机位姿估计对比,FILT3R 在各项指标上均刷新了记录。

定性效果展示 图 2:定性重建对比。可以看到 FILT3R(右侧)在回环和长程序列中保持了更好的几何一致性(红色框内)。

5. 深度洞察与总结

FILT3R 的核心价值在于它提供了一个可解释的、端到端的滤波器视角来重新审视 Transformer 的循环记忆。

  • 为什么它比重置(Reset)策略好? 重置会丢弃上下文并导致尺度跳变,而 FILT3R 通过方差传播保留了全局一致的信念。
  • 局限性:目前主要针对 3D 重建任务,对于更通用的视频理解或长文本建模,其 Token 级的各向同性方差假设是否依然成立仍需验证。

总结 (Takeaway):FILT3R 证明了经典控制理论中的 Kalman 滤波精神并未过时。在神经网络难以泛化的长程推理任务中,引入具有显式物理含义的不确定性传播机制,是提升流式模型鲁棒性的“银弹”。

Find Similar Papers

Try Our Examples

  • 查找最近其他将 Kalman 滤波或状态空间模型 (SSM) 集成到 Transformer 隐空间记忆管理中的相关论文。
  • 哪篇论文最早在流式 3D 重建中提出了持久化 Token 状态(Persistent Latent Tokens)的概念?
  • 探讨将 FILT3R 这种基于不确定性的逐 Token 滤波机制应用到流式多模态大模型(Streaming LMM)长文本处理中的潜力研究。
Contents
[CVPR 2026] FILT3R:当 Kalman 滤波遇见 Transformer,攻克流式 3D 重建的长程漂移难题
1. TL;DR
2. 1. 痛点深挖:流式感知的“训练长度限制”
3. 2. 核心直觉:隐状态即“置信状态” (Belief State)
4. 3. 方法论详解:自适应过程噪声与固定测量锚点
5. 4. 实验结果:长程时代的统治力
6. 5. 深度洞察与总结