FILT3R: Latent State Adaptive Kalman Filter for Streaming 3D Reconstruction

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

FILT3R: Latent State Adaptive Kalman Filter for Streaming 3D Reconstruction

[CVPR 2026] FILT3R：当 Kalman 滤波遇见 Transformer，攻克流式 3D 重建的长程漂移难题

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 FILT3R，一种用于流式 3D 重建的无需训练（Training-free）的自适应隐空间滤波层。该方法将隐式状态更新建模为 Token 空间的随机状态估计，通过引入 Kalman 增益动态平衡历史记忆与新观测，在长序列（Long-horizon）任务中实现了显著的稳定性提升。

TL;DR

流式 3D 重建要求模型在有限内存下，通过不断更新隐状态（Latent State）来吸收新帧信息。然而，如何优雅地处理“喜新厌旧”与“固步自封”的矛盾？本文提出的 FILT3R 引入了**自适应 Kalman 滤波（AKF）**层，无需重训模型，通过在线估计 Token 级别的不确定性，实现了对历史记忆的精准保护与对场景变化的快速响应。在超长序列测试中，其定位与重建稳定性远超现有的覆盖策略和门控机制。

1. 痛点深挖：流式感知的“训练长度限制”

目前的 SOTA 流式重建框架（如 CUT3R）通常在短序列上训练，但在实际应用中，序列长度可能远超训练窗口。这时，简单的更新策略会暴露严重问题：

覆盖（Overwrite）策略：每一帧都暴力替换状态，导致严重的“灾难性遗忘”和累积误差。
启发式门控（Gating）：虽然引入了注意力统计量来调节更新权重，但缺乏物理直觉和时序相干性。一旦进入长 rollout，隐状态的漂移会导致几何结构的破碎和相机轨迹的崩溃。

2. 核心直觉：隐状态即“置信状态” (Belief State)

作者提出一个深刻的洞见：流式重建的循环状态本质上是一个 Belief State，而解码器产生的新 Token 只是一个带噪声的测量值（Measurement）。

基于此，FILT3R 将更新规则形式化为随机状态估计。核心公式如下：

过程模型：$ \mathbf{s}t = \mathbf{s}{t-1} + \mathbf{w}_t, \mathbf{w}_t \sim \mathcal{N}(0, \mathbf{Q}_t) $ (描述场景如何随时间演变)
测量模型：$ ilde{\mathbf{s}}_t = \mathbf{s}_t + \mathbf{v}_t, \mathbf{v}_t \sim \mathcal{N}(0, \mathbf{R}) $ (描述解码器预测的可靠性)

模型架构图 图 1：FILT3R 滤波层在流式框架中的嵌入位置，它作为插拔模块替换了传统的覆盖逻辑。

3. 方法论详解：自适应过程噪声与固定测量锚点

FILT3R 成功的关键在于其不对称的自适应策略：

在线估计 $Q_t$：通过计算连续候选状态之间的时间漂移（Temporal Drift），并使用 EMA 进行流级别的归一化。当检测到剧烈漂移（如相机快速转动）时，增大过程噪声，从而提高 Kalman 增益，让模型“多看新证据”。
固定 $R$：作者发现，如果同时自适应 $Q$ 和 $R$，会产生正反馈耦合导致系统不稳定。固定 $R$ 作为一个“稳定性锚点”，体现了预训练解码器本身的固有不确定性。
方差收缩（Confidence Accumulation）：在稳定场景下，随着证据累积，Token 的后验方差 $p_t$ 会以 $O(1/t)$ 的速率衰减。这意味着模型对旧有记忆越来越自信，从而抑制了噪声的注入。

4. 实验结果：长程时代的统治力

实验在 TUM-RGBD、Bonn 和 7-Scenes 等多个数据集上展开，重点考察了超出训练长度（300-1000 帧）的表现。

关键发现：

轨迹稳定性：在 TUM-800 序列上，FILT3R 的 ATEorig（起始对齐绝对轨迹误差）仅为 0.107，比之前最好的 TTT3R (0.214) 降低了一半。
几何一致性：实验结果显示，FILT3R 能够生成更连贯的几何体，避免了 TTT3R 在长序列中常见的表面碎片化问题。

实验结果对比 表 1：TUM-RGBD 长序列相机位姿估计对比，FILT3R 在各项指标上均刷新了记录。

定性效果展示 图 2：定性重建对比。可以看到 FILT3R（右侧）在回环和长程序列中保持了更好的几何一致性（红色框内）。

5. 深度洞察与总结

FILT3R 的核心价值在于它提供了一个可解释的、端到端的滤波器视角来重新审视 Transformer 的循环记忆。

为什么它比重置（Reset）策略好？ 重置会丢弃上下文并导致尺度跳变，而 FILT3R 通过方差传播保留了全局一致的信念。
局限性：目前主要针对 3D 重建任务，对于更通用的视频理解或长文本建模，其 Token 级的各向同性方差假设是否依然成立仍需验证。

总结 (Takeaway)：FILT3R 证明了经典控制理论中的 Kalman 滤波精神并未过时。在神经网络难以泛化的长程推理任务中，引入具有显式物理含义的不确定性传播机制，是提升流式模型鲁棒性的“银弹”。

Find Similar Papers

Try Our Examples

查找最近其他将 Kalman 滤波或状态空间模型 (SSM) 集成到 Transformer 隐空间记忆管理中的相关论文。
哪篇论文最早在流式 3D 重建中提出了持久化 Token 状态（Persistent Latent Tokens）的概念？
探讨将 FILT3R 这种基于不确定性的逐 Token 滤波机制应用到流式多模态大模型（Streaming LMM）长文本处理中的潜力研究。

Contents

[CVPR 2026] FILT3R：当 Kalman 滤波遇见 Transformer，攻克流式 3D 重建的长程漂移难题

1. TL;DR

2. 1. 痛点深挖：流式感知的“训练长度限制”

3. 2. 核心直觉：隐状态即“置信状态” (Belief State)

4. 3. 方法论详解：自适应过程噪声与固定测量锚点

5. 4. 实验结果：长程时代的统治力

6. 5. 深度洞察与总结