MeMix: Writing Less, Remembering More for Streaming 3D Reconstruction

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

MeMix: Writing Less, Remembering More for Streaming 3D Reconstruction

[CVPR 2026] MeMix：少写多记，破解流式 3D 重建的长序列“失忆”难题

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 MeMix，一种用于流式 3D 重建的无需训练、即插即用的状态更新模块。通过将循环状态（Recurrent State）重新构建为“存储混合体”（Memory Mixture），MeMix 实现了在长序列推理中显著降低几何漂移和灾难性遗忘，在 7-Scenes 等基准测试中将重建完整性误差平均降低了 15.3%。

TL;DR

在实时 3D 重建中，模型往往像个“健忘症患者”：为了记住当下的瞬间，它们不得不擦除掉几分钟前的记忆。清华大学与浙江大学的研究团队提出 MeMix，这是一种无需训练、即插即用的模块。它通过将模型状态分割成多个存储块，并只更新最不相关的部分（Bottom-k），实现了在不增加显存开销的前提下，显著增强了长序列重建的稳定性和精度。

1. 痛点深挖：为什么流式重建会“崩塌”？

目前的 3D 重建主要分为两种范式：

离线批处理 (Offline Batch)：全局优化，质量高，但处理长序列会 OOM（显存溢出），且延迟高。
流式在线 (Streaming Online)：逐帧处理，分为 KV-cache 式（显存随时间爆炸）和固定状态循环式 (Fixed-state Recurrent)。

循环式模型（如 CUT3R）虽然显存恒定（O(1)），但存在一个致命缺陷——全量覆盖写入。每一帧新图像都会强行改写所有的隐状态 Token。随着时间推移，早期的几何约束被冲刷殆尽，导致模型在处理 300 帧以上的序列时，会出现严重的轨迹漂移和表面“撕裂”现象。

2. 核心直觉：MeMix 的“选择性记忆”

研究者从 Mixture-of-Memories (MoM) 得到启发：既然全写会干扰记忆，那为什么不只写一部分？

MeMix 的逻辑非常简洁高效：

状态划分：将循环状态 $S$ 划分为多个独立的 Patch。
相似度路由：计算当前帧特征 $X_{t}$ 与状态候选值 $\hat{S}_{t}$ 的点积得分。
Bottom-k 更新：得分越低，代表该 Patch 与当前观察最不匹配（信息最陈旧或最不相关）。MeMix 只通过二值掩码 $M_{t}$ 更新这些得分最低的 Patch，而对其他高分 Patch 实行“精确保留”。

模型架构图 图 1：MeMix 整体流程，展示了从特征编码到选择性 Patch 更新的过程

3. 统一框架：从 CUT3R 到 MeMix

作者巧妙地将多种模型统一到了一个公式下： $S_{t} = G_{t} ⊙ \hat{S}_{t} + (1 - G_{t}) ⊙ S_{t - 1}$

当 $G_{t} = 1$ 时，是传统的 CUT3R（全量覆盖）。
当 $G_{t}$ 由注意力权重决定时，是 TTT3R（测试时训练）。
当 $G_{t}$ 是二值路由掩码时，就是 MeMix。

这种设计使得 MeMix 能够完美兼容现有的 SOTA 模型。

4. 实验战绩：极致的性价比

实验在 7-Scenes, ScanNet 和 KITTI 等多个数据集上展开。

几何结构的“起死回生”

在长时间运行后，原生模型往往会出现“幽灵影像”或几何缺失，而加入 MeMix 后，重建的表面更加平整、连贯。实验结果对比 图 2：定性对比，红框显示了 MeMix 如何通过减少漂移来修复表面撕裂和缺失

推理开销近乎为零

下表数据展示了 MeMix 的工程优势：它几乎不改变 FPS，也不增加显存占用。 | 方法 | FPS (w/o MeMix) | FPS (w. MeMix) | GPU (GB) | | :--- | :--- | :--- | :--- | | TTT3R | 12.72 | 12.81 | 6.96 | | TTSA3R | 12.58 | 12.78 | 6.63 |

5. 深度洞察：为什么是 Bottom-k？

在消融实验中，作者发现了一个有趣的现象：Bottom-k 远优于 Top-k。

Top-k：导致少数 Patch 被反复改写，产生正反馈效应，其他 Patch 则逐渐“僵化”，导致记忆多样性下降。
Bottom-k：强制模型去更新那些最不相关的部分，使得写入操作在所有 Token 上分布更均匀，实现了更高效的“存储空间回收”。

6. 总结与展望

MeMix 证明了在线 3D 重建的瓶颈不在于模型参数量，而在于状态管理的策略。尽管 MeMix 在数百帧级别表现优异，但在面对数公里的超大规模场景（数千甚至上万帧）时，如何动态调整 $k$ 值以及引入几何先验的更新规则，仍是未来值得探索的方向。

对于开发者而言，MeMix 的代码已开源，这种无需重新训练即可提升模型上限的“免费午餐”，无疑是空间智能领域的一件利器。

Find Similar Papers

Try Our Examples

查找最近其他尝试通过稀疏更新或路由机制解决循环神经网络（RNN）或线性 Transformer 中灾难性遗忘问题的论文。
哪篇论文最早提出了 Mixture-of-Memories (MoM) 概念，MeMix 在 3D 重建领域对其做了哪些具体的工程改进？
调研将 MeMix 这种稀疏状态更新策略应用到自动驾驶长序列感知或实时 SLAM 任务中的相关研究。

Contents

[CVPR 2026] MeMix：少写多记，破解流式 3D 重建的长序列“失忆”难题

1. TL;DR

2. 1. 痛点深挖：为什么流式重建会“崩塌”？

3. 2. 核心直觉：MeMix 的“选择性记忆”

4. 3. 统一框架：从 CUT3R 到 MeMix

5. 4. 实验战绩：极致的性价比

5.1. 几何结构的“起死回生”

5.2. 推理开销近乎为零

6. 5. 深度洞察：为什么是 Bottom-k？

7. 6. 总结与展望