ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

[arXiv 2026] ReCoSplat：突破长序列瓶颈，自回归前馈 3D 高斯泼溅新基准

Summary

Problem

Method

Results

Takeaways

Abstract

ReCoSplat 是一种自回归前馈 Gaussian Splatting (GS) 模型，旨在从顺序输入的图像流（支持有/无相机位姿及内参）中实现实时新视图合成。该方法引入了 Render-and-Compare (ReCo) 模块和分层 KV Cache 压缩策略，在处理超过 100 帧的长序列时，内存占用降低了 90% 以上，并达到了 SOTA 性能。

TL;DR

ReCoSplat 解决了在线 3D 重建中的核心难题：如何在相机位姿不准的情况下，稳定地生成 3D 高斯基元（Gaussian Primitives）？通过引入 Render-and-Compare (ReCo) 模块和极致的 KV Cache 压缩策略，ReCoSplat 不仅消除了训练与推理之间的位姿分布偏差，还能在显存受限的消费级显卡上处理数百帧的超长序列，展现了卓越的通用重建能力。

背景定位

传统的 3D Gaussian Splatting (3DGS) 依赖昂贵的逐场景优化，而前馈（Feed-forward）方法致力于“一图/多图即出 3D”。然而，当场景变为动态流入的视频流（自回归场景）时，模型往往会因为位姿误差的累积而崩坏。ReCoSplat 在此背景下，站在了自回归重建与高效 Transformer 处理的交汇点。

核心痛点：位姿不匹配 (Pose Mismatch)

在自回归重建中，模型需要根据当前的相机位姿将新预测的高斯点“组装”到全局场景中。

训练由于太“稳”而失败：若训练时一直用真值位姿，模型会产生依赖；推理时一旦位置预测偏了一点，渲染出的高斯点就会发生严重的重影和错位。
显存爆炸：Transformer 处理 N 个帧时，KV Cache 的空间复杂度是 $O (N)$ 。对于高清长视频，这很快会耗尽显存。

方法论：Render-and-Compare 与 10x 压缩

1. Render-and-Compare (ReCo) 模块

作者的直觉是：既然位姿不准，那就让模型通过“看一眼”当前的渲染效果来自己修正。

How it works: 在预测新一帧的高斯点前，先用当前的预测位姿把已建好的 3D 场景渲染出来。
Visual Prior: 将渲染图与实际观察到的图像进行对比，这种“残差信号”包含了位姿误差的信息。
Cross-Attention: 模型利用这种先验，通过交叉注意力机制调整高斯基元的生成参数，从而补偿位姿偏差。

模型架构图 图 1：ReCoSplat 获取图像块并利用 KV Cache 与渲染反馈进行预测的总体架构。

2. 极致的 KV Cache 策略

为了处理 100+ 帧，ReCoSplat 对 Transformer 的注意力机制动了大手术：

早期层截断 (Truncation)：研究发现 Transformer 的前几层主要关注局部特征，对全局对应关系贡献不大。ReCoSplat 直接丢弃了前 10 层的历史缓存。
选择性保留 (Selective Retention)：在后 8 层中，模型不再保存每一帧的 Token，而是每 8 帧（一个 Chunk）只保留一个代表性视图的 Token。
Register Token：引入专门的寄存器标记，告诉模型哪些是“被选中的记忆”，从而在大规模剪枝后仍能维持时空一致性。

实验战绩

在 DL3DV 和 ScanNet++ 等多个数据集的测试中，ReCoSplat 的表现惊人：

定性表现：相比于基线方法产生的模糊和黑洞效应，ReCoSplat 生成的场景边缘更锐利，几何结构更完整。
内存消耗：如图 5 所示，当序列长度增加时，ReCoSplat 的内存曲线极度平缓，在 256 帧时仅占用约 15GB 显存，而未压缩模型早已 OOM（显存溢出）。

实验结果对比 图 2：KV Cache 剪枝策略带来的显存优势对比，虚线为常见显卡的显存上限。

定性对比 图 3：在无位姿设置下，ReCoSplat 随着输入视图增加，其重建质量稳步提升。

深度洞察

ReCoSplat 的成功本质上是将 3D 重建从一个“开环预测”问题转变成了“闭环反馈”问题。之前的模型只是盲目地根据位姿去堆叠高斯点，而 ReCo 模块赋予了模型“感知误差并修正”的能力。此外，它对 Transformer 冗余性的利用（早期层截断）极具启发性，表明在 3D 视觉任务中，全局上下文的必要性在网络深层才真正体现。

总结与展望

Takeaway: ReCoSplat 是目前在线前馈 3DGS 领域最实用化的方案之一。 局限性: 尽管模型对位姿误差有很强的容忍度，但如果位姿估计完全崩溃（如相机剧烈抖动且无重叠），重建质量仍受限于底层位姿头（Pose Head）的上限。未来: 将这种高效的长序列处理能力与更强的在线 SLAM 系统结合，可能会诞生真正具备实时三维感知能能力的移动机器人。

Find Similar Papers

Try Our Examples

查找最近其他利用反向渲染（Analysis-by-Synthesis）或渲染比对机制来优化在线 3D 重建位姿精度的相关论文。
除了早期层截断，目前的视觉 Transformer 在处理超长视频序列时还有哪些最先进的 KV Cache 压缩或稀疏化技术？
有哪些研究探讨了将自回归 Gaussian Splatting 模型集成到 SLAM 系统或自动驾驶的在线制图任务中？

Contents

[arXiv 2026] ReCoSplat：突破长序列瓶颈，自回归前馈 3D 高斯泼溅新基准

1. TL;DR

2. 背景定位

3. 核心痛点：位姿不匹配 (Pose Mismatch)

4. 方法论：Render-and-Compare 与 10x 压缩

4.1. 1. Render-and-Compare (ReCo) 模块

4.2. 2. 极致的 KV Cache 策略

5. 实验战绩

6. 深度洞察

7. 总结与展望