WisPaper
WisPaper
Search
QA
Pricing
TrueCite
[arXiv 2026] ReCoSplat:突破长序列瓶颈,自回归前馈 3D 高斯泼溅新基准
Summary
Problem
Method
Results
Takeaways
Abstract

ReCoSplat 是一种自回归前馈 Gaussian Splatting (GS) 模型,旨在从顺序输入的图像流(支持有/无相机位姿及内参)中实现实时新视图合成。该方法引入了 Render-and-Compare (ReCo) 模块和分层 KV Cache 压缩策略,在处理超过 100 帧的长序列时,内存占用降低了 90% 以上,并达到了 SOTA 性能。

TL;DR

ReCoSplat 解决了在线 3D 重建中的核心难题:如何在相机位姿不准的情况下,稳定地生成 3D 高斯基元(Gaussian Primitives)?通过引入 Render-and-Compare (ReCo) 模块和极致的 KV Cache 压缩策略,ReCoSplat 不仅消除了训练与推理之间的位姿分布偏差,还能在显存受限的消费级显卡上处理数百帧的超长序列,展现了卓越的通用重建能力。

背景定位

传统的 3D Gaussian Splatting (3DGS) 依赖昂贵的逐场景优化,而前馈(Feed-forward)方法致力于“一图/多图即出 3D”。然而,当场景变为动态流入的视频流(自回归场景)时,模型往往会因为位姿误差的累积而崩坏。ReCoSplat 在此背景下,站在了自回归重建与高效 Transformer 处理的交汇点。

核心痛点:位姿不匹配 (Pose Mismatch)

在自回归重建中,模型需要根据当前的相机位姿将新预测的高斯点“组装”到全局场景中。

  1. 训练由于太“稳”而失败:若训练时一直用真值位姿,模型会产生依赖;推理时一旦位置预测偏了一点,渲染出的高斯点就会发生严重的重影和错位。
  2. 显存爆炸:Transformer 处理 N 个帧时,KV Cache 的空间复杂度是 。对于高清长视频,这很快会耗尽显存。

方法论:Render-and-Compare 与 10x 压缩

1. Render-and-Compare (ReCo) 模块

作者的直觉是:既然位姿不准,那就让模型通过“看一眼”当前的渲染效果来自己修正。

  • How it works: 在预测新一帧的高斯点前,先用当前的预测位姿把已建好的 3D 场景渲染出来。
  • Visual Prior: 将渲染图与实际观察到的图像进行对比,这种“残差信号”包含了位姿误差的信息。
  • Cross-Attention: 模型利用这种先验,通过交叉注意力机制调整高斯基元的生成参数,从而补偿位姿偏差。

模型架构图 图 1:ReCoSplat 获取图像块并利用 KV Cache 与渲染反馈进行预测的总体架构。

2. 极致的 KV Cache 策略

为了处理 100+ 帧,ReCoSplat 对 Transformer 的注意力机制动了大手术:

  • 早期层截断 (Truncation):研究发现 Transformer 的前几层主要关注局部特征,对全局对应关系贡献不大。ReCoSplat 直接丢弃了前 10 层的历史缓存。
  • 选择性保留 (Selective Retention):在后 8 层中,模型不再保存每一帧的 Token,而是每 8 帧(一个 Chunk)只保留一个代表性视图的 Token。
  • Register Token:引入专门的寄存器标记,告诉模型哪些是“被选中的记忆”,从而在大规模剪枝后仍能维持时空一致性。

实验战绩

在 DL3DV 和 ScanNet++ 等多个数据集的测试中,ReCoSplat 的表现惊人:

  • 定性表现:相比于基线方法产生的模糊和黑洞效应,ReCoSplat 生成的场景边缘更锐利,几何结构更完整。
  • 内存消耗:如图 5 所示,当序列长度增加时,ReCoSplat 的内存曲线极度平缓,在 256 帧时仅占用约 15GB 显存,而未压缩模型早已 OOM(显存溢出)。

实验结果对比 图 2:KV Cache 剪枝策略带来的显存优势对比,虚线为常见显卡的显存上限。

定性对比 图 3:在无位姿设置下,ReCoSplat 随着输入视图增加,其重建质量稳步提升。

深度洞察

ReCoSplat 的成功本质上是将 3D 重建从一个“开环预测”问题转变成了“闭环反馈”问题。之前的模型只是盲目地根据位姿去堆叠高斯点,而 ReCo 模块赋予了模型“感知误差并修正”的能力。此外,它对 Transformer 冗余性的利用(早期层截断)极具启发性,表明在 3D 视觉任务中,全局上下文的必要性在网络深层才真正体现。

总结与展望

Takeaway: ReCoSplat 是目前在线前馈 3DGS 领域最实用化的方案之一。 局限性: 尽管模型对位姿误差有很强的容忍度,但如果位姿估计完全崩溃(如相机剧烈抖动且无重叠),重建质量仍受限于底层位姿头(Pose Head)的上限。 未来: 将这种高效的长序列处理能力与更强的在线 SLAM 系统结合,可能会诞生真正具备实时三维感知能能力的移动机器人。

Find Similar Papers

Try Our Examples

  • 查找最近其他利用反向渲染(Analysis-by-Synthesis)或渲染比对机制来优化在线 3D 重建位姿精度的相关论文。
  • 除了早期层截断,目前的视觉 Transformer 在处理超长视频序列时还有哪些最先进的 KV Cache 压缩或稀疏化技术?
  • 有哪些研究探讨了将自回归 Gaussian Splatting 模型集成到 SLAM 系统或自动驾驶的在线制图任务中?
Contents
[arXiv 2026] ReCoSplat:突破长序列瓶颈,自回归前馈 3D 高斯泼溅新基准
1. TL;DR
2. 背景定位
3. 核心痛点:位姿不匹配 (Pose Mismatch)
4. 方法论:Render-and-Compare 与 10x 压缩
4.1. 1. Render-and-Compare (ReCo) 模块
4.2. 2. 极致的 KV Cache 策略
5. 实验战绩
6. 深度洞察
7. 总结与展望