本文提出了 Speed3R,这是一种专为大规模 feed-forward 3D 重建设计的高效稀疏注意力模型。通过引入可训练的双分支注意力机制(Global Sparse Attention, GSA),该方法在处理 1000 帧长序列时实现了 12.4 倍的推理加速,并保持了与 SOTA 模型(如 VGGT, π3)相当的几何重建精度。
TL;DR
在 3D 重建领域,从多图直接推理位姿与深度的 Feed-forward 模型正在替代传统 SfM 流程。然而,Transformer 的全局注意力机制让长序列处理变得极其昂贵。Speed3R 通过一种受传统 SfM 启发的“压缩-选择”双分支稀疏注意力机制,在 1000+ 帧的超长序列上实现了 12.4 倍 的加速,且几乎没有精度损失。
背景定位
目前 feed-forward 重建(如 VGGT 和 π3)处于领域巅峰,但它们都有一个致命弱点:计算复杂度随帧数呈二次方增长()。处理数十帧还行,处理上千帧时,显存和耗时会瞬间爆炸。Speed3R 的核心贡献在于,它首次将可训练的动态稀疏注意力成功引入 3D 重建,填补了这一领域的效率空白。
核心直觉:重回 SfM 的“稀疏”本质
传统的 Structure-from-Motion (SfM) 之所以高效,是因为它只需要匹配一小部分关键点(Keypoints)就能解算位姿。 作者认为:在 Transformer 中,并不是所有的 token 都有同等贡献。 大部分背景区域的冗余计算可以通过下采样和 Top-k 过滤来剔除,只聚焦于最具信息量的特征区域。
方法论详解 (Methodology)
Speed3R 的核心是 Global Sparse Attention (GSA) 模块,它由两个并行分支垂直整合:
- 压缩分支 (Compression Branch):
- 对图像 Token 进行 的平均池化,生成“粗糙版”全局上下文。
- 它负责提供一个全局视野,确保模型不会“管中窥豹”。
- 选择分支 (Selection Branch):
- 利用压缩分支产生的注意力得分,通过检索找到最相关的 Top-k 个高清 Block。
- 仅在这些选中的“关键区域”内进行细粒度注意力计算,模拟了传统 SfM 的关键点匹配过程。

为了克服 Top-k 操作带来的显存碎片化和速度下降,作者使用 Triton 编写了定制化 Kernel,将 Top-k 排序直接融合进 FlashAttention 的在线 Softmax 计算中,实现了真正的硬件加速。
实验与结果分析
1. 效率惊人:从 到近乎线性
在处理 1024 幅图像的序列时,原始 π3 模型需要 202 秒,而 Speed3R 只需 16.38 秒(12.4 倍速)。与 FastVGGT 等无需训练的剪枝方法相比,Speed3R 在保持高倍率压缩的同时,精度更加稳健。

2. 重建质量:几乎无损的折衷
在经典的 ScanNet 和 Tanks & Temples 数据集上,Speed3R 的表现令人印象深刻。即使在 84%-94% 的极高稀疏度下,其位姿估计精度(AUC)与完整版的密集模型相比,下降极其微小,甚至在长序列上由于减少了冗余信息的干扰,表现更优。

深度洞察
- 知识蒸馏(Distillation)是关键:实验表明,如果不使用原版密集模型作为教师进行蒸馏,单纯训练稀疏模型会遇到收敛难题。这说明 3D 重建任务对数值精度极其敏感。
- 测试时自适应(Test-time adaptation):Speed3R 具有灵活性,在推理阶段可以通过简单的增大 Top-k 的值,在不重新训练的情况下进一步提升长序列的重建精度。
总结与局限
Speed3R 证明了在大规模 3D 视觉任务中,“Dense to Sparse” 是通往可扩展性的必经之路。
局限性:虽然计算速度大幅提升,但双分支结构带来了约 15% 的额外显存开销,这在未来的工作中可能通过更精简的单路径架构来优化。
这项工作为未来在大规模城市场景重建,甚至自动驾驶的长时序空间感知中应用 Transformer 提供了重要的技术底座。
