UniQueR: Unified Query-based Feedforward 3D Reconstruction

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

UniQueR: Unified Query-based Feedforward 3D Reconstruction

[CVPR 2026] UniQueR: 统一 Query 驱动的前馈 3D 重建，告别“空洞”与显存焦虑

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 UniQueR，一个统一的基于 Query 的 3D 重建前馈框架。该方法通过学习一组紧凑的 3D 锚点作为显式几何查询（Queries），在无需场景优化的情况下，实现了从无位姿图像中高效、准确地生成 3D Gaussian Splatting 表示。

TL;DR

UniQueR 是一款革新性的前馈 3D 重建框架，它放弃了传统的 2.5D 像素对齐逻辑，转而采用 3D 稀疏查询 (Sparse 3D Queries)。该模型能够从几张未经標定的照片中，一秒内“脑补”出完整的 3D 高斯场景（3D Gaussian Splatting），即便是在遮挡区域也能实现精准补全。相比前代 SOTA 方法，它在显存占用减少 40% 的同时，推理速度提升了 2.4 倍。

背景定位：前馈重建的“末梢神经”痛

当前的 3D 重建领域正经历从“逐场景优化”（如原始 3DGS, NeRF）向“通用前馈预测”（Feedforward）的范式转移。然而，像 DUSt3R 或 AnySplat 这样的明星模型，本质上还在做 2.5D 的延伸：它们预测的是像素对齐的点云。

这种方式存在两个致命伤：

视角依赖（View-anchored）：模型只能看到镜头视野内的表面。如果视角没覆盖到某个角落，重建结果就会出现巨大的“空洞”。
冗余噩梦：随着输入分辨率提升，生成的 3D 基元（Primitives）数量呈指数级爆炸，显存动辄溢出。

UniQueR 的核心直觉是：既然 3D 空间是连续且统一的，我们为什么不直接在 3D 空间中布置一组“传感器”（Queries），让它们自己去图像里找特征，然后长出几何体呢？

核心机制：3D Query 与解耦注意力

1. 架构逻辑

UniQueR 并不直接预测每个像素的深度，而是维护一组 3D Anchor Points。这些锚点作为 Query，通过 解耦交叉注意力 (Decoupled Cross-attention) 模块，从多张输入图像的 Vision Transformer (ViT) 特征中抽取信息。

UniQueR 总体架构图

2. 解耦注意力的物理直觉

传统的全注意力机制复杂度是 $O(N^2)$，当图像视角增多时，计算量不可接受。UniQueR 采用了 Queries-to-Images Cross-Attn + Queries Self-Attn 的设计。这种设计让计算开销主要取决于稀疏的 Query 数量，而非密集的图像像素，从而轻松处理 60+ 视角的输入。

解耦注意力对比图

3. 混合初始化：让模型更稳

单纯的随机 Query 初始化在 3D 重建中极易崩盘。作者设计了一个“双道初始化”：

前半部分：从预训练生成的粗糙点云中采样，确保 Query 落在物体表面。
后半部分：在 3D 空间均匀采样，给模型预留探测隐藏区域的“种子”。

实验与结果：小样本下的逆袭

UniQueR 的表现堪称惊艳。即使在只有 3-6 张输入视角的极端情况下，其 NVS（新视角合成）的图像质量依然大幅领先。

关键战绩：

精度：在 Mip-NeRF 360 数据集上，PSNR 提升了约 2-4dB。
效率：仅需约 260K 个高斯点，而同类方法通常需要数百万个。这使得它在单张 A100 上运行极其顺滑。

实验结果对比

从定性结果看，UniQueR 生成的深度图边缘锐利，且在 AnySplat 产生“空洞”的地方（遮挡区），UniQueR 依然能给出合理的几何填充。

深度洞察：为什么 Query 胜过了像素对齐？

像素对齐（Pixel-aligned）本质上是 Inductive Bias（归纳偏置） 的一种强约束，它假设 3D 结构必须紧贴在 2D 像素后面。这在处理闭塞、稀疏视角时反而成了枷锁。UniQueR 通过 Global 3D Query 解开了一对一的束缚，让模型学习到了更高阶的场景先验——就像人类观察物体，即使只看正面，也能推断出背面大概的样子。

总结与局限

UniQueR 证明了：质量不一定要靠堆砌原语（Primitives）来实现。通过更聪明的 Query 机制和时空解耦，我们可以用更少的代价换取更完整的 3D 世界建模。

局限性：目前 UniQueR 专注于静态场景。在动态物体的实时补全上，如何保持 Query 的一致性，将是下一个值得攻克的学术哨所。

本文主编点评：UniQueR 不仅仅是一个 SOTA 的刷榜工具，它通过 Query 机制重新审视了前馈重建的几何表现力，是 3D 重建向大规模具身智能迈进的重要一步。

Find Similar Papers

Try Our Examples

查找最近其他使用 Query-based Transformer 架构进行通用 3D 场景重建或神经辐射场初始化的 SOTA 论文。
哪篇论文最早在 3D 检测中提出了类似 DETR3D 的 3D 查询机制，UniQueR 在处理密集重建任务时对其做了哪些关键改进？
有哪些研究探讨了将 3D Gaussian Splatting 的生成过程与时序动力学结合，以解决动态场景下的前馈重建问题？

Contents

[CVPR 2026] UniQueR: 统一 Query 驱动的前馈 3D 重建，告别“空洞”与显存焦虑

1. TL;DR

2. 背景定位：前馈重建的“末梢神经”痛

3. 核心机制：3D Query 与解耦注意力

3.1. 1. 架构逻辑

3.2. 2. 解耦注意力的物理直觉

3.3. 3. 混合初始化：让模型更稳

4. 实验与结果：小样本下的逆袭

5. 深度洞察：为什么 Query 胜过了像素对齐？

6. 总结与局限