WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[arXiv 2026] CAM3R:打破针孔束缚,实现鱼眼与全景相机的通用 3D 重建
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 CAM3R,这是一个通用的、无需相机先验的 3D 重建模型。它通过解耦相机射线估计和跨视图几何推断,实现了对针孔、鱼眼和全景等多种异构光学模型在两视图及多视图下的稳健 SOTA 重建性能。

TL;DR

长期以来,3D 重建领域被“针孔相机模型”所统治,导致现有的 SOTA 模型(如 DUSt3R, MASt3R)在面对鱼眼(Fisheye)或 360° 全景(Panorama)图像时往往会“碰壁”。来自约翰霍普金斯大学的研究团队提出了 CAM3R,这是一个真正的 相机无关 (Camera-Agnostic) 架构。它通过将复杂的投影模型解耦为像素级射线预测,成功在不需要相机标定的情况下,实现了跨各种不同光学感应器的超稳健 3D 重建。

痛点深挖:为什么 SOTA 模型在鱼眼镜头前会失效?

目前的 3D 基座模型通常是在大规模针孔相机数据集上训练的。这种隐含的 归纳偏置 (Inductive Bias) 使得模型默认像素与空间点之间存在线性的透视投影关系。

当这些模型处理广角镜头时,会面临两个致命问题:

  1. 几何退化:由于鱼眼/全景镜头的非线性径向畸变,模型预测的 3D 点云会发生严重的“弯曲”和扭曲。
  2. 纠偏代价高昂:传统的图像去畸变(Undistortion)会造成边缘拉伸和分辨率损失,且这类前处理通常需要精确的相机内参,违背了端到端模型“快速、前馈”的初衷。

模型架构演变与痛点图 图 S4 展示了作者从直接微调(失败)到最终解耦方案的探索过程。

核心方法:相机几何与场景几何的优雅解耦 (Decoupling)

CAM3R 的核心思想非常直观:不再假设相机是什么样的,而是去学习“每一个像素对应哪条光线”。

1. 射线模块 (Ray Module)

该模块利用 ViT 提取全局特征,并使用变换器解码器输出 球面谐波 (Spherical Harmonic, SH) 系数。通过这些系数,模型可以重构出连续的、像素级的射线方向场 。无论输入是针孔、鱼眼还是全景,都被统一建模为球面上的一组射线。

2. 跨视图模块 (Cross-view Module)

在已知射线方向的基础上,CVM 仅负责预测每个像素沿射线的 径向距离 (Radial Distance) 。这种设计避免了模型在学习多视图一致性的同时还要去适应复杂的投影方程,大大降低了学习难度。

3. 射线感知全局对齐 (Ray-Aware Global Alignment)

对于多视图场景,作者提出了一种创新的对齐策略:

  • 图剪枝 (Graph Pruning):利用位姿一致性和几何重叠验证,剔除冗余和错误的边(如视觉相似的“替身”场景)。
  • 射线约束优化:在全局优化时,强制 3D 点只能在预测的射线方向上进行缩放移动。这种约束保护了相机的本征几何不被破坏,同时实现了多视图位姿的亚像素级对齐。

CAM3R 总体架构图 图 2:CAM3R 的端到端推理流水线,从图像对到射线场、点云及位姿预测。

实验战绩:全场景霸榜

CAM3R 在多个极具挑战性的数据集上刷新了纪录:

  • 异构匹配能力:在处理“鱼眼-全景”这种极端跨模态图像对时,DUSt3R 完全崩溃(准确率归零),而 CAM3R 依然能保持 90% 以上的精度。
  • Zero-shot 泛化:在从未见过的 CO3Dv2 数据集上,CAM3R 的平移准确率 RTA@15 达到了 88.2%,远超 π3 和 VGGT。
  • 多视图重建:通过射线感知对齐,CAM3R 在 360Loc 上的绝对轨迹误差 (ATE) 仅为 2.7,相比之前的方法减少了约 50% 的漂移。

实验可视化结果对比 图 3:可以看到,在 ADT 鱼眼序列中,CAM3R 完美保留了墙壁的平面性,而基线模型预测的墙面严重弯曲。

总结与洞察

CAM3R 的成功在于其对“相机无关性”的深刻理解。它并没有试图通过堆叠数据来让模型硬背各种畸变,而是从物理直觉出发,通过 射线建模 将几何视觉统一到了一个球形域中。

局限性:目前模型依然存在一定的架构开销(使用了两个分离的 ViT 骨干)。未来的研究方向可能会集中在将这些模块合二为一,并探索如何在确保精度的前提下提高推理速度。

对于从事自动驾驶、全景建模或增强现实(AR)的开发者来说,CAM3R 提供了一个处理野外无标定图像的高效范式:忘记投影公式,专注光线追踪。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图解决大视场角 (Wide-FoV) 图像中非线性几何畸变对 3D 重建影响的论文。
  • 哪篇论文最早在单目估计任务中提出了基于像素射线 (Ray-based) 的表示方法,CAM3R 如何将其扩展到了多视图对齐场景?
  • 查找是否有研究尝试将 CAM3R 的解耦架构应用于实时 SLAM 或动态场景重建任务中?
Contents
[arXiv 2026] CAM3R:打破针孔束缚,实现鱼眼与全景相机的通用 3D 重建
1. TL;DR
2. 痛点深挖:为什么 SOTA 模型在鱼眼镜头前会失效?
3. 核心方法:相机几何与场景几何的优雅解耦 (Decoupling)
3.1. 1. 射线模块 (Ray Module)
3.2. 2. 跨视图模块 (Cross-view Module)
3.3. 3. 射线感知全局对齐 (Ray-Aware Global Alignment)
4. 实验战绩:全场景霸榜
5. 总结与洞察