DROID-SLAM in the Wild

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

DROID-SLAM in the Wild

DROID-W：不惧动态！基于不确定性感知 BA 的单目 SLAM 新 SOTA

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 DROID-W，一个鲁棒的实时单目 RGB SLAM 系统，通过引入可微的“不确定性感知捆集调整”（UBA）来解决动态环境下的定位与建图难题。该系统在多个具有挑战性的真实世界数据集上达到了 SOTA 的相机位姿精度与场景几何重建质量。

TL;DR

在自动驾驶和机器人领域，SLAM 系统常因“动”而困：移动的人、车、甚至是晃动的门都会干扰相机的定位。DROID-W 通过在经典的 DROID-SLAM 中融入像素级动态不确定性估计，利用 DINOv2 特征的跨视图一致性来识别并屏蔽干扰。它不仅在学术测试集上刷榜，更在野外（In the Wild）环境和杂乱的 YouTube 视频中展现了惊人的实时鲁棒性。

核心痛点：为什么传统的静态假设不再奏效？

大多数 SLAM 系统（如 ORB-SLAM2, DROID-SLAM）构建在“静态世界”假设之上。当画面中出现移动物体时，重投影误差（Reprojection Error）会急剧增大，导致后端优化（Bundle Adjustment, BA）被这些错误的“噪点”主导，进而产生轨迹漂移或建图崩塌。

现有的动态 SLAM 解决思路通常分为两类：

语义遮罩法：预先训练检测器过滤“人、车、狗”等物体。缺点是：没见过的动态物体（如飘动的布料、移动的雕塑）依然会造成干扰。
不确定性建模：如 WildGS-SLAM，依赖于高质量的几何地图来反向学习不确定性。缺点是：如果地图本身在杂乱场景中建坏了，不确定性估计也会跟着失效。

DROID-W 的技术直觉：多视图特征一致性

作者认为：优秀的动态感知不应该依赖于完美的几何，而应该依赖于稳健的视觉特征。

1. 不确定性感知 BA (Uncertainty-aware BA)

DROID-W 修改了 DROID-SLAM 的优化目标函数。它为每个像素 $t$ 引入了一个动态不确定性项 $u_t$。在最小化马氏距离时， $u_t$ 作为权重项： $$ \pmb {\Sigma} _ {i j} ^ {\mathrm {u n c e r}} = \mathrm {d i a g} \left(\mathbf {w} _ {i j} \cdot \frac {1}{\mathbf {u} _ {i} ^ {\prime}}\right) $$ 这意味着，系统会自动“无视”那些不确定性高的区域。

2. 基于 DINOv2 的不确定性优化

为了计算 $u_t$，作者利用了 DINOv2 特征的语义高度一致性。当相机从位置 $i$ 移动到 $j$ 时，静态场景的特征应该能通过单应性或刚体变换完美匹配。如果匹配不上（特征相似度低），则判定该点为动态点，增加其不确定性。

系统架构图 图 1: DROID-W 系统概览，展示了位姿-深度精细化与不确定性优化的交替迭代过程。

实验战绩：从实验室到 YouTube 荒野

作者不仅在 Bonn 和 TUM 这种标准动态数据集上进行了测试，还推出了 DROID-W Dataset（包含 LiDAR 地面真值）以及 6 段极度复杂的 YouTube 视频（包括繁华的东京街头、大象群等）。

性能表现：在 Bonn 数据集上，其 ATE（绝对轨迹误差）仅为 2.30cm，远优于 DROID-SLAM 的 4.91cm。
实时性：在保证性能的同时，运行速度达到了约 10 FPS，比基线方法 WildGS-SLAM 快了近 40 倍。
重建质量：在动态干扰下，传统方法往往会产生“重影”或双重墙壁，而 DROID-W 的点云重建极为干净、清晰。

实验结果对比 图 2: 不确定性估计可视化。相比之下，DROID-W 能更精准、连贯地捕捉到运动物体的轮廓。

深度洞察

DROID-W 成功的核心在于解耦了不确定性估计与几何重建的依赖。通过局部仿射映射正则化和专门的梯度下降优化，它在没有显式语义标签的情况下，实现了对“动态性”的物理建模。

局限性： 这种方法对 SLAM 的初始化阶段有一定的依赖性。如果在系统刚刚启动、位姿还极其不准时，不确定性估计可能会产生偏差。作者建议未来可以引入更多的重建先验来增强初始化的稳健性。

总结

DROID-W 是一项非常扎实的工作。它向我们展示了：即使是在计算资源有限的实时场景下，通过巧妙地设计可微优化层，深度学习特征（基础模型）也能与经典多视图几何（BA）产生强力的化学反应，让 SLAM 真正走向复杂的外部世界。

Find Similar Papers

Try Our Examples

查找其他最近利用 DINOv2 或其他基础模型（Foundation Models）辅助 SLAM 鲁棒性提升的论文。
哪篇论文最早提出了 DROID-SLAM 框架，本文在其可微 BA 层的基础上做了哪些具体的数学改进？
探索是否有研究将这种基于特征一致性的不确定性估计应用到多机器人协同 SLAM 或大规模城市重建中？

Contents

DROID-W：不惧动态！基于不确定性感知 BA 的单目 SLAM 新 SOTA

1. TL;DR

2. 核心痛点：为什么传统的静态假设不再奏效？

3. DROID-W 的技术直觉：多视图特征一致性

3.1. 1. 不确定性感知 BA (Uncertainty-aware BA)

3.2. 2. 基于 DINOv2 的不确定性优化

4. 实验战绩：从实验室到 YouTube 荒野

5. 深度洞察

6. 总结