WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] Bearing-UAV:告别瓦片匹配,实现非对齐跨视角下的无人机视觉导航
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 Bearing-UAV,一种纯视觉驱动的无人机(UAV)跨视角导航方法,能够同时从卫星图中回归 UAV 的精确绝对位置和航向角。该方法在多城市基准数据集 Bearing-UAV-90K 上实现了 SOTA 性能,显著降低了定位误差并支持端到端自主导航。

TL;DR

在 GNSS 受限的极端环境下,无人机如何精准定位?浙江大学团队提出的 Bearing-UAV 突破了传统的“卫星瓦片匹配(M2T)”限制。它不再是通过大海捞针式的搜索来确定位置,而是通过一个精密的回归网络,同时预测无人机的经纬度坐标航向角。在全新的 90K 规模多城市基准测试中,该方法将定位误差从 30 米级直接压缩到了 8 米级,且具备了支持端到端导航的能力。

痛点深挖:为什么 M2T 范式不够好?

目前的跨视角地理定位(CVGL)主要通过将无人机拍摄的图片(UVP)与预存的卫星地图瓦片(RST)进行特征匹配。这种方法存在三大“硬伤”:

  1. 精度瓶颈:定位精度被锁死在瓦片的物理密度上。
  2. 存储冗余:需要携带海量的卫星瓦片数据,且随着搜索范围线性增长。
  3. 信息缺失:大多数方法只管“我在哪”,不管“我朝哪”,导致无人机在长距离飞行中极易产生航向漂移。
  4. 非对齐挑战:现实中,无人机视角与卫星视角存在巨大的视差、旋转和遮挡,简单的全局特征匹配往往失效。

核心算法:Bearing-UAV 的回归哲学

Bearing-UAV 的核心直觉在于:利用无人机当前位置周围的 4 个相邻卫星瓦片 作为锚点,通过特征融合来“推算”出具体偏差。

1. 全局-局部统一特征 (GLUF)

为了在图像重叠度较低(Misalignment)时依然能匹配成功,GLUF 模块不仅提取全局上下文,还通过聚类算法提取多个局部特征段。即使只有部分区域重叠,模型也能捕捉到建筑纹理等结构化信息。

2. 模型架构解析

模型架构图 如图所示,Bearing-UAV 输入无人机图像和四个相邻瓦片及其相对坐标。通过 Cross-Attention 获取跨视角对应关系,再由 PSG 模块根据相似度分配权重,最后通过双头网络输出坐标和航向分量。

3. 关键组件:RCE 与 PSG

  • RCE (Relative Coordinate Encoder):将卫星瓦片的空间排布编码为位置嵌入,为模型提供空间先验。
  • PSG (Patch Similarity-Guided):类似于余弦相似度权重聚合,优先关注与 UAV 图像最相似的那个卫星区域。

实验与战绩:降维打击

作者在跨城市数据集上进行了严苛的测试,并与 University-1652, SUES-200, DenseUAV 等基线进行了对比。

| 方法 | 定位误差 (MLE) ↓ | 航向误差 (MHE) ↓ | 导航成功率 (SR) ↑ | | :--- | :--- | :--- | :--- | | University-1652 | 33.15 m | - | 0.0% | | DenseUAV | 28.79 m | - | 0.0% | | Ours (Bearing-UAV) | 8.61 m | 12.90° | 50.0% |

导航轨迹可视化对比

实验结果对比 在复杂的城市航点任务中,基线方法(绿/蓝/黄线)几乎在起飞后不久就发生了严重的航向偏离或原地打转,而 Bearing-UAV(红线)能精准地沿着预设路点飞行。

深度洞察与总结

Bearing-UAV 的成功证明了回归模型在跨重视视角对齐任务中的优越性。它不仅仅是做图像分类,而是学习了物理空间中各视角间的几何变换。

局限性与改进方向:

  • 泛化性:目前模型主要在训练过的四个城市表现优异,对于完全未见过的城市,跨域迁移能力仍待进一步验证。
  • 动态环境:对于季节变换、建筑拆迁等时空动态因素,纯视觉方法仍需引入时间序列信息(如 Transformer 记忆机制)来增强鲁棒性。

这篇工作为未来的无信号区(GNSS-denied)无人机自主作业(如电力巡检、物流投送)提供了非常坚实的算法基础。

Find Similar Papers

Try Our Examples

  • 查找最近其他尝试将坐标回归(Regression)而非图像检索(Retrieval)应用于跨视角地理定位(Cross-View Geo-Localization)的论文。
  • 哪篇论文最早在 UAV 定位任务中提出了“匹配到瓦片”(Match-to-Tile)范式,本文在特征融合机制上对其做了哪些关键改进?
  • 调研将视觉航向估计(Vision-based Heading Estimation)与即时定位与地图构建(SLAM)算法相结合以解决无人机累积漂移的研究。
Contents
[CVPR 2026] Bearing-UAV:告别瓦片匹配,实现非对齐跨视角下的无人机视觉导航
1. TL;DR
2. 痛点深挖:为什么 M2T 范式不够好?
3. 核心算法:Bearing-UAV 的回归哲学
3.1. 1. 全局-局部统一特征 (GLUF)
3.2. 2. 模型架构解析
3.3. 3. 关键组件:RCE 与 PSG
4. 实验与战绩:降维打击
4.1. 导航轨迹可视化对比
5. 深度洞察与总结