Beyond Matching to Tiles: Bridging Unaligned Aerial and Satellite Views for Vision-Only UAV Navigation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Beyond Matching to Tiles: Bridging Unaligned Aerial and Satellite Views for Vision-Only UAV Navigation

[CVPR 2026] Bearing-UAV：告别瓦片匹配，实现非对齐跨视角下的无人机视觉导航

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Bearing-UAV，一种纯视觉驱动的无人机（UAV）跨视角导航方法，能够同时从卫星图中回归 UAV 的精确绝对位置和航向角。该方法在多城市基准数据集 Bearing-UAV-90K 上实现了 SOTA 性能，显著降低了定位误差并支持端到端自主导航。

TL;DR

在 GNSS 受限的极端环境下，无人机如何精准定位？浙江大学团队提出的 Bearing-UAV 突破了传统的“卫星瓦片匹配（M2T）”限制。它不再是通过大海捞针式的搜索来确定位置，而是通过一个精密的回归网络，同时预测无人机的经纬度坐标和航向角。在全新的 90K 规模多城市基准测试中，该方法将定位误差从 30 米级直接压缩到了 8 米级，且具备了支持端到端导航的能力。

痛点深挖：为什么 M2T 范式不够好？

目前的跨视角地理定位（CVGL）主要通过将无人机拍摄的图片（UVP）与预存的卫星地图瓦片（RST）进行特征匹配。这种方法存在三大“硬伤”：

精度瓶颈：定位精度被锁死在瓦片的物理密度上。
存储冗余：需要携带海量的卫星瓦片数据，且随着搜索范围线性增长。
信息缺失：大多数方法只管“我在哪”，不管“我朝哪”，导致无人机在长距离飞行中极易产生航向漂移。
非对齐挑战：现实中，无人机视角与卫星视角存在巨大的视差、旋转和遮挡，简单的全局特征匹配往往失效。

核心算法：Bearing-UAV 的回归哲学

Bearing-UAV 的核心直觉在于：利用无人机当前位置周围的 4 个相邻卫星瓦片 作为锚点，通过特征融合来“推算”出具体偏差。

1. 全局-局部统一特征 (GLUF)

为了在图像重叠度较低（Misalignment）时依然能匹配成功，GLUF 模块不仅提取全局上下文，还通过聚类算法提取多个局部特征段。即使只有部分区域重叠，模型也能捕捉到建筑纹理等结构化信息。

2. 模型架构解析

模型架构图如图所示，Bearing-UAV 输入无人机图像和四个相邻瓦片及其相对坐标。通过 Cross-Attention 获取跨视角对应关系，再由 PSG 模块根据相似度分配权重，最后通过双头网络输出坐标和航向分量。

3. 关键组件：RCE 与 PSG

RCE (Relative Coordinate Encoder)：将卫星瓦片的空间排布编码为位置嵌入，为模型提供空间先验。
PSG (Patch Similarity-Guided)：类似于余弦相似度权重聚合，优先关注与 UAV 图像最相似的那个卫星区域。

实验与战绩：降维打击

作者在跨城市数据集上进行了严苛的测试，并与 University-1652, SUES-200, DenseUAV 等基线进行了对比。

| 方法 | 定位误差 (MLE) ↓ | 航向误差 (MHE) ↓ | 导航成功率 (SR) ↑ | | :--- | :--- | :--- | :--- | | University-1652 | 33.15 m | - | 0.0% | | DenseUAV | 28.79 m | - | 0.0% | | Ours (Bearing-UAV) | 8.61 m | 12.90° | 50.0% |

导航轨迹可视化对比

实验结果对比在复杂的城市航点任务中，基线方法（绿/蓝/黄线）几乎在起飞后不久就发生了严重的航向偏离或原地打转，而 Bearing-UAV（红线）能精准地沿着预设路点飞行。

深度洞察与总结

Bearing-UAV 的成功证明了回归模型在跨重视视角对齐任务中的优越性。它不仅仅是做图像分类，而是学习了物理空间中各视角间的几何变换。

局限性与改进方向：

泛化性：目前模型主要在训练过的四个城市表现优异，对于完全未见过的城市，跨域迁移能力仍待进一步验证。
动态环境：对于季节变换、建筑拆迁等时空动态因素，纯视觉方法仍需引入时间序列信息（如 Transformer 记忆机制）来增强鲁棒性。

这篇工作为未来的无信号区（GNSS-denied）无人机自主作业（如电力巡检、物流投送）提供了非常坚实的算法基础。

Find Similar Papers

Try Our Examples

查找最近其他尝试将坐标回归（Regression）而非图像检索（Retrieval）应用于跨视角地理定位（Cross-View Geo-Localization）的论文。
哪篇论文最早在 UAV 定位任务中提出了“匹配到瓦片”（Match-to-Tile）范式，本文在特征融合机制上对其做了哪些关键改进？
调研将视觉航向估计（Vision-based Heading Estimation）与即时定位与地图构建（SLAM）算法相结合以解决无人机累积漂移的研究。

Contents

[CVPR 2026] Bearing-UAV：告别瓦片匹配，实现非对齐跨视角下的无人机视觉导航

1. TL;DR

2. 痛点深挖：为什么 M2T 范式不够好？

3. 核心算法：Bearing-UAV 的回归哲学

3.1. 1. 全局-局部统一特征 (GLUF)

3.2. 2. 模型架构解析

3.3. 3. 关键组件：RCE 与 PSG

4. 实验与战绩：降维打击

4.1. 导航轨迹可视化对比

5. 深度洞察与总结