本文提出了 Bearing-UAV,一种纯视觉驱动的无人机(UAV)跨视角导航方法,能够同时从卫星图中回归 UAV 的精确绝对位置和航向角。该方法在多城市基准数据集 Bearing-UAV-90K 上实现了 SOTA 性能,显著降低了定位误差并支持端到端自主导航。
TL;DR
在 GNSS 受限的极端环境下,无人机如何精准定位?浙江大学团队提出的 Bearing-UAV 突破了传统的“卫星瓦片匹配(M2T)”限制。它不再是通过大海捞针式的搜索来确定位置,而是通过一个精密的回归网络,同时预测无人机的经纬度坐标和航向角。在全新的 90K 规模多城市基准测试中,该方法将定位误差从 30 米级直接压缩到了 8 米级,且具备了支持端到端导航的能力。
痛点深挖:为什么 M2T 范式不够好?
目前的跨视角地理定位(CVGL)主要通过将无人机拍摄的图片(UVP)与预存的卫星地图瓦片(RST)进行特征匹配。这种方法存在三大“硬伤”:
- 精度瓶颈:定位精度被锁死在瓦片的物理密度上。
- 存储冗余:需要携带海量的卫星瓦片数据,且随着搜索范围线性增长。
- 信息缺失:大多数方法只管“我在哪”,不管“我朝哪”,导致无人机在长距离飞行中极易产生航向漂移。
- 非对齐挑战:现实中,无人机视角与卫星视角存在巨大的视差、旋转和遮挡,简单的全局特征匹配往往失效。
核心算法:Bearing-UAV 的回归哲学
Bearing-UAV 的核心直觉在于:利用无人机当前位置周围的 4 个相邻卫星瓦片 作为锚点,通过特征融合来“推算”出具体偏差。
1. 全局-局部统一特征 (GLUF)
为了在图像重叠度较低(Misalignment)时依然能匹配成功,GLUF 模块不仅提取全局上下文,还通过聚类算法提取多个局部特征段。即使只有部分区域重叠,模型也能捕捉到建筑纹理等结构化信息。
2. 模型架构解析
如图所示,Bearing-UAV 输入无人机图像和四个相邻瓦片及其相对坐标。通过 Cross-Attention 获取跨视角对应关系,再由 PSG 模块根据相似度分配权重,最后通过双头网络输出坐标和航向分量。
3. 关键组件:RCE 与 PSG
- RCE (Relative Coordinate Encoder):将卫星瓦片的空间排布编码为位置嵌入,为模型提供空间先验。
- PSG (Patch Similarity-Guided):类似于余弦相似度权重聚合,优先关注与 UAV 图像最相似的那个卫星区域。
实验与战绩:降维打击
作者在跨城市数据集上进行了严苛的测试,并与 University-1652, SUES-200, DenseUAV 等基线进行了对比。
| 方法 | 定位误差 (MLE) ↓ | 航向误差 (MHE) ↓ | 导航成功率 (SR) ↑ | | :--- | :--- | :--- | :--- | | University-1652 | 33.15 m | - | 0.0% | | DenseUAV | 28.79 m | - | 0.0% | | Ours (Bearing-UAV) | 8.61 m | 12.90° | 50.0% |
导航轨迹可视化对比
在复杂的城市航点任务中,基线方法(绿/蓝/黄线)几乎在起飞后不久就发生了严重的航向偏离或原地打转,而 Bearing-UAV(红线)能精准地沿着预设路点飞行。
深度洞察与总结
Bearing-UAV 的成功证明了回归模型在跨重视视角对齐任务中的优越性。它不仅仅是做图像分类,而是学习了物理空间中各视角间的几何变换。
局限性与改进方向:
- 泛化性:目前模型主要在训练过的四个城市表现优异,对于完全未见过的城市,跨域迁移能力仍待进一步验证。
- 动态环境:对于季节变换、建筑拆迁等时空动态因素,纯视觉方法仍需引入时间序列信息(如 Transformer 记忆机制)来增强鲁棒性。
这篇工作为未来的无信号区(GNSS-denied)无人机自主作业(如电力巡检、物流投送)提供了非常坚实的算法基础。
