WisPaper
WisPaper
Scholar Search
Scholar QA
AI Feeds
Pricing
TrueCite
[CVPR 2026] UW-VOS:深海感知突破,首个大规模水下视频分割基准与 SAM-U 适配器
Summary
Problem
Method
Results
Takeaways
Abstract

本文推出了 UW-VOS,首个大规模水下视频对象分割 (VOS) 基准数据集,包含 1,431 个视频和 409 个类别。同时提出了 SAM-U,通过在 SAM2 架构中嵌入轻量化适配器,仅需 2% 的可训练参数即可在水下环境达到 SOTA 性能。

TL;DR

针对水下环境色彩失真和目标伪装带来的视觉挑战,东南大学研究团队发布了 UW-VOS——全球首个大规模水下视频对象分割 (VOS) 数据集。同时,他们基于 SAM2 提出了 SAM-U 架构,通过创新性的 光谱通道门控 (SCG) 机制,仅利用 2% 的参数微调便刷新了水下分割的 SOTA 纪录。

痛点深挖:为什么陆地上的视觉之王在水下会“失明”?

当前的视频对象分割 (VOS) 技术在陆地场景(如 DAVIS, YouTube-VOS)已取得了惊人的准确率。然而,一旦进入水底,问题接踵而至:

  1. 光谱衰减 (Wavelength-dependent Attenuation):水对红光的吸收极快,导致画面呈现蓝绿色调,物体的色彩对比度丧失。
  2. 生物伪装 (Camouflage):水下生物进化出了极强的保护色,与背景高度融合。
  3. 小目标与频繁出入:56.3% 的水下目标属于极小目标(Mask Ratio < 0.01),且鱼类游动轨迹难以预测,经常进出画面边缘导致 identity switch。

现有数据集(如 CoralVOS)往往只关注单一类别(如珊瑚),难以支撑复杂的多目标水下视频任务。

Methodology:SAM-U 的物理直觉

作者认为,不需要从头训练一个重型模型,而是应该“教”现有的视觉基础模型如何看懂水下世界。

1. 架构解析

SAM-U 选择了当前最强的视频分割模型 SAM2 作为骨干,并在其 Hiera 图像编码器中插入了 Underwater Domain Adaptation (UDA) 模块。

模型架构图

2. 核心模块:针对物理特性的补偿

  • Domain Adapter (DA):一种轻量级的瓶颈式 MLP,负责捕捉水下目标的尺度变化。
  • Spectral Channel Gate (SCG):这是本文的神来之笔。考虑到水下红、绿、蓝通道衰减不一,SCG 学习一个通道级的缩放因子(Scaling Factor),在特征层面对被削弱的光谱通道进行“补偿”,从而增强对比度。

实验与结果:小参数博取大提升

研究团队在 UW-VOS 上对 9 种主流方法进行了 Benchmark 评测。

1. 领域鸿沟的量化

实验数据表明,将陆地预训练模型直接(Zero-shot)用于水下,性能会平均下降 13 个 J&F 点。这证明了水下环境存在严重的 Domain Shift。

2. SOTA 对比

SAM-U 仅通过更新 1.5M 的参数(总量约 2%),就在几乎所有指标上超过了全参数微调(Full Fine-tuning)的 SAM2。

实验结果对比

关键发现:在小目标 (ST) 和伪装目标 (CAM) 的消融实验中,SCG 模块的加入显著提升了约 0.7-1.1 个百分点。

深度洞察:未来的航向

UW-VOS 的出现填补了海洋探索中关键的一环。作者通过属性分析指出:伪装目标(Camouflage)目标重入(Exit-re-entry) 依然是当前最难跨越的障碍。即使是 SAM-U,在处理目标完全消失后重现的场景时仍有提升空间。

总结 (Takeaway): 这项工作的真正价值在于证明了:处理极端领域迁移任务时,物理启发的模块设计(如 SCG) 比单纯增加训练数据量更具效率。UW-VOS 不仅仅是一个 Benchmark,它为未来 AUV(自主水下航行器)的鲁棒导航和海洋生物多样性监测提供了底层数据支持。


注:UW-VOS 数据集包含 1,431 视频,409 类别,30.9 万个 Mask 标注,是目前该研究领域规模最大、属性标注最全的数据集。

Find Similar Papers

Try Our Examples

  • 查找最近其他专门针对水下环境进行图像增强或分割的 Parameter-Efficient Fine-Tuning (PEFT) 相关论文。
  • 哪篇论文最早在 Transformer 架构中引入了通道门控机制以解决光谱失真问题,本文的 SCG 模块与其有何异同?
  • 有哪些研究探讨了如何利用大规模视觉基础模型(如 SAM2 或 DINOv2)处理视频对象分割中的伪装目标和频繁出入场问题?
Contents
[CVPR 2026] UW-VOS:深海感知突破,首个大规模水下视频分割基准与 SAM-U 适配器
1. TL;DR
2. 痛点深挖:为什么陆地上的视觉之王在水下会“失明”?
3. Methodology:SAM-U 的物理直觉
3.1. 1. 架构解析
3.2. 2. 核心模块:针对物理特性的补偿
4. 实验与结果:小参数博取大提升
4.1. 1. 领域鸿沟的量化
4.2. 2. SOTA 对比
5. 深度洞察:未来的航向