本文提出了 FSGNet,一种用于红外弱小目标检测(IRSTD)的轻量化深度学习架构。该方法通过引入频率感知模块(MFM)和全局语义引导流(GSGF),显著提升了在复杂背景下的目标定位精度,并在多个公开数据集上达到了 SOTA 性能。
TL;DR
针对红外弱小目标(Infrared Small Target)检测中背景杂波多、目标特征稀疏的核心痛点,FSGNet 提出了一种创新的“空间-频率”双域协同方案。通过在 U-Net 架构中注入频率感知模块(MFM)过滤背景噪声,并利用全局语义引导流(GSGF)强化解码阶段的定位能力,FSGNet 在极低参数量下实现了检测精度与虚警抑制的质变提升。
背景定位
红外弱小目标检测(IRSTD)一直是防御监视、自主导航等领域的关键技术。由于成像距离远,目标在图像中通常只占几个像素,缺乏形状和颜色信息。传统的 U-Net 基准虽然能融合多通道特征,但存在两个致命缺陷:一是语义稀释(深层信息在逐层上采样中丢失),二是噪声传播(跳跃连接将背景杂波也传给了解码器)。
核心动机:为何引入频率域?
作者观察到,尽管某些背景杂波在空间域与目标极度相似(如云层边缘),但在频率域中,目标的谱分布与周期性/随机性的背景噪声具有显著差异。
上图显示,MFM 模块通过 FFT 处理,能显著压制图像中酷似目标的背景干扰,显著提升信杂比。
方法论详解 (Methodology)
1. MIAM:多方向交互感知
MIAM 弃用了传统卷积,改用风车状卷积 (PConv)。
- 物理直觉:红外目标虽小,但其能量分布往往具有方向性。PConv 通过四个方向的非对称填充和卷积,能更敏锐地捕获不同角度的结构信息,增强对低对比度目标的敏感度。
2. MFM:多尺度频率感知
这是 FSGNet 的“噪声过滤器”。
- 原理:输入特征在空间域进行多尺度 depthwise 卷积后,通过 FFT 转换为实部和虚部。在频率域进行特征增强后再通过 IFFT 还原。这种设计在保留目标显著性的同时,从频谱层面阻断了背景噪声通过跳跃连接向 decoder 渗透。

3. GPM & GSGF:全局语义流引导
为了解决深层语义丢失问题,FSGNet 在最底层构建了全局池化模块(GPM)。
- 机制:GPM 聚合了四个尺度的全局上下文。最关键的创新在于 GSGF(全局语义引导流)——它不再仅仅将最深层特征传给上一层,而是直接将聚合后的定位指引信号“广播”给整个解码路径的每一层,确保全尺度的定位一致性。
实验与结果分析
SOTA 对比
在 NUAA-SIRST, IRSTD-1K 等四大主流数据集上,FSGNet 的表现全面超越了 UIUNet、DNANet 等明星网络。
- 检测概率(Pd):在 NUDT-SIRST 数据集上达到 99.26%。
- 虚警率(Fa):在 SIRSTAUG 数据集上相比强基线 L2SKNet 降低了约 66%。
可视化的对比清晰地展示出,FSGNet 在应对密集小目标以及极暗背景时,漏检率(蓝框)和误检率(黄框)极低。
轻量化优势
模型的计算效率是 IRSTD 任务落地实时的关键。FSGNet 的浮点运算量 (FLOPs) 在所有对比的深度学习方法中最低,而平均 IoU 却最高,完美平衡了“高精度”与“低能耗”。

总结与见解
FSGNet 的成功标志着 IRSTD 研究的一个重要趋势:从单纯的“深挖空间特征”转向“跨域特征挖掘”。通过 FFT 在算法中引入频率先验,并结合全局语义的长程引导,成功解决了轻量化网络极易出现的定位漂移和背景混淆问题。
局限性分析:尽管 FFT 带来了性能增量,但在嵌入式端侧硬件上,FFT 的加速支持程度可能成为该方法实时部署的一个考量点。未来或可研究更硬件友好的伪频率域近似算子。
