WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[WACV 2025] VISER:看透伪造虹膜——去噪眼动注视如何打造更强鲁棒性的开集检测系统
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 VISER 系统,一种利用人类视觉显著性(Human Saliency)指导深度学习训练的开集虹膜演示攻击检测(PAD)方法。通过引入去噪后的眼动追踪热图作为先验知识,该方法在处理未见的攻击类型时表现出极强的鲁棒性,显著优于传统的交叉熵训练和基于 DINOv2 的基座模型。

TL;DR

在虹膜防伪(PAD)领域,如何让模型像人类专家一样敏锐地识别“未见过”的假眼?圣母大学(University of Notre Dame)的研究团队通过 VISER 系统证明:眼动追踪(Eye Tracking)数据中蕴含的生理视觉直觉,比精细的手动标注更能提升模型的泛化能力。 实验表明,利用去噪后的注视热图引导模型训练,其开集检测性能远超 DINOv2 等视觉大模型。

痛点深挖:为什么 AI 容易被“未见的攻击”欺骗?

当前的虹膜 PAD 系统大多处于“闭集”思维,即在 A 攻击上训练,在 A 攻击上测试。然而,现实世界中的攻击手段层出不穷(如新型义眼、特殊纹理隐形眼镜等)。传统的深度学习模型往往会捕捉到与攻击本质无关的伪影,导致在面对未知攻击类型(Open-set)时彻底失效。

此前,学术界尝试通过人类标注来引入“归纳偏置(Inductive Bias)”,但存在一个致命缺陷:手动点击(Motor Saliency)是一种二阶意识表现。 当你用鼠标画框时,你的大脑已经经过了过滤和规划,损失了大量下意识捕捉到的细微纹理信号。

核心动机:捕捉“生理本能”

作者认为,眼动注视(Visual Saliency) 是第一阶生理信号,直接反映了大脑处理视觉刺激的原始反馈。通过将这种“专家直觉”注入模型,可以强制 AI 关注那些真正具有辨别力的区域。

方法论详解:VISER 的炼金术

VISER 的核心流程是将 DenseNet-121 作为 BackBone,并在损失函数中加入了一个特殊的显著性分支。

1. 显著性引导 Loss

模型不仅要预测“真/假”,还要让其生成的 Class Activation Map (CAM) 与人类的注视热图尽可能一致。公式表达为: $$L_{total} = L_{XENT}(y, \hat{y}) + \lambda \cdot MSE(CAM, Saliency_{human})$$

2. HDBSCAN 去噪处理

眼动仪捕获的数据包含大量的噪声(如微动眼跳、注意力分散等)。作者引入了 HDBSCAN(基于层次密度的聚类算法),过滤掉孤立的、不稳定的注视点,提取出最核心的视觉注意力簇。

模型处理流程图 图 1:VISER 实验流水线:对比了分割掩码、手动标注、眼动追踪以及大模型嵌入多种模态。

3. 第一印象 vs. 全程关注

研究发现,人类在判断真伪时的“第一印象”(Initial 2 seconds)往往能抓住最本质的缺陷。VISER 专门提取了这一阶段的数据进行实验。

实验与结果:吊打 SOTA 与大模型

研究采用“留一攻击法”测试泛化性,涵盖了打印攻击、合成攻击、义眼攻击等 7 大类别。

关键发现:

  1. 眼动数据完胜手动标注:手动标注(Hand Annotations)对于 APCER 指标几乎没有正面贡献,甚至可能引入干扰。
  2. 去噪是关键:经过 HDBSCAN 去噪后的“第一印象”热图(De-noised Initial ET)在所有指标上达到了最优(AUROC +6.08%)。
  3. 大模型的局限性:虽然 DINOv2 在闭集表现良好,但在真开集环境下,其特征嵌入对于某些特定攻击类型(如纹理隐形眼镜)的辨别力依旧不如经过显著性引导的轻量级模型。

去噪效果对比 图 2:使用 HDBSCAN 对眼动轨迹进行聚类去噪的示例,黑色叉号为被过滤的噪声。

深度洞察:为什么这很重要?

VISER 的成功揭示了生物特征识别领域的一个本质:AI 的瓶颈不在于网络更深,而在于“看”问题的角度不对。

  • 运动规划瓶颈(Motor Bottleneck):这解释了为什么以往通过外包众包得到的标注对模型提升有限。
  • 开集泛化:人类视觉系统天生具备处理“异常”的能力,通过注视点指导,模型学会了放弃寻找特定的攻击模式,转而去学习“正常的虹膜应该长什么样”的深层流形(Manifold)。

结论与展望

VISER 证明了生理视觉先验在提升 AI 鲁棒性方面的巨大潜力。尽管获取眼动数据比常规标注昂贵,但在安全等级极高的场景下(如边境检查、离岸金融支付),这种“专家经验的无损迁移”是通往可信 AI 的必经之路。

未来方向: 如何在没有眼动仪的情况下,通过合成或模拟的方式生成高质量的类人眼动热图?这将是该领域下一个令人兴奋的突破点。

Find Similar Papers

Try Our Examples

  • 检索最近两年内使用人类视觉注视(Eye Gaze)数据指导 Transformer 架构进行异常检测或生物识别的研究。
  • 哪篇论文最早探讨了人类显著性标注中的“视觉与运动规划瓶颈(Visual vs Motor Saliency)”对深度学习模型性能的影响?
  • 查找在开集识别(Open-Set Recognition)任务中,除了 saliency-guided training,还有哪些利用 Foundation Models 的最新增强鲁棒性策略?
Contents
[WACV 2025] VISER:看透伪造虹膜——去噪眼动注视如何打造更强鲁棒性的开集检测系统
1. TL;DR
2. 痛点深挖:为什么 AI 容易被“未见的攻击”欺骗?
3. 核心动机:捕捉“生理本能”
4. 方法论详解:VISER 的炼金术
4.1. 1. 显著性引导 Loss
4.2. 2. HDBSCAN 去噪处理
4.3. 3. 第一印象 vs. 全程关注
5. 实验与结果:吊打 SOTA 与大模型
5.1. 关键发现:
6. 深度洞察:为什么这很重要?
7. 结论与展望