Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise

[CVPR 2026 预研] VisPrompt：看见即相信，视觉引导让 Prompt Learning 告别噪声困扰

总结

问题

方法

结果

要点

摘要

本文提出了 VisPrompt，一个针对带噪声标签环境的轻量级视觉引导 Prompt Learning 框架。该方法通过跨模态注意力机制将图像语义注入 Prompt，在保持剪裁好的 VLM（如 CLIP）参数冻结的同时，显著提升了模型在标签污染下的鲁棒性，并在多个基准数据集上达到 SOTA。

TL;DR

在视觉语言模型（VLM）的微调中，标签噪声一直是导致模型性能崩溃的“杀手”。本文提出的 VisPrompt 框架，打破了传统“只听标签，不看图像”的更新模式。它利用 Cross-modal Attention 将图像本身的语义作为锚点，通过 FiLM 调制 自适应地将可靠的视觉信息注入到 Prompt 中。实验证明，即便在高达 75% 的极高噪声下，VisPrompt 依然能保持惊人的稳健性。

背景定位：由于 Prompt 太“瘦”，所以它很“怕”噪声

Prompt Learning（如 CoOp）近年来因其极高的参数效率（PEFT）大火。然而，它的优势也是它的弱点：由于预训练的视觉和文本编码器都是冻结的，所有的下游任务适配压力全部压在了那几个可学习的 Context Tokens 上。

在存在 Label Noise 的场景下，这些稀少的 Prompt 参数会直接暴露在错误的梯度下，迅速向错误的类语义发生“漂移（Drift）”。

核心洞察：图像才是最稳的“锚”

作者认为，虽然标签（Label）可能会错，但图像（Image）内容是实打实存在的。如果让 Prompt 在更新时，不仅看标签给了什么目标，还要看图像里到底有什么，就能有效地纠正噪声导致的偏差。

这一直觉催生了 VisPrompt 的架构设计。

方法论详解：从“标签驱动”到“视觉引导”

VisPrompt 的核心架构分为两个关键阶段：

跨模态视觉 Prompt 调节 (Cross-modal Visual Prompt Conditioning)：模型不再直接优化静态向量，而是使用 Cross-modal Attention。将 Prompt Tokens 作为 Query，去检索图像编码器输出的局部 Patch 嵌入。这样，训练得到的 Prompt 实际上是“看图说话”，它的表达被限制在了当前实例的视觉语义范围内。
基于 FiLM 的鲁棒调制 (FiLM-based Robust Modulation)：图像信息的质量并非千篇一律。为了防止低质量或无关的视觉特征干扰，作者引入了 FiLM (Feature-wise Linear Modulation) 机制。通过一个轻量级的门控网络，模型可以自适应地决定：对于这个特定样本，我应该吸纳多少视觉信息？哪些维度的特征需要放大或抑制？

模型架构图 图 1: VisPrompt 总体架构，展示了从视觉特征投影到 FiLM 调制的完整流程。

此外，为了进一步纯化训练过程，作者还利用 最优传输 (Optimal Transport) 理论对样本进行可靠性预测，将样本分为“可信”和“不可信”两类，分别施加标准 CE Loss 和鲁棒的 GCE Loss。

实验与结果：即便 75% 标签全错，我也能 hold 住

VisPrompt 在六个合成噪声数据集和一个真实噪声数据集（Food101N）上进行了严苛的测试。

极高噪声下的统治力：在 EuroSAT 等数据集上，当噪声率达到 75% 时，传统的 CoOp 甚至其他鲁棒方法（如 JoAPR）性能大幅跳水，而 VisPrompt 依旧能保持极高的准确率。
参数效率高度优化：虽然引入了注意力机制和 FiLM 模块，但新增的可训练参数量仅占总体的不到 1%，完美契合了提示学习的轻量化初衷。

实验结果对比 表 1: 在对称和非对称噪声下的详细准确率对比，VisPrompt 在几乎所有配置下均位居 SOTA。

深度洞察与总结 (Critical Analysis)

为什么 VisPrompt 比前人更强？ 以前的方法大多在做“样本清洗”——试图猜哪些标签是错的。一旦猜错，模型就会陷入死循环。而 VisPrompt 走的是“语义增强”的路线。即使模型没发现这个标签是错的，视觉引导的 Prompt 也会因为它与错误标签语义的不匹配（Visual-Label Dissimilarity）而产生一种内在的抵抗力（Resistance）。

局限性与展望：目前的 VisPrompt 主要是在 CLIP 架构上进行验证，未来是否能推广到更复杂的视频理解或多模态大模型（MLLM）中值得关注。此外，跨模态注意力虽然有效，但也带来了一定的推理计算开销，如何在边缘端进一步优化是下一点优化的目标。

总结： VisPrompt 告诉我们：在多模态时代，解决单模态（标签）的缺陷，最好的武器往往藏在另一个模态（视觉）之中。

发现相似论文

试试这些示例

查找最近其他试图通过注入视觉特征提升视觉语言模型在噪声标签下鲁棒性的论文。
哪篇论文最早提出了 CoCoOp 中的 Conditional Prompt 机制，VisPrompt 在其基础上有哪些针对抗噪性的本质改进？
有哪些研究将最优传输 (Optimal Transport) 理论应用到了多模态学习的样本选择或标签去噪任务中？

[CVPR 2026 预研] VisPrompt：看见即相信，视觉引导让 Prompt Learning 告别噪声困扰

1. TL;DR

2. 背景定位：由于 Prompt 太“瘦”，所以它很“怕”噪声

3. 核心洞察：图像才是最稳的“锚”

4. 方法论详解：从“标签驱动”到“视觉引导”

5. 实验与结果：即便 75% 标签全错，我也能 hold 住

6. 深度洞察与总结 (Critical Analysis)