MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

[ICLR 2025] MoD-DPO：别让“脑补”欺骗模型，全模态 LLM 的模态解耦新思路

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 MoD-DPO，一种针对全模态大语言模型（Omni LLMs）的模态解耦偏好优化框架。通过引入模态感知的正则化项，该方法显著减少了跨模态幻觉，在 AVHBench 和 CMM 等基准测试中超越了现有 SOTA 基线。

TL;DR

Omni LLMs（全模态大模型）虽然能看能听，但常犯“过度脑补”的毛病。例如：视频里明明只有一张桌子，模型却因为背景里有细微噪音就咬定有狗在叫。本文提出的 MoD-DPO (Modality-Decoupled Direct Preference Optimization) 通过数学化地定义模态不变性和敏感性，成功修正了模型的内部决策边界。

核心成就：

在 AVHBench 准确率提升最高 27%。
收敛速度比同类方法快 2x，训练开销极低。
强制模型“多看少想”，显著解决了语言先验主导（Language Prior）的问题。

痛点深挖：为什么模型会“幻觉”？

当前全模态模型出现幻觉的根源主要有二：

模态伪相关（Spurious Correlations）：在预训练阶段，模型学习到了“视觉上有狗”通常伴随“听觉上有吠声”的强关联，导致其在处理异步或弱相关的视听样本时直接推理出不存在的信号。
语言先验霸权（Language Over-reliance）：LLM 后台拥有过于强大的文本生成能力，有时它根本不看视听输入，直接根据 Prompt “背书”产生答案。

现有的 DPO（直接偏好优化）虽然能引导模型生成更好的结果，但它将多模态输入视为黑盒，无法在模型内部逻辑层面强制其“依赖正确的模态”。

MoD-DPO：模态解耦的物理直觉

作者提出，一个健壮的多模态模型应该具备两个基本素养：

不变性（Invariance）：如果某个模态与当前问题无关（比如问视频内容，音频就是噪声），那么该模态内容的崩坏（Corruption）不应影响结果。
敏感性（Sensitivity）：如果某个模态是回答问题的唯一来源，那么该模态一旦受损，模型必须产生响应电位，其预测分布应大幅偏移。

1. 架构解析

MoD-DPO 在标准 DPO 的基础上增加了两个关键的 KL 散度正则项：

绿色项（Invariance）：最小化原始分布与“错误模态受损”分布之间的距离。
蓝色项（Sensitivity）：最大化原始分布与“核心模态受损”分布之间的距离。

MoD-DPO 架构图

此外，为了打击“不看图只说话”的行为，作者引入了 LPD (Language Prior Debiasing)。它在奖励函数中加入了一个惩罚项，降低了模型在仅给定文本输入时产生正确答案的 log-likelihood。

实验验证：硬核战绩

1. 幻觉抵抗力测试

在 AVHBench（跨模态幻觉基准）中，MoD-DPO++ 在所有子任务中均展现了平衡且卓越的性能。特别是在视听匹配任务中，其 F1 分数远超 Qwen 2.5 Omni 和之前的 OmniDPO。

实验结果对比表格

2. 注意力分配的本质改变

通过 LPD 惩罚项，作者观察到模型在生成响应时，分配给音视频 Token 的注意力权重显著增加（见下图）。这从侧面证明了模型不再仅仅依赖内部的文本知识，而是真正开始从感知输入中寻找证据。

注意力重新分配图

深度洞察：为什么这种方法有效？

传统的 DPO 只是在“选答案”，而 MoD-DPO 是在“改逻辑”。

闭式解优势：作者推导出了包含正则项的 DPO 闭式解，使得我们无需复杂的强化学习流程，只需微调 Reward 逻辑即可。
数据驱动的鲁棒性：通过构造 Mismatched Context（不匹配的视听对），模型被迫学会区分什么是真实信号，什么是干扰背景。

局限性与展望

尽管 MoD-DPO 在辨析任务中表现神勇，但在完全统一的端到端生成任务上，模态解耦的力度需要通过超参数 $β_{in v}$ 精确平衡。过强的解耦可能会抑制某些模态间的互补性（例如：通过声音确定视频中模糊的人影是某位熟人）。

总结 (Takeaway)

MoD-DPO 告诉我们：训练全模态模型不能只喂数据，更要设计“逼迫”模型去关注细节的优化目标。通过模态解耦和语言先验去偏，我们向更可靠的多模态 Foundation Model 迈进了一大步。

Find Similar Papers

Try Our Examples

查找最近一年内其他通过模态解耦或模态对比学习来降低多模态模型幻觉的论文。
哪篇论文最早在 DPO 框架中引入了 KL 散度约束以外的正则化项，MoD-DPO 在数学形式上与之有何异同？
调研是否存在将 LPD（语言先验去偏）类似技术应用到视频生成或跨模态检索任务中的相关研究。

Contents

[ICLR 2025] MoD-DPO：别让“脑补”欺骗模型，全模态 LLM 的模态解耦新思路

1. TL;DR

2. 痛点深挖：为什么模型会“幻觉”？

3. MoD-DPO：模态解耦的物理直觉

3.1. 1. 架构解析

4. 实验验证：硬核战绩

4.1. 1. 幻觉抵抗力测试

4.2. 2. 注意力分配的本质改变

5. 深度洞察：为什么这种方法有效？

5.1. 局限性与展望

6. 总结 (Takeaway)