本文提出了 MoD-DPO,一种针对全模态大语言模型(Omni LLMs)的模态解耦偏好优化框架。通过引入模态感知的正则化项,该方法显著减少了跨模态幻觉,在 AVHBench 和 CMM 等基准测试中超越了现有 SOTA 基线。
TL;DR
Omni LLMs(全模态大模型)虽然能看能听,但常犯“过度脑补”的毛病。例如:视频里明明只有一张桌子,模型却因为背景里有细微噪音就咬定有狗在叫。本文提出的 MoD-DPO (Modality-Decoupled Direct Preference Optimization) 通过数学化地定义模态不变性和敏感性,成功修正了模型的内部决策边界。
核心成就:
- 在 AVHBench 准确率提升最高 27%。
- 收敛速度比同类方法快 2x,训练开销极低。
- 强制模型“多看少想”,显著解决了语言先验主导(Language Prior)的问题。
痛点深挖:为什么模型会“幻觉”?
当前全模态模型出现幻觉的根源主要有二:
- 模态伪相关(Spurious Correlations):在预训练阶段,模型学习到了“视觉上有狗”通常伴随“听觉上有吠声”的强关联,导致其在处理异步或弱相关的视听样本时直接推理出不存在的信号。
- 语言先验霸权(Language Over-reliance):LLM 后台拥有过于强大的文本生成能力,有时它根本不看视听输入,直接根据 Prompt “背书”产生答案。
现有的 DPO(直接偏好优化)虽然能引导模型生成更好的结果,但它将多模态输入视为黑盒,无法在模型内部逻辑层面强制其“依赖正确的模态”。
MoD-DPO:模态解耦的物理直觉
作者提出,一个健壮的多模态模型应该具备两个基本素养:
- 不变性(Invariance):如果某个模态与当前问题无关(比如问视频内容,音频就是噪声),那么该模态内容的崩坏(Corruption)不应影响结果。
- 敏感性(Sensitivity):如果某个模态是回答问题的唯一来源,那么该模态一旦受损,模型必须产生响应电位,其预测分布应大幅偏移。
1. 架构解析
MoD-DPO 在标准 DPO 的基础上增加了两个关键的 KL 散度正则项:
- 绿色项(Invariance):最小化原始分布与“错误模态受损”分布之间的距离。
- 蓝色项(Sensitivity):最大化原始分布与“核心模态受损”分布之间的距离。

此外,为了打击“不看图只说话”的行为,作者引入了 LPD (Language Prior Debiasing)。它在奖励函数中加入了一个惩罚项,降低了模型在仅给定文本输入时产生正确答案的 log-likelihood。
实验验证:硬核战绩
1. 幻觉抵抗力测试
在 AVHBench(跨模态幻觉基准)中,MoD-DPO++ 在所有子任务中均展现了平衡且卓越的性能。特别是在视听匹配任务中,其 F1 分数远超 Qwen 2.5 Omni 和之前的 OmniDPO。

2. 注意力分配的本质改变
通过 LPD 惩罚项,作者观察到模型在生成响应时,分配给音视频 Token 的注意力权重显著增加(见下图)。这从侧面证明了模型不再仅仅依赖内部的文本知识,而是真正开始从感知输入中寻找证据。

深度洞察:为什么这种方法有效?
传统的 DPO 只是在“选答案”,而 MoD-DPO 是在“改逻辑”。
- 闭式解优势:作者推导出了包含正则项的 DPO 闭式解,使得我们无需复杂的强化学习流程,只需微调 Reward 逻辑即可。
- 数据驱动的鲁棒性:通过构造 Mismatched Context(不匹配的视听对),模型被迫学会区分什么是真实信号,什么是干扰背景。
局限性与展望
尽管 MoD-DPO 在辨析任务中表现神勇,但在完全统一的端到端生成任务上,模态解耦的力度需要通过超参数 精确平衡。过强的解耦可能会抑制某些模态间的互补性(例如:通过声音确定视频中模糊的人影是某位熟人)。
总结 (Takeaway)
MoD-DPO 告诉我们:训练全模态模型不能只喂数据,更要设计“逼迫”模型去关注细节的优化目标。通过模态解耦和语言先验去偏,我们向更可靠的多模态 Foundation Model 迈进了一大步。
