Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

[CVPR 2025] IOMM：重塑统一多模态模型，仅靠图像预训练实现 SOTA 生成

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 IOMM，一种针对统一多模态模型（UMM）视觉生成的双阶段训练框架。该方法通过引入 Masked Image Modeling (MIM) 实现了仅使用无标签图像的大规模预训练，能够显著降低对高质量图文对数据的依赖，并在 GenEval 等基准测试上达到 SOTA 性能。

TL;DR

传统的统一多模态模型（UMMs）往往受困于对海量“图文对”数据的渴求。西湖大学等机构提出的 IOMM (Image-Only Training for UMM) 打破了这一僵局。它通过掩码图像建模（Masked Image Modeling）和残差查询适配器（Residual Query Adapter），实现了仅需图像即可进行高效视觉生成预训练。在 1.6B 的参数规模下，IOMM 仅用 1000 多 GPU 小时就刷写了 GenEval 的 SOTA 纪录，并展示了惊人的零样本（Zero-shot）图像编辑能力。

痛点深挖：昂贵的标签与低效的训练

目前 UMM 的视觉生成能力主要依赖于大规模的文本-图像对。然而，高质量的标注数据是稀缺且闭源的。此外，直接在理解模型（MLLM）上微调生成任务容易导致核心理解能力的“灾难性遗忘”。

作者发现，现有的 UMM 在处理复杂指令时经常出现细节缺失或对齐失败。究其原因，是生成模块没有建立起足够的视觉先验（Visual Prior）。

核心方法论：从稀疏到稠密的视觉重构

IOMM 提出了一个优雅的两阶段框架：

1. 图像自调节预训练 (Self-Conditioning)

作者提出一个深刻的洞见：图像本身就是其最完美的语义条件。通过冻结的 MLLM 提取图像的视觉特征，并将其作为生成器的输入，模型可以摆脱对文本标签的依赖。

2. 残差查询适配器 (Residual Query Adapter, RQA)

由于冻结 MLLM 的原始输出是为了“理解”设计的，直接用于“生成”会存在领域失配。RQA 模块（仅 29M 参数）通过 Cross-Attention 学习任务特定的变换，将理解表征转化为精细控制生成的指令，而无需触动庞大的 MLLM 主体。

3. 掩码图像建模 (Masked Image Modeling, MIM)

为了防止模型学成简单的“恒等映射”（即死记硬背输入图片），作者引入了 MIM。通过随机遮蔽一部分视觉 Token，强迫模型从残缺的信息中推断并重建出完整的图像。这种“由稀疏到稠密”的过程极大地增强了模型的组合生成能力。

模型架构与流程 图 1：IOMM 的训练范式对比及实验验证

实验战绩：以小博大的效率典范

IOMM 在多个主流榜单上展现了降维打击般的效率：

性能：IOMM-B (1.6B) 在 GenEval 整体得分上达到 0.89，超过了参数量更大的 BAGEL-7B (0.88) 和经过 3000 万专如图文对训练的 BLIP3-o-8B (0.84)。
效率：完成全阶段预训练仅需 1050 H800 GPU 小时（约 40 天单卡功耗），相比动辄数万小时的基线模型，成本极低。
通用性：该方法可以作为“插件”提升现有模型。例如，将 IOMM 的混合微调策略用于 Qwen-Image，使其 GenEval 分数显著提升。

实验结果对比 表 1：IOMM 与各类 SOTA 统一多模态模型在 GenEval 和 WISE 上的量化对比

深度洞察：惊喜的零样本编辑能力

除了文本生成图像，IOMM 在图像编辑上也表现出了意外的强大。通过仅在图像上进行的预训练，模型学会了深刻的视觉空间关系。在 ImgEdit-Bench 测试中，IOMM 在完全没有接触过编辑数据的情况下，其 Zero-shot 表现甚至优于许多专门在编辑数据集上微调过的模型（如 UltraEdit）。

总结与未来

IOMM 证明了：

生成先验不一定来自文本，掩码图像建模是获取高质量视觉先验的高效途径。
“图像预训练 + 混合数据微调”是解决 UMM 数据饥渴的最佳实践。
轻量级的 RQA 适配器是连接理解模型与生成模型的有效桥梁。

局限性：虽然 IOMM 在 512px 分辨率下表现优异，但在更高分辨率（如 1024px）下的相对性能增益有所收敛，这可能与训练数据的多样性及计算资源分配有关。未来在超大规模数据集上的可扩展性（Scaling Law）值得进一步探索。

Find Similar Papers

Try Our Examples

查找最近其他利用 Masked Image Modeling (MIM) 提升扩散模型或流匹配模型数据效率的论文。
哪篇论文最早在统一多模态模型中应用了 Flow Matching 技术，本文在架构上做了哪些优化？
调研除了 IOMM 之外，还有哪些研究在探索将大语言模型的理解能力“零样本”或“轻量化”地转换为图像编辑能力？

Contents

[CVPR 2025] IOMM：重塑统一多模态模型，仅靠图像预训练实现 SOTA 生成

1. TL;DR

2. 痛点深挖：昂贵的标签与低效的训练

3. 核心方法论：从稀疏到稠密的视觉重构

3.1. 1. 图像自调节预训练 (Self-Conditioning)

3.2. 2. 残差查询适配器 (Residual Query Adapter, RQA)

3.3. 3. 掩码图像建模 (Masked Image Modeling, MIM)

4. 实验战绩：以小博大的效率典范

5. 深度洞察：惊喜的零样本编辑能力

6. 总结与未来