Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

[CVPR 2026] Omni-Diffusion：打破自回归垄断，首个全模态离散扩散大模型

总结

问题

方法

结果

要点

摘要

Omni-Diffusion 是一种基于掩码离散扩散模型（MDM）的全模态（Any-to-Any）大语言模型，实现了文本、图像和语音在统一语义空间内的理解与生成。该模型在多模态理解和生成任务中表现优异，尤其在语音合成（TTS）和图像生成上达到了与专业模型媲美的高度。

TL;DR

在多模态领域，GPT 式的自回归（Autoregressive）架构长期占据统治地位，但其并行性差、跨模态生成的“粘合”感一直被学界诟病。南京大学与腾讯优图实验室联合推出的 Omni-Diffusion 另辟蹊径，采用**掩码离散扩散模型（Mask-based Discrete Diffusion）**作为 Backbone，首次在单一模型内实现了文本、图像、语音的“真·全模态”理解与生成。

该模型不仅在语音合成上吊打 AnyGPT，更在推理速度上拥有天然优势——支持并行解码，10 步采样即可生成高质量图像。

1. 痛点：自回归架构的“天花板”

目前大多数 MLLM（如 GPT-4o 级系统）在生成图像或音频时，本质上是“文本驱动”的。它们先生成文本隐状态（Hidden States），再挂载一个外部的 Diffusion Decoder。这种做法存在两个核心问题：

非原生对齐：模态间的语义对齐严重依赖文本桥梁。
效率受限：自回归必须逐个 Token 生成，在长序列（如语音、图像 Token）面前，推理开销极大。

Omni-Diffusion 的直觉是： 能不能把所有模态都看作等价的离散 Token，然后用一个类似 BERT 的 Mask 预测任务，但在扩散模型的框架下进行联合建模？

2. 核心架构：统一扩散预测器

Omni-Diffusion 基于 Dream-7B 构建。它将图像通过 MAGVIT-v2 离散化，语音通过语音 Tokenizer 转化，与文本一起放入一个统一的词表空间。

模型架构图

训练层面的创新：三阶段进化

为了让一个纯文本扩散模型学会“看”和“听”，作者设计了三个阶段：

Stage 1 - 视觉预对齐：主攻 Image Caption 和 Text-to-Image。
Stage 2 - 全模态联合对齐：加入 ASR（语音转文字）和 TTS（文字转语音）。
Stage 3 - SDVI 能力提升：使用作者构建的 SDVI 数据集（包含 3 万条语音驱动的视觉问答），强化语音与视觉的直接互动，不再经过中介。

3. 推理策略：如何让生成的图像和语音更像“人”？

离散扩散模型在生成过程中存在一些特有的偏向性。作者提出了两个极其精妙的技巧：

位置惩罚 (Position Penalty)：作者发现扩散模型容易出现“上下对称”的图像重复模式。这是因为模型习惯从两端向中间解码。通过在推理早期对序列后端的 Token 进行 Logits 削弱，强迫模型形成合理的生成顺序，大幅提升了图像质量。
特殊 Token 预填补 (Pre-Infilling)：在语音对话任务中，模型会在初始 Mask 序列的 25% 位置预填一个 [begin-of-speech]。这引导模型在前半段生成文本语义，后半段生成对应的语音，实现“边想边说”，保证了语音生成的逻辑连贯性。

4. 实验战绩：全能选手的爆发

在与 AnyGPT、InstructBLIP 等知名模型的对比中，Omni-Diffusion 表现出了极强的统治力。

实验结果对比

语音能力：在 LibriTTS 上，WER 仅为 3.07，接近专家级 TTS 模型（2.89）。
采样效率：这是最震撼的一点。不同于 AR 架构必须跑完整个长度，Omni-Diffusion 在压缩步数到 10 步时，图像的 CLIP 评分几乎没有下降。

步数展示

总结与洞察

Omni-Diffusion 的成功标志着掩码离散扩散模型（MDM）正式具备了挑战自回归模型（AR）在基础模型领域地位的实力。

价值点：它不仅解决了生成的效率问题，还通过“原生 Inpainting”能力，让模型无需微调就能直接上手图像修复任务。
局限性：虽然 7B 规模表现优秀，但在处理极长上下文（超长对话）时，扩散模型的注意力集中度及其对计算显存的占用仍需进一步探讨。

未来，我们可能会看到更多基于离散流匹配（Discrete Flow Matching）或扩散架构的 Omni 级别模型，彻底终结推理排队时代。

发现相似论文

试试这些示例

查找最近发表的、使用掩码离散扩散（Masked Discrete Diffusion）作为语言模型主干的其他 SOTA 研究。
分析 Dream-7B 论文中提出的离散扩散理论，探讨 Omni-Diffusion 在此基础上如何扩展了多模态词表。
有哪些最新的研究将 Omni-Diffusion 提到的“位置惩罚”（Position Penalty）或类似逻辑应用到视频理解与生成任务中？

[CVPR 2026] Omni-Diffusion：打破自回归垄断，首个全模态离散扩散大模型

1. TL;DR

2. 1. 痛点：自回归架构的“天花板”

3. 2. 核心架构：统一扩散预测器

3.1. 训练层面的创新：三阶段进化

4. 3. 推理策略：如何让生成的图像和语音更像“人”？

5. 4. 实验战绩：全能选手的爆发

6. 总结与洞察