Omni-Diffusion 是一种基于掩码离散扩散模型(MDM)的全模态(Any-to-Any)大语言模型,实现了文本、图像和语音在统一语义空间内的理解与生成。该模型在多模态理解和生成任务中表现优异,尤其在语音合成(TTS)和图像生成上达到了与专业模型媲美的高度。
TL;DR
在多模态领域,GPT 式的自回归(Autoregressive)架构长期占据统治地位,但其并行性差、跨模态生成的“粘合”感一直被学界诟病。南京大学与腾讯优图实验室联合推出的 Omni-Diffusion 另辟蹊径,采用**掩码离散扩散模型(Mask-based Discrete Diffusion)**作为 Backbone,首次在单一模型内实现了文本、图像、语音的“真·全模态”理解与生成。
该模型不仅在语音合成上吊打 AnyGPT,更在推理速度上拥有天然优势——支持并行解码,10 步采样即可生成高质量图像。
1. 痛点:自回归架构的“天花板”
目前大多数 MLLM(如 GPT-4o 级系统)在生成图像或音频时,本质上是“文本驱动”的。它们先生成文本隐状态(Hidden States),再挂载一个外部的 Diffusion Decoder。这种做法存在两个核心问题:
- 非原生对齐:模态间的语义对齐严重依赖文本桥梁。
- 效率受限:自回归必须逐个 Token 生成,在长序列(如语音、图像 Token)面前,推理开销极大。
Omni-Diffusion 的直觉是: 能不能把所有模态都看作等价的离散 Token,然后用一个类似 BERT 的 Mask 预测任务,但在扩散模型的框架下进行联合建模?
2. 核心架构:统一扩散预测器
Omni-Diffusion 基于 Dream-7B 构建。它将图像通过 MAGVIT-v2 离散化,语音通过语音 Tokenizer 转化,与文本一起放入一个统一的词表空间。

训练层面的创新:三阶段进化
为了让一个纯文本扩散模型学会“看”和“听”,作者设计了三个阶段:
- Stage 1 - 视觉预对齐:主攻 Image Caption 和 Text-to-Image。
- Stage 2 - 全模态联合对齐:加入 ASR(语音转文字)和 TTS(文字转语音)。
- Stage 3 - SDVI 能力提升:使用作者构建的 SDVI 数据集(包含 3 万条语音驱动的视觉问答),强化语音与视觉的直接互动,不再经过中介。
3. 推理策略:如何让生成的图像和语音更像“人”?
离散扩散模型在生成过程中存在一些特有的偏向性。作者提出了两个极其精妙的技巧:
-
位置惩罚 (Position Penalty): 作者发现扩散模型容易出现“上下对称”的图像重复模式。这是因为模型习惯从两端向中间解码。通过在推理早期对序列后端的 Token 进行 Logits 削弱,强迫模型形成合理的生成顺序,大幅提升了图像质量。
-
特殊 Token 预填补 (Pre-Infilling): 在语音对话任务中,模型会在初始 Mask 序列的 25% 位置预填一个
[begin-of-speech]。这引导模型在前半段生成文本语义,后半段生成对应的语音,实现“边想边说”,保证了语音生成的逻辑连贯性。
4. 实验战绩:全能选手的爆发
在与 AnyGPT、InstructBLIP 等知名模型的对比中,Omni-Diffusion 表现出了极强的统治力。

- 语音能力:在 LibriTTS 上,WER 仅为 3.07,接近专家级 TTS 模型(2.89)。
- 采样效率:这是最震撼的一点。不同于 AR 架构必须跑完整个长度,Omni-Diffusion 在压缩步数到 10 步时,图像的 CLIP 评分几乎没有下降。

总结与洞察
Omni-Diffusion 的成功标志着掩码离散扩散模型(MDM)正式具备了挑战自回归模型(AR)在基础模型领域地位的实力。
- 价值点:它不仅解决了生成的效率问题,还通过“原生 Inpainting”能力,让模型无需微调就能直接上手图像修复任务。
- 局限性:虽然 7B 规模表现优秀,但在处理极长上下文(超长对话)时,扩散模型的注意力集中度及其对计算显存的占用仍需进一步探讨。
未来,我们可能会看到更多基于离散流匹配(Discrete Flow Matching)或扩散架构的 Omni 级别模型,彻底终结推理排队时代。
