WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[CVPR 2026] Omni-Diffusion:打破自回归垄断,首个全模态离散扩散大模型
总结
问题
方法
结果
要点
摘要

Omni-Diffusion 是一种基于掩码离散扩散模型(MDM)的全模态(Any-to-Any)大语言模型,实现了文本、图像和语音在统一语义空间内的理解与生成。该模型在多模态理解和生成任务中表现优异,尤其在语音合成(TTS)和图像生成上达到了与专业模型媲美的高度。

TL;DR

在多模态领域,GPT 式的自回归(Autoregressive)架构长期占据统治地位,但其并行性差、跨模态生成的“粘合”感一直被学界诟病。南京大学与腾讯优图实验室联合推出的 Omni-Diffusion 另辟蹊径,采用**掩码离散扩散模型(Mask-based Discrete Diffusion)**作为 Backbone,首次在单一模型内实现了文本、图像、语音的“真·全模态”理解与生成。

该模型不仅在语音合成上吊打 AnyGPT,更在推理速度上拥有天然优势——支持并行解码,10 步采样即可生成高质量图像。

1. 痛点:自回归架构的“天花板”

目前大多数 MLLM(如 GPT-4o 级系统)在生成图像或音频时,本质上是“文本驱动”的。它们先生成文本隐状态(Hidden States),再挂载一个外部的 Diffusion Decoder。这种做法存在两个核心问题:

  1. 非原生对齐:模态间的语义对齐严重依赖文本桥梁。
  2. 效率受限:自回归必须逐个 Token 生成,在长序列(如语音、图像 Token)面前,推理开销极大。

Omni-Diffusion 的直觉是: 能不能把所有模态都看作等价的离散 Token,然后用一个类似 BERT 的 Mask 预测任务,但在扩散模型的框架下进行联合建模?

2. 核心架构:统一扩散预测器

Omni-Diffusion 基于 Dream-7B 构建。它将图像通过 MAGVIT-v2 离散化,语音通过语音 Tokenizer 转化,与文本一起放入一个统一的词表空间。

模型架构图

训练层面的创新:三阶段进化

为了让一个纯文本扩散模型学会“看”和“听”,作者设计了三个阶段:

  • Stage 1 - 视觉预对齐:主攻 Image Caption 和 Text-to-Image。
  • Stage 2 - 全模态联合对齐:加入 ASR(语音转文字)和 TTS(文字转语音)。
  • Stage 3 - SDVI 能力提升:使用作者构建的 SDVI 数据集(包含 3 万条语音驱动的视觉问答),强化语音与视觉的直接互动,不再经过中介。

3. 推理策略:如何让生成的图像和语音更像“人”?

离散扩散模型在生成过程中存在一些特有的偏向性。作者提出了两个极其精妙的技巧:

  1. 位置惩罚 (Position Penalty): 作者发现扩散模型容易出现“上下对称”的图像重复模式。这是因为模型习惯从两端向中间解码。通过在推理早期对序列后端的 Token 进行 Logits 削弱,强迫模型形成合理的生成顺序,大幅提升了图像质量。

  2. 特殊 Token 预填补 (Pre-Infilling): 在语音对话任务中,模型会在初始 Mask 序列的 25% 位置预填一个 [begin-of-speech]。这引导模型在前半段生成文本语义,后半段生成对应的语音,实现“边想边说”,保证了语音生成的逻辑连贯性。

4. 实验战绩:全能选手的爆发

在与 AnyGPT、InstructBLIP 等知名模型的对比中,Omni-Diffusion 表现出了极强的统治力。

实验结果对比

  • 语音能力:在 LibriTTS 上,WER 仅为 3.07,接近专家级 TTS 模型(2.89)。
  • 采样效率:这是最震撼的一点。不同于 AR 架构必须跑完整个长度,Omni-Diffusion 在压缩步数到 10 步时,图像的 CLIP 评分几乎没有下降。

步数展示

总结与洞察

Omni-Diffusion 的成功标志着掩码离散扩散模型(MDM)正式具备了挑战自回归模型(AR)在基础模型领域地位的实力

  • 价值点:它不仅解决了生成的效率问题,还通过“原生 Inpainting”能力,让模型无需微调就能直接上手图像修复任务。
  • 局限性:虽然 7B 规模表现优秀,但在处理极长上下文(超长对话)时,扩散模型的注意力集中度及其对计算显存的占用仍需进一步探讨。

未来,我们可能会看到更多基于离散流匹配(Discrete Flow Matching)或扩散架构的 Omni 级别模型,彻底终结推理排队时代。

发现相似论文

试试这些示例

  • 查找最近发表的、使用掩码离散扩散(Masked Discrete Diffusion)作为语言模型主干的其他 SOTA 研究。
  • 分析 Dream-7B 论文中提出的离散扩散理论,探讨 Omni-Diffusion 在此基础上如何扩展了多模态词表。
  • 有哪些最新的研究将 Omni-Diffusion 提到的“位置惩罚”(Position Penalty)或类似逻辑应用到视频理解与生成任务中?
目录
[CVPR 2026] Omni-Diffusion:打破自回归垄断,首个全模态离散扩散大模型
1. TL;DR
2. 1. 痛点:自回归架构的“天花板”
3. 2. 核心架构:统一扩散预测器
3.1. 训练层面的创新:三阶段进化
4. 3. 推理策略:如何让生成的图像和语音更像“人”?
5. 4. 实验战绩:全能选手的爆发
6. 总结与洞察