WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
MMCORE:以语义对齐潜嵌入突破多模态生成的“理解-生成”壁垒
总结
问题
方法
结果
要点
摘要

本文提出了 MMCORE,这是一个统一的多模态图像生成与编辑框架。它通过训练多模态大语言模型(MLLM)学习预测语义视觉潜嵌入,并将其作为扩散模型(MMDiT)的条件信号,实现了在低计算开销下将 VLMs 的推理能力迁移至视觉生成任务中。

TL;DR

MMCORE 代表了多模态大模型(UMM)演进的一个新阶段。它并不追求在一个网络中强行通过单次前向完成所有任务,而是通过语义对齐的潜嵌入(Representation Aligned Latent Embeddings),巧妙地将 MLLM 的“逻辑脑”与扩散模型的“绘画手”连接起来。该模型在保持高效训练的同时,在复杂空间推理和多图协同编辑任务上刷新了 SOTA 表现。

痛点深挖:为什么统一架构这么难?

当前多模态领域存在两大主流:以自回归(AR)为主的理解模型(如 LLM/VLM)和以扩散(Diffusion/FM)为主的生成模型。

  1. 训练效率冲突:AR 模型在理解文本时只需一次前向,而生成图像的扩散过程需要反复迭代且处理噪声数据,两者在同一架构下的优化步调极难对齐。
  2. 表征失位:MLLM 的潜在空间倾向于文本语义,而扩散模型需要具备强空间感和细节的条件信号。
  3. 固定预算局限:先前的 MetaQueries 等方法使用固定数量的 Query Token,面对长 prompt 时信息丢失严重。

核心方法论:MMCORE 的三维进化

为了解决上述问题,字节跳动 Seed 团队提出了 MMCORE,其核心逻辑在于**“增强对齐,解耦训练”**。

1. 语义视觉对齐蒸馏

MMCORE 不再仅仅依赖扩散损失来训练 MLLM 输出的 Query,而是引入了明确的视觉监督(Visual Scaffolding)。模型将 MLLM 产生的视觉 Token 与 SigLIP 等 SoTA 视觉编码器的特征空间进行余弦相似度拟合。这确保了这些 Token 在进入扩散模型前,已经具备了深厚的视觉语义。

2. 双路径调节机制 (Dual-Pathway Conditioning)

为了防止固定数量的 Token 成为信息瓶颈,MMCORE 采用了并行策略:

  • 视觉路径:捕捉全局语义和跨模态对齐。
  • 文本路径:保留原始 MLLM 的长文本嵌入,确保细粒度的指令遵循(Instruction Following)。

模型架构图

3. 交错式图像生成的 Attention 设计

在处理类似“根据图 A 生成图 B”的序列任务时,MMCORE 引入了 Block-causal 遮罩。实验发现,历史图像的 VAE Latents 对当前生成至关重要,但过往的“视觉 Token”反而会干扰优化。因此,模型只对历史 VAE 特征和当前帧的语义 Token 进行注意力建模。

注意力掩码设计

实验战绩:推理能力的跨维度迁移

MMCORE 在复杂逻辑和反事实 Prompt 下表现惊人。例如,在处理“男人的眼睛高度与女人的嘴平齐”这种复杂的空间关系时,普通扩散模型往往会滑向平均分布的“平视”情景,而 MMCORE 能够精准地执行这种结构化约束。

实验结果对比

在量化指标上,MMCORE 在多项编辑基准测试中均展现出更强的连贯性。消融实验显示,**全参数微调(Full Fine-tuning)**相比 LoRA 能够带来本质上的生成质量提升,而加入 SFT(监督微调) 阶段则能让 GPT-4o 的对齐评分再上一个台阶。

深度洞察:迈向“全能 Tokenizer”

尽管 MMCORE 表现强劲,但作者诚实地指出了当前的局限性——“理解税”(Understanding Tax)。即在适配生成任务后,MLLM 在纯视觉理解(如 OCR, VQA)上的表现会有所下滑。

未来的终极方向是开发一种 Omni-Tokenizer:它既要能像 VAE 一样实现像素级完美重建,又要能像 ViT 一样支持高层语义推理。当理解与生成在 Token 层面实现真正的底层统一时,当前的“解耦双塔”结构或许将演变为更加紧凑、高效的智能体。

总结

MMCORE 给出了一条极其务实的学术路径:在现有计算瓶颈下,不要迷信单模型大一统,而要通过精准的“语义桥梁”实现各模块能力的跨界融合。对于希望在垂直领域提升生成模型控制能力的开发者来说,其语义对齐蒸馏的思想具有很强的借鉴意义。

发现相似论文

试试这些示例

  • 查找最近其他使用蒸馏方法将 CLIP 或 SigLIP 语义知识迁移到扩散模型条件分支的论文。
  • 哪篇论文最早提出了 MetaQueries 架构,本文在其基础上做了哪些关于动态上下文预算的改进?
  • 有哪些最新的研究尝试将 MLLM 的自回归输出直接转换为扩散模型的隐空间 Token 以实现“Omni-Tokenizer”?
目录
MMCORE:以语义对齐潜嵌入突破多模态生成的“理解-生成”壁垒
1. TL;DR
2. 痛点深挖:为什么统一架构这么难?
3. 核心方法论:MMCORE 的三维进化
3.1. 1. 语义视觉对齐蒸馏
3.2. 2. 双路径调节机制 (Dual-Pathway Conditioning)
3.3. 3. 交错式图像生成的 Attention 设计
4. 实验战绩:推理能力的跨维度迁移
5. 深度洞察:迈向“全能 Tokenizer”
5.1. 总结