WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[ICLR 2025] MIGM-Shortcut:学习潜在动力学,实现掩码图像生成 4 倍加速
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 MIGM-Shortcut,一种针对掩码图像生成模型(MIGMs)的加速框架。该方法通过引入一个轻量级的神经网络来学习潜在特征空间的受控动力学(Latent Controlled Dynamics),在保持生成质量的前提下,在 Lumina-DiMOO 模型上实现了超过 4 倍的推理加速。

TL;DR

传统的掩码图像生成模型(MIGMs)虽然效果强大,但密集的双向注意力推理步骤使其慢如蜗牛。本文提出的 MIGM-Shortcut 换了个思路:既然相邻步骤的特征极其相似,我们能不能用一个极小的“插件”网络,根据当前状态和刚采样的 Token,直接“盲猜”出下一步的特征?实验证明,这种基于潜在受控动力学的方法在 Lumina-DiMOO 上实现了 4 倍以上加速,且画质几乎无损。

痛点深挖:消失的冗余与致命的采样

在 MIGM 的生成过程中,模型不断地从全掩码状态填充 Token。作者通过 t-SNE 观察发现(见下图),模型最后一层的特征轨迹表现出惊人的平滑性。

特征轨迹平滑性可视化

然而,现有的加速手段(如缓存重用)在追求极致速度时往往表现不佳。根本原因有二

  1. 信息流失:MIGM 在每一格采样出离散 Token 时,原本丰富的连续特征会被截断为孤立的索引,导致信息丢失。
  2. 动力学失效:连续扩散模型(ODE)的轨迹是确定的,但 MIGM 依赖采样。同一个起点,采样随机种子的不同会导致轨迹“分叉”(Fork)。如果预测模型不参考新采样的 Token,就会陷入“由于不知道选了啥,只能预测所有可能性的均值”的坑,导致画面模糊呆板。

核心方法:Latent Controlled Dynamics

作者提出的方案不再是简单的“缓存”,而是**“预测”**。

1. Shortcut 架构

Shortcut 模型极度轻量(仅为基座模型的 1/20~1/40)。其核心逻辑如下: 其中 利用 Cross-Attention 机制,让当前的特征 去“吸收”新采样 Token 的信息。这种“受控”的动力学建模,确保了预测轨迹不会偏离当前的采样路径。

MIGM-Shortcut 推理流程图

2. 定期校准机制

为了防止 Shortcut 模型的预测误差无限累积,算法采用了“B/N”策略:每隔几个轻量步,强行调用一次完整的基座模型进行特征重置(校准),确保生成轨迹始终在正确的分布轨道上。

实验战绩:打破画质与速度的博弈

在最前沿的 Lumina-DiMOO 展示中,MIGM-Shortcut 表现惊艳:

  • 极致加速:在 1024x1024 高清生成任务,加速比达到 4.01x - 5.79x,延迟从 23 秒缩减至 4 秒左右。
  • 指标稳健:在 ImageReward 和 CLIPScore 等语义一致性指标上,几乎与 64 步全量推理持平。
  • 对比 SOTA:相比于 TaylorSeer 等传统预测方法,MIGM-Shortcut 在 4 倍加速时依然能保持画面细节,而其他方法往往会出现严重的伪影。

实验结果对比图

有趣的是,在 MaskGIT 实验中,Shortcut 版本居然比原版 FID 更低。作者解释这可能是因为 Shortcut 模型在训练时拟合的是“15 步黄金轨迹”,在推理时用 32 步更细的粒度去模拟这条轨迹,从而实现了“青出于蓝”。

深度洞察:为什么不直接砍步骤?

很多人会问:为什么不直接把生成步数从 64 砍到 4 步? 这涉及 MIGM 的 多模态问题(Multi-modality Problem)。MIGM 很难在单步内同时对大量 Token 的联合分布建模(见下图对比)。而 Shortcut 方案本质上是**“高频采样特征,低频刷新模型”**,它在保持高频次 Token 更新(避免伪影)的同时,减少了模型计算的负载。

多模态问题的伪影展示

总结与展望

MIGM-Shortcut 证明了在大模型推理中,“空间换时间”或“小模型带路”的思路在大规模离散生成任务中同样可行。它的成功关键在于对采样反馈的引入

虽然目前该方法仍需少量的监督微调(需 12 小时 GPU 训练),但相对于其带来的实时推理收益,这一成本微不足道。未来,这种学习特征空间“快捷路径”的思想,或许能为所有基于 Transformer 的迭代生成任务打通效率瓶颈。

Find Similar Papers

Try Our Examples

  • 检索最近一年内针对 Masked Generative Transformers (MGT) 或离散扩散模型的推理加速研究,特别是涉及特征预测(Feature Forecasting)的方法。
  • 哪篇论文最早探讨了生成模型内部特征空间的动力学平滑性(Trajectory Smoothness),本文提出的受控动力学(Controlled Dynamics)在数学上如何与之关联?
  • 调研将轻量级 Shortcut 网络或特征缓存技术应用到视频生成或多模态理解任务中的相关文献及其性能表现。
Contents
[ICLR 2025] MIGM-Shortcut:学习潜在动力学,实现掩码图像生成 4 倍加速
1. TL;DR
2. 痛点深挖:消失的冗余与致命的采样
3. 核心方法:Latent Controlled Dynamics
3.1. 1. Shortcut 架构
3.2. 2. 定期校准机制
4. 实验战绩:打破画质与速度的博弈
5. 深度洞察:为什么不直接砍步骤?
6. 总结与展望