D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

D-OPSD：解决少步扩散模型微调易“练废”的利器

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 D-OPSD，一种针对步进蒸馏（Step-distilled）少步扩散模型的在线策略自蒸馏（On-Policy Self-Distillation）微调框架。通过利用现代扩散模型中 LLM/VLM 编码器的上下文学习能力，该方法在不引入外部奖励函数的情况下，实现了 SOTA 级的新概念学习与风格迁移。

TL;DR

随着极速影像生成技术（如 FLUX.2-klein 和 Z-Image-Turbo）的普及，如何对这些“少步（Few-shot）模型”进行二次微调而不破坏其原有的生成质量成了业界难题。D-OPSD 提出了一种全新的在线策略自蒸馏方案。它巧妙地利用了模型自带的多模态 In-context 能力，让模型通过“自己教自己”的方式学习新概念，完美解决了传统 SFT 微调导致的画质崩塌问题。

背景：为什么你的少步模型一调就“糊”？

在多步扩散模型（如 SDXL）时代，微调只需遵循 Flow-matching 或噪声预测目标即可。但在步进蒸馏（Step-distillation）模型中，生成路径被极度压缩（通常仅 1-8 步）。

核心动机： 传统的 SFT 是典型的 Off-policy（离线策略）：它强迫模型去拟合一张外部图像的噪声状态，而这些状态在模型实际进行 4 步或 8 步推理时根本不会跳过。这种训练与推理的分布不一致（Train-test Mismatch），会导致模型学到了新样式，却弄丢了原有的高质量采样轨迹，结果就是生成的图像变模糊、出现伪影。

核心方案：D-OPSD 的“角色扮演”机制

D-OPSD 的灵感来源于 LLM 领域的自蒸馏。它不再把目标图像当作死板的“标签”，而是当作一个“参考上下文”。

1. 发现新大陆：扩散模型的 In-context 能力

作者发现，现代扩散模型由于使用了像 Qwen 这样的强大 LLM/VLM 作为编码器，它们天然具备 In-context 属性。仅需在 Prompt 中加入图像特征，模型即便不训练也能生成极其相似的变体。

2. 构建师生博弈

在训练迭代中，模型被赋予两个角色：

学生（Student）：仅输入文本 Prompt，按照正常的采样轨迹走。
老师（Teacher）：输入文本 + 目标图像的多模态特征，提供更强的“先验指导”。

模型架构图

训练的目标极其优雅：让学生模型在自己走出的路径上，去预测老师模型看到的“正确速度（Velocity）”。这就保证了模型是在自己的采样分布内进行优化。

实验与战绩：画质、速度、知识全都要

研究团队在 Z-Image-Turbo 和 FLUX.2-klein 两个重量级基座上验证了效果。

LoRA 任务：在 DreamBooth 数据集上，D-OPSD 不仅准确捕捉了特定物体的特征，其生成的图像在审美得分（Aesthetic Score）上远超传统 SFT。
全量微调任务：在 2.5 万张高质量动画数据上的测试显示，D-OPSD 将 FID 降低了 50% 以上，同时能够保持对原始域（如现实风格）的记忆，避免了灾难性遗忘。

实验结果对比

从视觉对比图中可以清晰看到：SFT 和 PSO 方法在微调后图像明显模糊且细节丢失，而 D-OPSD 保持了极其锐利的画质和准确的细节。

深度洞察：为什么 D-OPSD 具有里程碑意义？

脱离奖励模型依赖：以往的 Online-RL 微调（如 GRPO）需要极其精准的 Reward Model（奖励模型），这对普通开发者来说门槛太高。D-OPSD 通过 Teacher 的多模态先验，提供了一种“隐式奖励”。
训练即推理：模型在训练中怎么生成的，推理时还是怎么生成的。这种一致性是少步模型保持高性能的生命线。

局限性与未来

虽然 D-OPSD 效果惊人，但其训练时的计算量约是 SFT 的两倍（因为需要同时跑师生两路推理）。此外，它高度依赖基座模型的编码器质量——如果编码器本身理解不了图文关系，自蒸馏也就无从谈起。

总结

D-OPSD 为蒸馏扩散模型的“终身学习”指明了方向。它告诉我们，要调教一个极速生成的 AI 模型，最好的导师不是外部的标注，而是它自己在更高信息量限制下的“潜能”。

对比总结表

Find Similar Papers

Try Our Examples

查询最近关于解决蒸馏扩散模型（Step-distilled models）微调时性能退化（Capability Degradation）的相关研究。
深度研究 OPSD（在线策略自蒸馏）在大型语言模型（LLM）中的起源及其在连续学习任务中的理论支撑。
探索如何利用多模态编码器（如 Qwen2-VL 或 GPT-4o）的上下文能力来引导图像编辑或视频生成模型的自监督微调。

Contents

D-OPSD：解决少步扩散模型微调易“练废”的利器

1. TL;DR

2. 背景：为什么你的少步模型一调就“糊”？

3. 核心方案：D-OPSD 的“角色扮演”机制

3.1. 1. 发现新大陆：扩散模型的 In-context 能力

3.2. 2. 构建师生博弈

4. 实验与战绩：画质、速度、知识全都要

5. 深度洞察：为什么 D-OPSD 具有里程碑意义？

6. 局限性与未来

7. 总结