本文提出了 BiFM (Bidirectional Flow Matching),一种统一生成与反向反转(Inversion)的流匹配框架。该方法通过在单一模型中联合学习“噪声→图像”和“图像→噪声”的双向平均速度场,实现了在极少采样步数(1-4步)下的高质量图像生成与语义编辑。
TL;DR
在图像生成的竞技场中,Diffusion 和 Flow Matching 已然封神。但图像编辑一直有个“阿克琉斯之踵”——Inversion(反转)。要在极少步数(Few-step)下完成“图变噪声再变新图”的过程,通常意味着巨大的精度牺牲。本文提出的 BiFM (Bidirectional Flow Matching) 彻底改变了这一现状:它让模型在训练阶段就学会“往返跑”,只需 1-4 步即可实现超越传统 50 步采样的编辑效果。
痛点深挖:为什么“少步数”是编辑的毒药?
传统的扩散模型编辑依赖于 DDIM Inversion。其核心假设是:当时间步长 足够小时,扩散轨迹可以近似为直线。
- 高步数陷阱:当你使用 50 步甚至更多采样时,这个近似是成立的。
- 少步数崩坏:一旦为了提速将步数压减到 1-4 步, 变得巨大,线性近似失效,轨迹剧烈偏离。结果就是:你想给猫加个墨镜,模型却把整只猫的品种都变了。
以往的解决方案要么是“打补丁”(加辅助网络),要么是“拼算力”(反复迭代)。BiFM 的直觉非常直接:既然反转难,为什么不让模型直接学习如何反转?
核心内容:BiFM 的双向物理直觉
BiFM 的核心在于对 平均速度场 (Average Velocity Field) 的建模。
1. 从瞬时到平均
传统的 Flow Matching 关注的是瞬时速度 。而在少步数场景下,我们真正需要的是在一段时间间隔 内的集成表现。BiFM 训练模型预测平均速度 :
2. 双向一致性:物理上的“破镜重圆”
BiFM 引入了一个优雅的约束——双向一致性目标 (Bidirectional Consistency Objective)。 它要求模型预测的“前行速度”必须等于“返回速度”的负值。通过这种方式,生成过程和反转过程被锁定在同一条物理轨迹上。
图 1:BiFM 联合学习生成与反转,确保少步数下的轨迹一致性
实验战绩:1 步顶 50 步?
作者在 Stable Diffusion 3 (SD3) 基础上应用了 BiFM。实验结果令人震撼:
- 重建精度:在 4 步采样下,BiFM 的 PSNR 达到了 28.92,甚至超过了许多 50 步采样的 SOTA 方法(如 MasaCtrl)。
- 语义编辑:无论是改变物体材质(如把拿铁拉花变成狮子)还是替换物体(如把火炬变鲜花),BiFM 都能在保持背景丝毫不动的前提下,精准完成语义修改。
图 2:可视化对比显示,BiFM 在保持背景结构和光影细节方面具有代差级优势
深度洞察:BiFM 给我们的启示
- 架构通用性:BiFM 并不改变模型的核心 Backbone(如 Transformer),而是通过改变训练目标(Loss)和增加轻量级的时间间隔嵌入(Interval Embedding)来实现。这意味着它可以轻松微调到任何主流的流匹配模型上。
- 效率与质量的终极平衡:以往我们认为 1-step 生成是质量的终点,但 BiFM 证明了通过合理的物理约束,1-step 同样可以具备极高的保真度和可控性。
总结与展望
BiFM 不仅仅是一个更快的编辑器,它为**“自反转生成模型”**开辟了新路径。未来的 AI 创作工具将不再需要在“漫长的等待”和“糟糕的质量”之间做选择。
局限性:尽管 BiFM 在结构保持上表现优异,但在处理极其剧烈的拓扑变化(如将坐姿直接变为站姿)时,仍受限于预训练底模的能力上限。
本文由资深学术技术主编重构。原论文:BiFM: Bidirectional Flow Matching for Few-Step Image Editing and Generation.
