[CVPR 2025选粹] BiFM：打破扩散模型编辑僵局，实现极简步数下的精准双向流匹配

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 BiFM (Bidirectional Flow Matching)，一种统一生成与反向反转（Inversion）的流匹配框架。该方法通过在单一模型中联合学习“噪声→图像”和“图像→噪声”的双向平均速度场，实现了在极少采样步数（1-4步）下的高质量图像生成与语义编辑。

TL;DR

在图像生成的竞技场中，Diffusion 和 Flow Matching 已然封神。但图像编辑一直有个“阿克琉斯之踵”——Inversion（反转）。要在极少步数（Few-step）下完成“图变噪声再变新图”的过程，通常意味着巨大的精度牺牲。本文提出的 BiFM (Bidirectional Flow Matching) 彻底改变了这一现状：它让模型在训练阶段就学会“往返跑”，只需 1-4 步即可实现超越传统 50 步采样的编辑效果。

痛点深挖：为什么“少步数”是编辑的毒药？

传统的扩散模型编辑依赖于 DDIM Inversion。其核心假设是：当时间步长 $Δ t$ 足够小时，扩散轨迹可以近似为直线。

高步数陷阱：当你使用 50 步甚至更多采样时，这个近似是成立的。
少步数崩坏：一旦为了提速将步数压减到 1-4 步， $Δ t$ 变得巨大，线性近似失效，轨迹剧烈偏离。结果就是：你想给猫加个墨镜，模型却把整只猫的品种都变了。

以往的解决方案要么是“打补丁”（加辅助网络），要么是“拼算力”（反复迭代）。BiFM 的直觉非常直接：既然反转难，为什么不让模型直接学习如何反转？

核心内容：BiFM 的双向物理直觉

BiFM 的核心在于对 平均速度场 (Average Velocity Field) 的建模。

1. 从瞬时到平均

传统的 Flow Matching 关注的是瞬时速度 $v$ 。而在少步数场景下，我们真正需要的是在一段时间间隔 $[t, t^{'}]$ 内的集成表现。BiFM 训练模型预测平均速度 $u$ ： $u (x_{t}, t, t^{'}) := \frac{1}{t ^{'} - t} \int_{t}^{t^{'}} v (x_{a} u, a u) d a u$

2. 双向一致性：物理上的“破镜重圆”

BiFM 引入了一个优雅的约束——双向一致性目标 (Bidirectional Consistency Objective)。它要求模型预测的“前行速度”必须等于“返回速度”的负值。通过这种方式，生成过程和反转过程被锁定在同一条物理轨迹上。

BiFM 架构与原理图 图 1：BiFM 联合学习生成与反转，确保少步数下的轨迹一致性

实验战绩：1 步顶 50 步？

作者在 Stable Diffusion 3 (SD3) 基础上应用了 BiFM。实验结果令人震撼：

重建精度：在 4 步采样下，BiFM 的 PSNR 达到了 28.92，甚至超过了许多 50 步采样的 SOTA 方法（如 MasaCtrl）。
语义编辑：无论是改变物体材质（如把拿铁拉花变成狮子）还是替换物体（如把火炬变鲜花），BiFM 都能在保持背景丝毫不动的前提下，精准完成语义修改。

编辑效果对比 图 2：可视化对比显示，BiFM 在保持背景结构和光影细节方面具有代差级优势

深度洞察：BiFM 给我们的启示

架构通用性：BiFM 并不改变模型的核心 Backbone（如 Transformer），而是通过改变训练目标（Loss）和增加轻量级的时间间隔嵌入（Interval Embedding）来实现。这意味着它可以轻松微调到任何主流的流匹配模型上。
效率与质量的终极平衡：以往我们认为 1-step 生成是质量的终点，但 BiFM 证明了通过合理的物理约束，1-step 同样可以具备极高的保真度和可控性。

总结与展望

BiFM 不仅仅是一个更快的编辑器，它为**“自反转生成模型”**开辟了新路径。未来的 AI 创作工具将不再需要在“漫长的等待”和“糟糕的质量”之间做选择。

局限性：尽管 BiFM 在结构保持上表现优异，但在处理极其剧烈的拓扑变化（如将坐姿直接变为站姿）时，仍受限于预训练底模的能力上限。

本文由资深学术技术主编重构。原论文：BiFM: Bidirectional Flow Matching for Few-Step Image Editing and Generation.

Find Similar Papers

Try Our Examples

查找最近其他尝试解决流匹配（Flow Matching）中少步数采样（Few-step sampling）精度损失的论文。
哪篇论文最早提出了 MeanFlow Identity 理论，BiFM 是如何在处理双向性（Bidirectionality）上对其进行扩展的？
有哪些研究将 BiFM 或类似的一致性流匹配方法应用到了视频编辑或 3D 生成任务中？

Contents

[CVPR 2025选粹] BiFM：打破扩散模型编辑僵局，实现极简步数下的精准双向流匹配

1. TL;DR

2. 痛点深挖：为什么“少步数”是编辑的毒药？

3. 核心内容：BiFM 的双向物理直觉

3.1. 1. 从瞬时到平均

3.2. 2. 双向一致性：物理上的“破镜重圆”

4. 实验战绩：1 步顶 50 步？

5. 深度洞察：BiFM 给我们的启示

6. 总结与展望