本文提出了 Normalized Flow Matching (NFM),一种结合归一化流 (Normalizing Flows, NF) 与流匹配 (Flow Matching, FM) 的新型训练范式。通过蒸馏预训练 NF 模型的双射耦合关系来指导 FM 模型的训练,实现了生成质量与推理速度的双重突破。
TL;DR
传统的流匹配(Flow Matching, FM)训练通常是在暗箱操作——随机给一段噪声匹配一个图像样本。本文提出的 Normalized Flow Matching (NFM) 改变了游戏规则:它先用一个归一化流(NF)老师把图像“变”成特定的高斯噪声,再让 FM 学生去学习这段精准的对应关系。结果是:学生不仅比老师跑得快 32 倍,甚至画得比老师还好。
背景定位
目前生成模型界有两股势力:FM (Flow Matching) 采样灵活但训练耦合随缘;NF (Normalizing Flows) 理论完美(双射、最大似然)但架构受限且推理极慢(尤其是自回归版本)。NFM 的出现标志着从“几何驱动的耦合(如最优传输)”向“分布驱动的耦合(如预训练模型先验)”的范式转变。
痛点深挖:为什么随机耦合不行?
在 FM 训练中,我们要学习一个速度场 ,将噪声 推向数据 。
- 独立耦合:随机配对,导致轨迹交叉严重,模型在推理时必须走极其微小的步长(高 NFE)才能避免偏移。
- OT 耦合(Optimal Transport):虽然尝试让路径变直,但它往往是类别不可知的,且忽略了神经网络本身的归纳偏置(Inductive Bias)。
核心方法:Normalized Flow Matching (NFM)
NFM 的直觉非常直接:既然归一化流模型已经学会了如何把一张猫的图片可逆地变换成一段高斯噪声,那这段噪声就是这张猫的最优“身份证”。
1. 架构示意
如下图所示,NFM 不再使用随机高斯噪声,而是使用 NF 老师生成的 。

2. 数学直觉
NFM 将 FM 的回归目标修改为: 其中 是通过预训练的 TarFlow 模型 得到的。由于 与 是强耦合的,这个速度场变得极其平滑且易于学习。作者发现,这种方法预测的轨迹曲率明显低于 Vanilla FM,这正是少步采样(Few-step sampling)成功的关键。
实验战绩
在 ImageNet-64 高强度测试下,NFM 展现了恐怖的统治力。
- 性能反超:FM 学生在 31 步采样下达到了 1.78 的 FID,甚至击败了它的老师 TarFlow(FID 1.98)。
- 极速推理:在保证不错生成质量的前提下,NFM 可以实现比自回归 NF 老师快 145 倍的采样速度。
- 收敛速度:从训练曲线上看,NFM 在 32MiB 样本量时的表现甚至优于传统 FM 在 256MiB 时的表现。

深度洞察:Z-Space 的秘密
论文揭示了一个反直觉的现象:在归一化流的噪声空间(Z-Space)中,同一张图片添加不同微小噪声后的投影点,分布得非常散(dz 很大)。这意味着 NF 并不是简单地保持局部邻域关系,而是通过一种复杂的非线性映射重塑了空间。然而,FM 竟然能够完美地通过蒸馏捕获这种结构,并转化为生成效率。
局限性与展望
虽然 NFM 效果惊人,但它依赖于一个预训练好的 NF 老师,这意味着总的计算成本包含了 NF 的预训练。 启示:未来我们可能会看到“基础噪声编码器”的出现。就像我们现在习惯用预训练的 VAE 隐空间一样,未来的扩散模型或流模型可能会在统一的、由大规模 NF 模型定义的“双射高斯空间”中进行。
总结
NFM 成功打破了“蒸馏模型必弱于老师”的魔咒。它告诉我们,归一化流不仅是一个生成器,更是一个卓越的“关系定义者”。通过将复杂的概率分布转化为可学习的直线路径,NFM 为下一代高效生成模型指明了方向。
