IR-Flow: Bridging Discriminative and Generative Image Restoration via Rectified Flow

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

IR-Flow: Bridging Discriminative and Generative Image Restoration via Rectified Flow

IR-Flow：修正流技术突破，让图像恢复告别“百步抽样”

总结

问题

方法

结果

要点

摘要

本文提出了 IR-Flow，一个基于修正流（Rectified Flow）的统一图像恢复框架，旨在弥合判别式和生成式范式之间的差距。通过构建多级数据分布流和累积速度场（Cumulative Velocity Field），实现了在极少采样步数下达到 SOTA 级别的图像去噪、去雨和除雨滴效果。

TL;DR

图像恢复（Image Restoration）领域一直存在“鱼和熊掌不可兼得”的问题：传统的判别式模型（如卷积神经网络回归）速度快但画质模糊；生成式模型（如扩散模型 Diffusion）画质惊艳但推理太慢。IR-Flow 通过引入 Rectified Flow (修正流) 和创新的 累积速度场 (CVF)，直接在退化图和清晰图之间架起了一座“直线桥梁”，仅需 1-4 步采样即可实现超越百步扩散模型的恢复效果，速度提升高达 100 倍。

背景定位：从 SDE 的混沌到 ODE 的简洁

传统的生成式恢复方法（如 IR-SDE）通常将退化过程建模为随机微分方程（SDE），这种方式需要反复注入噪声。这不仅增加了训练的复杂性（噪声与残差耦合），更导致在推理时需要几十步甚至上百步的迭代（NFE）才能生成清晰图像。

IR-Flow 的核心直觉在于：与其在充满噪声的概率空间里缓慢摸索，不如直接学习从退化分布到清晰分布的直线路径。

模型架构图

核心贡献：三项关键改进

为了实现这种“两点一线”的最优传输，作者提出了三大法宝：

1. 累积速度场 (Cumulative Velocity Field, CVF)

在标准的修正流中，模型预测的是瞬时速度 $v$ 。但在离散采样中，微小的误差会随步数累积导致轨迹偏离。

创新点：CVF 让模型直接预测从当前中间状态 $X_{t}$ 指向终点 $X_{0}$ 的累积位移矢量。
物理解释：这种建模方式在最优传输理论下可减少 2/3 的传输能量（Action），使训练更易收敛。

速度场对比

2. 多级数据分布流

作者构建了人工插值的中间状态，模拟了从轻微退化到严重退化的连续变化。这增强了模型处理 分布外（OOD） 数据的鲁棒性，使其在面对未见过的真实世界天气损伤时表现更稳健。

3. 多步一致性训练 (MCT Loss)

为了让少数步采样的结果依然逼近线性轨迹，作者引入了 MCT 损失。在训练阶段就模拟 2-10 步的 Euler 积分过程，强制要求这些中间点都落在理想的直线上。

实验战绩：速度与画质的双重飞跃

IR-Flow 在去雨（Deraining）、去噪（Denoising）和除雨滴（Raindrop Removal）等任务上表现惊人：

极速推理：在同等画质下，推理耗时仅为 0.07s，而对比方法 RDDM 需要 0.52s，IR-SDE 则需 7.41s。
画质平衡：由于直线路径的设计，IR-Flow 在 PSNR（失真度）和 LPIPS（感知质量）之间找到了极佳的平衡点。

实验结果对比

深度洞察

IR-Flow 的成功不仅在于算力的优化，更在于对 图像恢复本质 的反思。对于很多底层视觉任务而言，我们并不一定需要扩散模型中那种复杂的“随机噪声解耦”过程。退化图像本身就蕴含了丰富的结构信息，通过 Rectified Flow 建立的确定性映射（ODE）其实是一种更高效的先验利用方式。

局限性与未来

尽管 IR-Flow 表现强劲，但在处理完全由于遮盖（Occlusion）导致的极端信息缺失时，仍可能需要文本提示（Textual Guidance）或更强大的语义先验来辅助辅助生成。作者也提到，未来将探索将 IR-Flow 扩展到文本-图像联合学习领域。

总结

IR-Flow 为图像恢复提供了一个优雅的统一框架。它证明了：在 AI 领域，有时候“走直线”确实是通往最优解最快的路径。

本文基于论文《IR-Flow: Bridging Discriminative and Generative Image Restoration via Rectified Flow》解读。

发现相似论文

试试这些示例

查找最近一年内将 Rectified Flow 引入超分辨率或视频恢复任务的其他最新 SOTA 论文。
哪篇论文最早系统性地讨论了图像恢复中的 Perception-Distortion Tradeoff 理论，本文是如何在数学上优化这一平衡的？
调研除了 IR-Flow 之外，还有哪些方法尝试通过消除 Diffusion 过程中的噪声耦合来加速图像增强任务的推理速度？

IR-Flow：修正流技术突破，让图像恢复告别“百步抽样”

1. TL;DR

2. 背景定位：从 SDE 的混沌到 ODE 的简洁

3. 核心贡献：三项关键改进

3.1. 1. 累积速度场 (Cumulative Velocity Field, CVF)

3.2. 2. 多级数据分布流

3.3. 3. 多步一致性训练 (MCT Loss)

4. 实验战绩：速度与画质的双重飞跃

5. 深度洞察

5.1. 局限性与未来

6. 总结