RIRF: Reasoning Image Restoration Framework

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

RIRF: Reasoning Image Restoration Framework

[2026] Reason and Restore：开启图像修复的“推理”时代

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Reason and Restore (R&R) 框架，一种将结构化思维链（Chain-of-Thought, CoT）推理引入通用图像修复（UIR）的新方法。该框架通过微调 Qwen3-VL 实现显式降质诊断，并结合强化学习（RL）优化，在 OTS 和 RESIDE 基準测试中达到了 SOTA 性能。

TL;DR

传统的图像修复（Image Restoration）往往是“直觉式”的：给一张破损图片，模型直接生成清晰图片。而本文提出的 Reason and Restore (R&R) 框架模仿人类，引入了思维链（Chain-of-Thought）：先“诊断”图片里有什么（雾气多浓？模糊角度是多少？场景里是街道还是森林？），再根据诊断书进行精准“手术”。这一转变让修复效果在处理混合降质时达到了 SOTA 水平。

1. 痛点：为什么“直接修复”在真实世界会失效？

在实验室环境下，我们习惯于处理单一降质（如只去噪或只去雾）。但在真实的自动驾驶或户外监控中，降质往往是组合拳：

下雨天通常伴随着雾气（雨雾耦合）。
夜晚行车会出现运动模糊和高感光度噪声。

现有的方法（如 Prompt-based IR 或传统的 CNN 方案）大多缺乏对这些混合因素的本质理解。它们要么需要用户手动指定降质类型，要么在全自动处理时因为分不清“什么是降质、什么是物体纹理”而导致画面崩坏。

2. 核心直觉：先思考，再行动 (Reason-before-Restore)

作者认为，修复模型需要一个显式的诊断书。R&R 框架将修复过程拆解为两个阶段：

第一阶段：结构化诊断 (Reason Phase)

通过微调 Qwen3-VL，模型不再是简单地写一段话描述图片，而是输出一份四维度的“体检报告”：

成分识别：是否有雾、模糊、雨滴、噪声？
严重程度评分：0-100 分量化降质强度。
物理参数预测：大气光值、透射率、模糊核参数（对应物理模型）。
语义描述：还原被降质遮挡的物体（如：这是一条有建筑的城市街道）。

模型架构图 图 1：R&R 框架流程。先通过思考阶段生成诊断先验，再引导修复阶段。

第二阶段：引导式修复 (Restore Phase)

修复模型（基于 Qwen-Image-Edit）接收原始图片和上述“诊断书”。有了这些细粒度的先验，模型就能在“手术”中做到有的放矢：在雾浓的地方加强去雾，在噪声大的地方保留结构平滑细节。

3. 技术突破：用强化学习 (RL) 锚定诊断结果

如何保证修复模型真的听从了诊断建议？作者引入了 GRPO（组相对策略优化）。

其核心逻辑非常巧妙：

奖励（Reward）设计：如果修复后的图片再次交给诊断模型，诊断出的“降质严重程度”大幅下降，则给予模型正向奖励。
闭环学习：这使得模型不仅要在像素级逼近 Ground-Truth（通过 MSE 损失），还要在逻辑级符合诊断书的预期（通过 RL 奖励）。

强化学习流程 图 2：基于严重程度降低（Severity Reduction）的强化学习优化。

4. 实验战绩：多场景完美通关

实验在合成数据集（OTS, RESIDE）和 700 多张真实的户外图像上进行。

| 方法 | OTS (PSNR) | RESIDE (PSNR) | | :--- | :--- | :--- | | 传统三阶段 (3D) | 13.07 | 13.93 | | Stable Diffusion 3 | 18.85 | 15.49 | | R&R (Ours) | 19.56 | 17.00 |

从指标上看，R&R 在各项数据上保持领先。更惊艳的是在真实场景的可视化表现：即使是在极端雾天和复杂噪声干扰下，R&R 修复后的图像依然能保持物体的边缘轮廓和自然色彩，没有出现扩散模型常见的“幻觉”现象（即生成一些原图中不存在的物体）。

实验结果对比 图 3：真实世界测试集对比，R&R 在结构稳定性上表现优异。

5. 深度洞察与总结

R&R 框架的成功，实际上标志着通用底层视觉（Low-level Vision）正在告别单纯的黑盒拟合。

可解释性：当修复失败时，我们可以检查“诊断书”，看是模型分错了降质类型还是低估了严峻性。
耦合架构：不同于以往将 VLM 仅作为工具调度的“外挂式”方案，R&R 实现了语义推理与像素生成的高效内生耦合。

尽管目前该框架可能在推理延迟上（由于引入了 VLM 思维链）比传统轻量级网络稍高，但对于安全敏感型任务（如自动驾驶）而言，这种“三思而后行”带来的鲁棒性提升无疑是巨大的。

Find Similar Papers

Try Our Examples

查找最近其他利用多模态大模型（MLLM）作为智能体（Agent）来调度图像修复工具的研究论文。
哪篇论文最早在底层视觉任务中引入了思维链（Chain-of-Thought）推理，本文的结构化诊断与之有何改进？
探索如何将基于 GRPO 的强化学习框架应用到视频修复或超分辨率任务中以提升时空一致性。

Contents

[2026] Reason and Restore：开启图像修复的“推理”时代

1. TL;DR

2. 1. 痛点：为什么“直接修复”在真实世界会失效？

3. 2. 核心直觉：先思考，再行动 (Reason-before-Restore)

3.1. 第一阶段：结构化诊断 (Reason Phase)

3.2. 第二阶段：引导式修复 (Restore Phase)

4. 3. 技术突破：用强化学习 (RL) 锚定诊断结果

5. 4. 实验战绩：多场景完美通关

6. 5. 深度洞察与总结