ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

[CVPR 2026] ImageEdit-R1: 强化学习驱动的多智能体协作，重塑复杂图像编辑范式

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 ImageEdit-R1，一个基于多智能体协作和强化学习（RL）的图像编辑框架。该框架将复杂的编辑指令分解为结构化步骤，通过引入 Group Relative Policy Optimization (GRPO) 优化分解智能体，在 FLUX.1 和 Qwen-Image-Edit 等多个 SOTA 模型上实现了显著的性能提升。

TL;DR

图像编辑正从“一句话生成”走向“逻辑化推理”。ImageEdit-R1 并非通过微调底层的生成模型，而是通过强化学习（RL）训练一个聪明的“指挥官”（分解智能体），将用户的模糊意图转化为精准的执行步骤。该方法在 FLUX.1 等模型上实现了超过 1.0 分的性能跨越，甚至在复杂任务中击败了 GPT-4o。

1. 痛点：为什么 AI 总是听不懂你的复杂要求？

尽管像 FLUX 或 DALL-E 3 这样的模型在视觉效果上极其惊艳，但在面对类似“把她外套和头发的颜色改成猩红或紫铜色，并稍微模糊橙色气球背景”这种混合多个主体、多种动作的需求时，往往会顾此失彼。

现有方法的局限性：

语义弥散 (Semantic Diffusion)：模型在处理长句时，难以将动作（Recoloring）与特定主体（Coat, Hair）精准对应。
缺乏逻辑规划：直接将全量文本塞给 Diffusion Model 容易导致生成过程中的互相干扰（Interference）。
闭源黑盒：用户无法干预或理解模型为何在某一步出错。

2. 核心机制：ImageEdit-R1 的三阶管线

作者将图像编辑解构成了一个“决策-规划-执行”的经典智能体协作流程：

分解智能体 (Decomposition Agent)：利用 VLM（如 Qwen2.5-VL）分析图像和指令，提取出 (Actions, Subjects, Goals) 结构化三元组。
排序智能体 (Sequencing Agent)：将三元组转化为逻辑连贯的子任务序列。
编辑智能体 (Editing Agent)：基于扩散模型，根据精炼后的子任务执行最终的像素修改。

模型架构图

3. 强化学习：给分解器装上“大脑”

这是本文最硬核的部分。为了让分解智能体不再产生幻觉，作者引入了 GRPO (Group Relative Policy Optimization) 进行对齐。

奖励函数 (Reward Functions) 的精妙设计

格式奖励 (Format Reward)：强制模型使用 <think> 标签展示思考过程，并输出标准的结构化 XML 格式。
语义奖励 (F1-based Reward)：通过计算预测的 Action/Subject/Goal 与 Ground Truth 之间的 F1 分数，而非机械的 Exact Match，赋予模型一定的语义灵活性。

实验发现，Goal-Conditioning（目标感知能力） 是关键。加入目标引导后的奖励机制，显著提升了模型在复杂场景下的 Context-Aware 能力。

强化学习训练曲线

4. 实验战绩：不改参数，也能变强

ImageEdit-R1 展示了一种极具性价比的方案：底层的编辑模型保持不动，仅优化前端智能体。

| 模型 (Edit Model) | 原始得分 (Original) | ImageEdit-R1 得分 | 提升幅度 | | :--- | :---: | :---: | :---: | | FLUX.1-Kontext-dev | 7.21 | 8.23 | +1.02 | | Qwen-Image-Edit | 8.39 | 8.85 | +0.46 | | Nano Banana | 8.32 | 8.66 | +0.34 |

深度洞察：单轮 (Single-turn) 胜过多轮 (Multi-turn) 有趣的是，作者发现将所有子任务合并在一次推理中完成（Single-turn），比分多次请求编辑模型效果更好。这揭示了当前扩散模型的一个短板：复合错误 (Compounding Errors)。多次编辑会由于缺乏全局上下文（Global Context），导致图像质量在每一轮逐步降级。

实验结果对比

5. 局限性与展望

尽管 ImageEdit-R1 表现出色，但它依然依赖于高质量的 RL 训练数据集。此外，如何在保持 Single-turn 高质量生成的同时，处理超长序列（超过 5 步）的编辑需求，仍是未来的挑战。

总结下这篇论文的 Takeaway： 未来的多模态生成不再取决于谁的算力更强，而取决于谁的 Agentic Thinking 更深刻。通过强化学习让 LLM 学会“谋定而后动”，是通往通用图像编辑器的必经之路。

Find Similar Papers

Try Our Examples

查找最近其他将强化学习（Reinforcement Learning）应用于多模态智能体任务规划或指令分解的相关论文。
哪篇论文最早提出了 Group Relative Policy Optimization (GRPO) 算法，本文在奖励函数设计上如何对其进行了针对多模态领域的适配？
有哪些研究探讨了在图像编辑过程中，“单轮整体生成”与“多轮序列执行”对长序列任务连贯性的具体影响？

Contents

[CVPR 2026] ImageEdit-R1: 强化学习驱动的多智能体协作，重塑复杂图像编辑范式

1. TL;DR

2. 1. 痛点：为什么 AI 总是听不懂你的复杂要求？

3. 2. 核心机制：ImageEdit-R1 的三阶管线

4. 3. 强化学习：给分解器装上“大脑”

4.1. 奖励函数 (Reward Functions) 的精妙设计

5. 4. 实验战绩：不改参数，也能变强

6. 5. 局限性与展望