HP-Edit: A Human-Preference Post-Training Framework for Image Editing

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

HP-Edit：让 AI 图像编辑读懂人类审美，基于 GRPO 的后训练对齐新范式

总结

问题

方法

结果

要点

摘要

本文提出了 HP-Edit，一个针对图像编辑任务的人类偏好对齐后训练框架。通过引入任务感知的 HP-Scorer、高质量数据集 RealPref-50K 以及在线强化学习算法 Flow-GRPO，该方法在保持编辑准确性的同时，显著提升了生成图像的视觉审美与真实感。

TL;DR

华为诺亚方舟实验室及其合作团队推出了 HP-Edit，这是首个专门为图像编辑任务设计的“人类偏好对齐”后训练框架。通过自动化评分器（HP-Scorer）和精准的数据集过滤，它成功利用强化学习（Flow-GRPO）让图像编辑模型（如 Qwen-Image-Edit）在保持编辑准确度的同时，显著提升了图像的艺术性和自然度。

背景：为什么 SFT 过后的编辑模型还是“不够好”？

在图像编辑领域，虽然目前的扩散模型（Diffusion Models）已经能通过有监督微调（SFT）完成增、删、改等基础任务，但开发者常常发现：

审美断层：SFT 使用的数据集包含大量卡通或质量良莠不齐的合成图，模型虽然学会了“改图”，但改出来的图像往往光影不自然或充满 AI 塑料感。
对齐难题：要让模型完全符合人类对“美”和“自然”的定义，需要大量人类标注的偏好数据（Pairwise Data），成本高昂且难以规模化。

HP-Edit 的核心直觉在于：与其教模型“怎么改”，不如提供一个懂审美的“裁判”，让模型在反复的自我尝试中学会“怎么改才好看”。

核心架构：三位一体的 HP-Edit 框架

模型架构图

1. 任务感知的 HP-Scorer (智能裁判)

作者利用预训练的视觉大模型（VLM）构建了 HP-Scorer。其独特之处在于针对不同的编辑子任务（如：物体替换、背景虚化、调光）设计了专门的推理 Prompt。例如在“物体交换”任务中，它不仅看物体变没变，还会问：“原物体是否被完全遮盖？”“新物体与环境的光影是否统一？”

2. RealPref-50K：聚焦“困难案例”

作者提出了一个关键的发现：如果数据集里全是模型已经能处理很好的简单任务（5 分样本），强化学习就学不到东西。因此，他们利用 HP-Scorer 对 5 万条真实世界数据进行筛选，剔除高分样本，专门留着模型做不好的“硬骨头”进行 RL 训练，极大提升了训练效率。

3. Flow-GRPO：在线强化学习

为了将传统的 Flow Matching 模型（确定性过程）应用到强化学习中，作者采用了 Flow-GRPO。

数学直觉：通过将分步推理看作一个马尔可夫决策过程（MDP），引入随机扰动（SDE 形式），让模型在同一指令下生成多个候选结果。
组对齐：通过计算组内图像的相对奖励（Advantage），奖励那些表现优于平均水平的动作，让模型向高分方向进化。

实验战绩：全线 SOTA

在涵盖 8 大常见编辑任务（添加、删除、更换背景、物体交换、颜色修改、背景虚化、重照明、风格迁移）的 RealPref-Bench 上，HP-Edit 展示了压制性的实力：

实验结果对比

量化提升：各分项评分均有提升值，总体 HP-Score 从 4.472 提升至 4.667。
画质跃迁：从消融实验看（如下图 reward 曲线），带有 HP-Scorer 指导的训练（绿色曲线）具有最稳定的收益增长，证明了精准奖励函数的必要性。

Reward 曲线

总结与局限

HP-Edit 证明了 VLM 驱动的自动化评估 + 针对性奖励模型 + 强化学习 路径在视觉任务中的强大生命力。它不仅解决了数据标注难的问题，更为图像编辑引入了宝贵的“审美直觉”。

局限性： 模型目前在处理中英混合文本编辑（如将图中文字从英文改为中文）时仍力有不逮，这反映了基础模型（Base Model）本身在跨语言多模态处理上的短板，也是后续研究的重点方向。

本文由资深学术技术主编重构。HP-Edit 展现了从“有监督微调”向“人类偏好对齐”转型的行业大趋势。

发现相似论文

试试这些示例

查找最近其他将 Group Relative Policy Optimization (GRPO) 应用于扩散模型或流匹配模型对齐的研究论文。
哪篇论文最早提出了 Flow Matching 架构，本文提到的 Flow-GRPO 是如何在数学上将确定性 ODE 转换为可用于 RL 的 SDE 的？
探索是否有研究使用类似 HP-Scorer 的 VLM 自动评估机制来解决视频编辑中的人类偏好对齐问题？

HP-Edit：让 AI 图像编辑读懂人类审美，基于 GRPO 的后训练对齐新范式

1. TL;DR

2. 背景：为什么 SFT 过后的编辑模型还是“不够好”？

3. 核心架构：三位一体的 HP-Edit 框架

3.1. 1. 任务感知的 HP-Scorer (智能裁判)

3.2. 2. RealPref-50K：聚焦“困难案例”

3.3. 3. Flow-GRPO：在线强化学习

4. 实验战绩：全线 SOTA

5. 总结与局限