WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
HP-Edit:让 AI 图像编辑读懂人类审美,基于 GRPO 的后训练对齐新范式
总结
问题
方法
结果
要点
摘要

本文提出了 HP-Edit,一个针对图像编辑任务的人类偏好对齐后训练框架。通过引入任务感知的 HP-Scorer、高质量数据集 RealPref-50K 以及在线强化学习算法 Flow-GRPO,该方法在保持编辑准确性的同时,显著提升了生成图像的视觉审美与真实感。

TL;DR

华为诺亚方舟实验室及其合作团队推出了 HP-Edit,这是首个专门为图像编辑任务设计的“人类偏好对齐”后训练框架。通过自动化评分器(HP-Scorer)和精准的数据集过滤,它成功利用强化学习(Flow-GRPO)让图像编辑模型(如 Qwen-Image-Edit)在保持编辑准确度的同时,显著提升了图像的艺术性和自然度。

背景:为什么 SFT 过后的编辑模型还是“不够好”?

在图像编辑领域,虽然目前的扩散模型(Diffusion Models)已经能通过有监督微调(SFT)完成增、删、改等基础任务,但开发者常常发现:

  1. 审美断层:SFT 使用的数据集包含大量卡通或质量良莠不齐的合成图,模型虽然学会了“改图”,但改出来的图像往往光影不自然或充满 AI 塑料感。
  2. 对齐难题:要让模型完全符合人类对“美”和“自然”的定义,需要大量人类标注的偏好数据(Pairwise Data),成本高昂且难以规模化。

HP-Edit 的核心直觉在于:与其教模型“怎么改”,不如提供一个懂审美的“裁判”,让模型在反复的自我尝试中学会“怎么改才好看”。

核心架构:三位一体的 HP-Edit 框架

模型架构图

1. 任务感知的 HP-Scorer (智能裁判)

作者利用预训练的视觉大模型(VLM)构建了 HP-Scorer。其独特之处在于针对不同的编辑子任务(如:物体替换、背景虚化、调光)设计了专门的推理 Prompt。例如在“物体交换”任务中,它不仅看物体变没变,还会问:“原物体是否被完全遮盖?”“新物体与环境的光影是否统一?”

2. RealPref-50K:聚焦“困难案例”

作者提出了一个关键的发现:如果数据集里全是模型已经能处理很好的简单任务(5 分样本),强化学习就学不到东西。因此,他们利用 HP-Scorer 对 5 万条真实世界数据进行筛选,剔除高分样本,专门留着模型做不好的“硬骨头”进行 RL 训练,极大提升了训练效率。

3. Flow-GRPO:在线强化学习

为了将传统的 Flow Matching 模型(确定性过程)应用到强化学习中,作者采用了 Flow-GRPO

  • 数学直觉:通过将分步推理看作一个马尔可夫决策过程(MDP),引入随机扰动(SDE 形式),让模型在同一指令下生成多个候选结果。
  • 组对齐:通过计算组内图像的相对奖励(Advantage),奖励那些表现优于平均水平的动作,让模型向高分方向进化。

实验战绩:全线 SOTA

在涵盖 8 大常见编辑任务(添加、删除、更换背景、物体交换、颜色修改、背景虚化、重照明、风格迁移)的 RealPref-Bench 上,HP-Edit 展示了压制性的实力:

实验结果对比

  • 量化提升:各分项评分均有提升值,总体 HP-Score 从 4.472 提升至 4.667。
  • 画质跃迁:从消融实验看(如下图 reward 曲线),带有 HP-Scorer 指导的训练(绿色曲线)具有最稳定的收益增长,证明了精准奖励函数的必要性。

Reward 曲线

总结与局限

HP-Edit 证明了 VLM 驱动的自动化评估 + 针对性奖励模型 + 强化学习 路径在视觉任务中的强大生命力。它不仅解决了数据标注难的问题,更为图像编辑引入了宝贵的“审美直觉”。

局限性: 模型目前在处理中英混合文本编辑(如将图中文字从英文改为中文)时仍力有不逮,这反映了基础模型(Base Model)本身在跨语言多模态处理上的短板,也是后续研究的重点方向。


本文由资深学术技术主编重构。HP-Edit 展现了从“有监督微调”向“人类偏好对齐”转型的行业大趋势。

发现相似论文

试试这些示例

  • 查找最近其他将 Group Relative Policy Optimization (GRPO) 应用于扩散模型或流匹配模型对齐的研究论文。
  • 哪篇论文最早提出了 Flow Matching 架构,本文提到的 Flow-GRPO 是如何在数学上将确定性 ODE 转换为可用于 RL 的 SDE 的?
  • 探索是否有研究使用类似 HP-Scorer 的 VLM 自动评估机制来解决视频编辑中的人类偏好对齐问题?
目录
HP-Edit:让 AI 图像编辑读懂人类审美,基于 GRPO 的后训练对齐新范式
1. TL;DR
2. 背景:为什么 SFT 过后的编辑模型还是“不够好”?
3. 核心架构:三位一体的 HP-Edit 框架
3.1. 1. 任务感知的 HP-Scorer (智能裁判)
3.2. 2. RealPref-50K:聚焦“困难案例”
3.3. 3. Flow-GRPO:在线强化学习
4. 实验战绩:全线 SOTA
5. 总结与局限