UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

[CVPR 2026] UniGRPO：统一强化学习，让视觉生成也拥有“深度思考”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 UniGRPO，这是一个统一的强化学习框架，旨在通过联合优化自回归（AR）文本生成和流匹配（Flow Matching）视觉生成，提升推理驱动的多模态交错生成质量。该方法在 Bagel 模型基础上实现了 SOTA 的文字-图像对齐效果，并在 GenEval 榜单上达到 0.90 的高分。

TL;DR

字节跳动与香港中文大学联合推出来的 UniGRPO，首次实现了将语言模型的“链式思考”（CoT）与流匹配（Flow Matching）视觉生成过程在同一个强化学习（RL）框架下进行端到端优化。通过将生成过程建模为统一的高效 MDP，模型不仅生成的图像更漂亮，更重要的是，它能通过“思考”准确理解复杂的空间和属性指令，在 GenEval 榜单上刷出了 0.90 的顶级战绩。

背景定位：多模态后训练的新坐标

当前 AI 社区正逐渐收敛到一种架构共识：用自回归（AR）模型处理文本，用流匹配（Flow Matching）处理图像。然而，如何让这两者真正“心往一处想”？ UniGRPO 的出现，填补了这一空白。它不像以前的工作那样将逻辑推理（Text）和像素合成（Image）拆开练，而是通过 Group Relative Policy Optimization (GRPO) 算法，根据最终的图像质量反馈，强制模型在生成图像前“想清楚”该画什么。

痛点深挖：为什么以前的 RL 练不好图文生成？

奖励欺骗 (Reward Hacking)：在扩散或流模型中，稍微过度优化就会导致色彩过饱和或出现诡异的网格伪影。
CFG 的计算灾难：为了效果，推理通常需要 Classifier-Free Guidance，但 RL 训练时的多次分支采样会让显存直接爆炸，难以扩展到多轮对话。
模态断层：SFT 后的模型虽然会写 <think>，但它的思考内容往往跟后面画的图没啥关系。

UniGRPO 核心方法论：极简而有力

UniGRPO 采用了“简约而不简单”的设计哲学，将 Prompt -> Thinking -> Image 统一为一个 MDP。为了解决上述痛点，作者提出了两个关键的技术改造：

1. 速度场正则化 (Velocity-Based Regularization)

传统的 KL 散度在流模型中由于时间步噪声不均，容易留下“漏洞”让模型钻空子（即 Reward Hacking）。UniGRPO 创新地在 速度场 (Velocity Fields) 上直接施加 MSE 惩罚：

L_MSE = || v_θ(x_t, t, y) - v_ref(x_t, t, y) ||²

这种方法在所有噪声水平上提供了均匀的约束，实验证明它能有效抑制伪影，让图像保持 photorealistic。

2. 彻底摆脱 CFG

为了工程化扩展，UniGRPO 在训练阶段完全去掉了 CFG。模型架构与 UniGRPO 流程图 图 1：UniGRPO 概览。通过统一 MDP 联合优化离散语言动作和连续视觉动作。

这样做的好处是生成过程变成了线性的、无分支的（Unbranched），极大降低了计算开销。神奇的是，因为 RL 显式优化了对齐奖励，模型在不开启 CFG 的情况下，对齐能力反而比开启 CFG 的基线更强。

实验与战绩

作者在 Bagel 模型上进行了验证。在包含 150 个复杂多样提示词的 TA Benchmark 上，UniGRPO 显著超越了 ReFL 和 DPO 等强基线。

| 方法 | Thinking | TA Score (对齐) | GenEval (综合) | | :--- | :--- | :--- | :--- | | Bagel Basline | ✓ | 0.7132 | 0.79 | | SFT 增强版 | ✓ | 0.7769 | 0.82 | | UniGRPO (Ours) | ✓ | 0.8381 | 0.90 |

实验结果可视化 图 2：UniGRPO 生成示例。即便面对“三座领奖台不同高度和数字”这种高难度逻辑，也能精准复现。

推理链的进化

通过对比可以发现，SFT 模型的推理往往是“废话”，而 UniGRPO 训练后的推理过程变得非常任务导向。例如在处理“六个杯子俯视图”时，模型会先在 <think> 里明确指出“目标是展示六个陶瓷杯，整齐分布在两行三列”，然后在图像生成阶段严格执行这一逻辑。

深度洞察：为什么这很重要？

UniGRPO 告诉我们：视觉模型不需要 CFG 这种“补丁”技术也可以画得很好，前提是你有足够大、足够稳的 RL 框架。同时，它证明了 LLM 的推理能力可以被“泵入”到像素级生成中。

局限性与展望

文章客观提到，目前的奖励仍然是终端稀疏奖励（只看最后出的图好不好）。这可能导致“歪打正着”的情况——推理错了但图画对了。未来的研究方向将引入 多模态过程奖励模型 (PRM)，对每一段“思考”进行打分，这将进一步提升推理的合规性和模型的可靠性。

总结：UniGRPO 为多模态模型的 Post-training 指明了方向：不要分别优化，要通过一个统一的 MDP 让语言和视觉在 RL 的洪流中共同进化。

Find Similar Papers

Try Our Examples

查找最近其他尝试将 Group Relative Policy Optimization (GRPO) 应用于图像或视频生成领域的论文。
哪篇论文最早提出了 FlowGRPO 框架，UniGRPO 在其随机过程公式（SDE Formulation）上做了哪些具体改进？
有哪些研究探讨了在多模态大模型（MLLM）中通过过程奖励模型（PRM）而非终端奖励来优化推理链的有效性？

Contents

[CVPR 2026] UniGRPO：统一强化学习，让视觉生成也拥有“深度思考”

1. TL;DR

2. 背景定位：多模态后训练的新坐标

3. 痛点深挖：为什么以前的 RL 练不好图文生成？

4. UniGRPO 核心方法论：极简而有力

4.1. 1. 速度场正则化 (Velocity-Based Regularization)

4.2. 2. 彻底摆脱 CFG

5. 实验与战绩

5.1. 推理链的进化

6. 深度洞察：为什么这很重要？

7. 局限性与展望