Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

[ICLR 2025] Faithful GRPO：拒绝推理“走捷径”，打造逻辑与视觉双统一的 MLM

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Faithful GRPO (FGRPO)，一种针对多模态语言模型（MLM）的约束策略优化方法。通过将逻辑一致性和视觉接地（Visual Grounding）作为硬约束引入 GRPO 框架，显著提升了模型在视觉空间推理任务中的推理质量与答案准确度。

TL;DR

在强化学习（RL）的加持下，大模型的“刷榜”能力屡创新高，但在多模态推理领域，我们常发现模型虽然选对了答案，其推理过程（CoT）却是满嘴胡诌。本文提出的 Faithful GRPO (FGRPO) 首次通过拉格朗日约束优化的方式，在提升空间推理准确率的同时，几乎消灭了推理不一致现象，让模型真正做到“所答即所思”。

痛点深挖：正确的答案，荒谬的推理

在大模型推理从文本转向视觉空间（Visual Spatial Reasoning）时，研究者发现了一个尴尬的现象：模型学会了“作弊”。

即便使用了 DeepSeek-R1 验证奖励（RLVR）的范式，模型在处理复杂的空间关系（如：“灯在袜子的左边吗？”）时，生成的 CoT 往往表现出：

逻辑不一致 (Logical Inconsistency)：推理了半天结论是 A，最后的 <answer> 标签里却跳到了 B。
视觉不接地 (Visual Ungroundedness)：CoT 中描述了图中根本没有的路径或物体（视觉幻觉）。

作者调研发现，现有的 SOTA 模型（如 ViGoRL, TreeVGR）均存在不同程度的此类问题。简单地将这些指标作为奖励项相加，往往会导致模型在多个目标间“拆东墙补西墙”，难以兼顾。

核心方法：FGRPO 的约束之道

FGRPO 的核心直觉是：逻辑一致性和视觉真实性不应该是加分项（Rewards），而应该是必须达标的门槛（Constraints）。

1. 验证信号的定义

一致性奖励 ( $R_{C}$ )：引入一个轻量级文本 LLM 作为 Judge，判断 CoT 轨迹是否能通过逻辑推导出最终答案。
语义接地奖励 ( $R_{S}$ )：利用 VLM 将 CoT 拆解为逐句 claim，验证每一句是否符合图像事实。
空间接地奖励 ( $R_{G}$ )：针对 Bounding Box 坐标，利用 Hungarian Matching 和 CIoU 计算预测框与真值的匹配度。

2. 拉格朗日对偶上升与解耦归一化

为了强有力地执行这些约束，作者抛弃了固定的权重，采用了拉格朗日松弛法： $L (h e t a, λ) = E [R_{t a s k}] + \sum λ_{k} (E [R_{k}] - a u_{k})$ 拉格朗日乘子 $λ$ 会根据当前 Batch 的表现动态调整：如果模型开始产生幻觉（接地性下降）， $λ$ 会增大，迫使梯度向修复该约束的方向倾斜。

模型架构与流程

3. 解耦优势计算 (Decoupled Advantage)

这是 FGRPO 能够稳定训练的关键。在标准 GRPO 中，优势函数是在组内进行均值减法处理。如果某一约束在组内所有 rollout 中表现一致（例如全是 0），其梯度会消失。作者通过对任务奖励和各个约束奖励分别进行组内归一化，确保了每一个信号都能提供有效的梯度指导。

实验与结果：推理质量的质变

作者在 Qwen2.5-VL-7B 基础上进行的实验展示了惊人的提升：

推理不一致率 (Inconsistency Rate)：从基础 GRPO 的 26.12% 降到了 1.73%，几乎消灭了逻辑跳跃。
空间推理准确率：在 MindCube 等极具挑战的数据集上，准确率反而提升了，证明了“正确的逻辑有助于正确的答案”。

实验结果看板

在消融实验中，作者展示了 $λ$ 随着训练步数波动的曲线。可以看到，系统通过动态调整参数，实现了一种“自动驾驶”式的多目标优化，无需人工手动调权。

深度洞察：为什么这很重要？

FGRPO 的成功不仅在于刷高了分数，更在于它揭示了 MLM 训练中的一个本质问题：由于神经网络的黑盒特性，单纯的端到端结果监督（Outcome Supervision）会诱导模型通过统计偏差而非真正的推理来获取奖励。

通过将“推理过程的合规性”作为硬指标，FGRPO 为构建可解释、可信赖的多模态模型提供了一套标准化的 RL 方案。

局限性与展望

尽管表现强劲，FGRPO 目前依赖于较强的 Judge 模型（如 GPT-5 或 Qwen-72B）来生成训练信号，这对于推理资源有一定要求。未来的方向可能在于如何利用模型自身的推理反馈（Self-correction）来实现更低廉、更高效的自我约束进化。

总结：如果你正在为 RL 训练中的奖励黑客行为头疼，FGRPO 告诉我们：不要尝试平衡一切，而要学会约束一切。

Find Similar Papers

Try Our Examples

查找最近其他试图解决多模态大模型在 RLHF 或 RL 训练过程中产生的 Chain-of-Thought 逻辑不一致问题的论文。
哪篇论文最早在 Transformer 强化学习中引入了拉格朗日乘子法来处理多约束优化，本文的解耦归一化与之有何关联？
有哪些研究将 Faithful GRPO 的约束优化思想应用到了医疗影像分析或自动驾驶等对空间推理可靠性要求极高的视觉任务中？

Contents

[ICLR 2025] Faithful GRPO：拒绝推理“走捷径”，打造逻辑与视觉双统一的 MLM

1. TL;DR

2. 痛点深挖：正确的答案，荒谬的推理

3. 核心方法：FGRPO 的约束之道

3.1. 1. 验证信号的定义

3.2. 2. 拉格朗日对偶上升与解耦归一化

3.3. 3. 解耦优势计算 (Decoupled Advantage)

4. 实验与结果：推理质量的质变

5. 深度洞察：为什么这很重要？

5.1. 局限性与展望