CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

[ArXiv 2026] CLIPO：对比学习重塑 RLVR，大模型推理不再“蒙对答案”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 CLIPO，一种将 Contrastive Learning（对比学习）集成到大语言模型 Policy Optimization 中的新框架。该方法通过在验证奖励强化学习（RLVR）中引入轨迹级对比奖励，显著提升了模型在复杂数学推理和竞赛级任务中的 Generalization 和 Robustness。

TL;DR

来自阿里巴巴 Qwen 团队和中科院的研究者提出了 CLIPO (Contrastive Learning in Policy Optimization)。它通过捕捉正确推理路径之间的“共有逻辑”，解决了传统强化学习（RLVR）中模型为了对答案而产生逻辑幻觉的问题。该方法在不增加额外人工过程标注的情况下，显著提升了 Qwen2.5、Llama3.1 等模型在复杂推理任务上的泛化能力。

痛点深挖：正确的答案，错误的逻辑

在 Reinforcement Learning with Verifiable Rewards (RLVR) 领域，我们通常使用编译器或数学判定器给出 $0$ 或 $1$ 的奖励。这种稀疏且粗粒度的反馈存在一个致命缺陷：如果模型通过错误的逻辑推导出了正确的答案（Process-wrong but Outcome-correct），RL 算法依然会加强这一路径。

这种现象会导致模型陷入“答案记忆”的陷阱，产生推理幻觉（Hallucination）。正如托尔斯泰所说，“幸福的家庭都是相似的，不幸的家庭各有各的不同”，作者认为：正确的推理路径在语义空间中应当是趋同的，而错误的路径则由于各种噪声产生偏差。

核心方法：CLIPO 的技术直觉

CLIPO 的核心在于利用**对比学习（Contrastive Learning）**去挖掘正确路径之间的“不变结构”。

1. 架构设计

作者在 Transformer 骨架之上增加了一个轻量级的投影头（Contrastive Head）。它将每一条推理轨迹生成的 Hidden States 进行 Mean Pooling，映射到一个连续的嵌入空间（Embedding Space）。

CLIPO 框架架构图

2. 损失函数：InfoNCE 与互信息

在每一组（Group）采样中，CLIPO 识别出其中的正确路径（正样本）和错误路径（负样本）。通过 InfoNCE 损失，模型被强制要求：

Align（对齐）：拉近所有正确推理轨迹的间距。
Uniformity（均匀）：将错误轨迹或不相关的逻辑推开。

这种机制本质上是在最大化正样本轨迹间的互信息（Mutual Information），将对比损失转化为一种稠密的辅助奖励（Dense Auxiliary Reward），与原始的二进制结果奖励相加。

实验战绩：全线飘红的性能提升

1. 泛化能力验证

在 Track I（基础推理）中，CLIPO 对比 GRPO 基线展现了显著的提升，尤其是在包含数学扰动的 GSM8K-P2 数据集上，增益达到了惊人的 +3.36%。这证明了模型不是在记题，而是理解了推理过程。

实验结果对比表

2. 竞赛级挑战

在 Track II（复杂数学）中，CLIPO 在 AIME25、AMC 等高难度数据集上同样表现出色。无论基座是 Qwen2.5 还是 Llama3.1，集成 CLIPO 后均能获得稳健的性能增长。

深度洞察：语义流形的显现

通过 t-SNE 可视化（见下回），我们可以直观地看到：在训练初期，正确与错误的轨迹在空间中是混杂的；而经过 CLIPO 训练后，正确推理路径形成了紧密的簇。

t-SNE 嵌入空间可视化

这种分布说明 Contrastive Head 成功构建了一个推理语义流形。流形上的位置不仅代表了答案的正确性，更代表了推理逻辑的相似度。

总结与局限

Takeaway： CLIPO 证明了我们不需要昂贵的 Process Reward Model (PRM) 标注，仅通过自监督的对比学习，就能从模型自身的采样中挖掘出逻辑的一致性。

局限性：

依赖采样多样性：如果一个 Prompt 下模型生成的全部是错误答案（或全是正确答案），对比学习将失去作用。
温度敏感性：实验显示超参数 $a u$ 对结果影响较大，低温度（如 0.02）更有利于捕捉 Hard Negatives。

这篇论文为提升 LLM 的推理鲁棒性提供了一个优雅且高效的视角。欢迎在 GitHub 关注该项目的后续开发。

Find Similar Papers

Try Our Examples

查找最近其他试图通过非人工标注手段生成“过程奖励”（Process Rewards）以优化 LLM 推理能力的论文。
哪篇论文最早在强化学习中结合了对比学习（Contrastive RL），本文提出的轨迹级一致性与之有何差异？
探讨除了数学卓越任务外，是否有研究将 CLIPO 的逻辑一致性思想应用到代码生成（Code Generation）或长程智能体规划（Agent Planning）任务中？

Contents

[ArXiv 2026] CLIPO：对比学习重塑 RLVR，大模型推理不再“蒙对答案”

1. TL;DR

2. 痛点深挖：正确的答案，错误的逻辑

3. 核心方法：CLIPO 的技术直觉

3.1. 1. 架构设计

3.2. 2. 损失函数：InfoNCE 与互信息

4. 实验战绩：全线飘红的性能提升

4.1. 1. 泛化能力验证

4.2. 2. 竞赛级挑战

5. 深度洞察：语义流形的显现

6. 总结与局限