WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[ArXiv 2026] CLIPO:对比学习重塑 RLVR,大模型推理不再“蒙对答案”
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 CLIPO,一种将 Contrastive Learning(对比学习)集成到大语言模型 Policy Optimization 中的新框架。该方法通过在验证奖励强化学习(RLVR)中引入轨迹级对比奖励,显著提升了模型在复杂数学推理和竞赛级任务中的 Generalization 和 Robustness。

TL;DR

来自阿里巴巴 Qwen 团队和中科院的研究者提出了 CLIPO (Contrastive Learning in Policy Optimization)。它通过捕捉正确推理路径之间的“共有逻辑”,解决了传统强化学习(RLVR)中模型为了对答案而产生逻辑幻觉的问题。该方法在不增加额外人工过程标注的情况下,显著提升了 Qwen2.5、Llama3.1 等模型在复杂推理任务上的泛化能力。


痛点深挖:正确的答案,错误的逻辑

在 Reinforcement Learning with Verifiable Rewards (RLVR) 领域,我们通常使用编译器或数学判定器给出 的奖励。这种稀疏且粗粒度的反馈存在一个致命缺陷:如果模型通过错误的逻辑推导出了正确的答案(Process-wrong but Outcome-correct),RL 算法依然会加强这一路径。

这种现象会导致模型陷入“答案记忆”的陷阱,产生推理幻觉(Hallucination)。正如托尔斯泰所说,“幸福的家庭都是相似的,不幸的家庭各有各的不同”,作者认为:正确的推理路径在语义空间中应当是趋同的,而错误的路径则由于各种噪声产生偏差。


核心方法:CLIPO 的技术直觉

CLIPO 的核心在于利用**对比学习(Contrastive Learning)**去挖掘正确路径之间的“不变结构”。

1. 架构设计

作者在 Transformer 骨架之上增加了一个轻量级的投影头(Contrastive Head)。它将每一条推理轨迹生成的 Hidden States 进行 Mean Pooling,映射到一个连续的嵌入空间(Embedding Space)。

CLIPO 框架架构图

2. 损失函数:InfoNCE 与互信息

在每一组(Group)采样中,CLIPO 识别出其中的正确路径(正样本)和错误路径(负样本)。通过 InfoNCE 损失,模型被强制要求:

  • Align(对齐):拉近所有正确推理轨迹的间距。
  • Uniformity(均匀):将错误轨迹或不相关的逻辑推开。

这种机制本质上是在最大化正样本轨迹间的互信息(Mutual Information),将对比损失转化为一种稠密的辅助奖励(Dense Auxiliary Reward),与原始的二进制结果奖励相加。


实验战绩:全线飘红的性能提升

1. 泛化能力验证

在 Track I(基础推理)中,CLIPO 对比 GRPO 基线展现了显著的提升,尤其是在包含数学扰动的 GSM8K-P2 数据集上,增益达到了惊人的 +3.36%。这证明了模型不是在记题,而是理解了推理过程。

实验结果对比表

2. 竞赛级挑战

在 Track II(复杂数学)中,CLIPO 在 AIME25、AMC 等高难度数据集上同样表现出色。无论基座是 Qwen2.5 还是 Llama3.1,集成 CLIPO 后均能获得稳健的性能增长。


深度洞察:语义流形的显现

通过 t-SNE 可视化(见下回),我们可以直观地看到:在训练初期,正确与错误的轨迹在空间中是混杂的;而经过 CLIPO 训练后,正确推理路径形成了紧密的簇

t-SNE 嵌入空间可视化

这种分布说明 Contrastive Head 成功构建了一个推理语义流形。流形上的位置不仅代表了答案的正确性,更代表了推理逻辑的相似度。


总结与局限

Takeaway: CLIPO 证明了我们不需要昂贵的 Process Reward Model (PRM) 标注,仅通过自监督的对比学习,就能从模型自身的采样中挖掘出逻辑的一致性。

局限性

  • 依赖采样多样性:如果一个 Prompt 下模型生成的全部是错误答案(或全是正确答案),对比学习将失去作用。
  • 温度敏感性:实验显示超参数 对结果影响较大,低温度(如 0.02)更有利于捕捉 Hard Negatives。

这篇论文为提升 LLM 的推理鲁棒性提供了一个优雅且高效的视角。欢迎在 GitHub 关注该项目的后续开发。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图通过非人工标注手段生成“过程奖励”(Process Rewards)以优化 LLM 推理能力的论文。
  • 哪篇论文最早在强化学习中结合了对比学习(Contrastive RL),本文提出的轨迹级一致性与之有何差异?
  • 探讨除了数学卓越任务外,是否有研究将 CLIPO 的逻辑一致性思想应用到代码生成(Code Generation)或长程智能体规划(Agent Planning)任务中?
Contents
[ArXiv 2026] CLIPO:对比学习重塑 RLVR,大模型推理不再“蒙对答案”
1. TL;DR
2. 痛点深挖:正确的答案,错误的逻辑
3. 核心方法:CLIPO 的技术直觉
3.1. 1. 架构设计
3.2. 2. 损失函数:InfoNCE 与互信息
4. 实验战绩:全线飘红的性能提升
4.1. 1. 泛化能力验证
4.2. 2. 竞赛级挑战
5. 深度洞察:语义流形的显现
6. 总结与局限