本文提出了 CLIPO,一种将 Contrastive Learning(对比学习)集成到大语言模型 Policy Optimization 中的新框架。该方法通过在验证奖励强化学习(RLVR)中引入轨迹级对比奖励,显著提升了模型在复杂数学推理和竞赛级任务中的 Generalization 和 Robustness。
TL;DR
来自阿里巴巴 Qwen 团队和中科院的研究者提出了 CLIPO (Contrastive Learning in Policy Optimization)。它通过捕捉正确推理路径之间的“共有逻辑”,解决了传统强化学习(RLVR)中模型为了对答案而产生逻辑幻觉的问题。该方法在不增加额外人工过程标注的情况下,显著提升了 Qwen2.5、Llama3.1 等模型在复杂推理任务上的泛化能力。
痛点深挖:正确的答案,错误的逻辑
在 Reinforcement Learning with Verifiable Rewards (RLVR) 领域,我们通常使用编译器或数学判定器给出 或 的奖励。这种稀疏且粗粒度的反馈存在一个致命缺陷:如果模型通过错误的逻辑推导出了正确的答案(Process-wrong but Outcome-correct),RL 算法依然会加强这一路径。
这种现象会导致模型陷入“答案记忆”的陷阱,产生推理幻觉(Hallucination)。正如托尔斯泰所说,“幸福的家庭都是相似的,不幸的家庭各有各的不同”,作者认为:正确的推理路径在语义空间中应当是趋同的,而错误的路径则由于各种噪声产生偏差。
核心方法:CLIPO 的技术直觉
CLIPO 的核心在于利用**对比学习(Contrastive Learning)**去挖掘正确路径之间的“不变结构”。
1. 架构设计
作者在 Transformer 骨架之上增加了一个轻量级的投影头(Contrastive Head)。它将每一条推理轨迹生成的 Hidden States 进行 Mean Pooling,映射到一个连续的嵌入空间(Embedding Space)。

2. 损失函数:InfoNCE 与互信息
在每一组(Group)采样中,CLIPO 识别出其中的正确路径(正样本)和错误路径(负样本)。通过 InfoNCE 损失,模型被强制要求:
- Align(对齐):拉近所有正确推理轨迹的间距。
- Uniformity(均匀):将错误轨迹或不相关的逻辑推开。
这种机制本质上是在最大化正样本轨迹间的互信息(Mutual Information),将对比损失转化为一种稠密的辅助奖励(Dense Auxiliary Reward),与原始的二进制结果奖励相加。
实验战绩:全线飘红的性能提升
1. 泛化能力验证
在 Track I(基础推理)中,CLIPO 对比 GRPO 基线展现了显著的提升,尤其是在包含数学扰动的 GSM8K-P2 数据集上,增益达到了惊人的 +3.36%。这证明了模型不是在记题,而是理解了推理过程。

2. 竞赛级挑战
在 Track II(复杂数学)中,CLIPO 在 AIME25、AMC 等高难度数据集上同样表现出色。无论基座是 Qwen2.5 还是 Llama3.1,集成 CLIPO 后均能获得稳健的性能增长。
深度洞察:语义流形的显现
通过 t-SNE 可视化(见下回),我们可以直观地看到:在训练初期,正确与错误的轨迹在空间中是混杂的;而经过 CLIPO 训练后,正确推理路径形成了紧密的簇。

这种分布说明 Contrastive Head 成功构建了一个推理语义流形。流形上的位置不仅代表了答案的正确性,更代表了推理逻辑的相似度。
总结与局限
Takeaway: CLIPO 证明了我们不需要昂贵的 Process Reward Model (PRM) 标注,仅通过自监督的对比学习,就能从模型自身的采样中挖掘出逻辑的一致性。
局限性:
- 依赖采样多样性:如果一个 Prompt 下模型生成的全部是错误答案(或全是正确答案),对比学习将失去作用。
- 温度敏感性:实验显示超参数 对结果影响较大,低温度(如 0.02)更有利于捕捉 Hard Negatives。
这篇论文为提升 LLM 的推理鲁棒性提供了一个优雅且高效的视角。欢迎在 GitHub 关注该项目的后续开发。
