CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution

[2026] CoVerRL：打破共识陷阱，实现推理能力的正向协同进化

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 CoVerRL，一种在无监督（Label-free）环境下通过生成器（Generator）与验证器（Verifier）协同进化来突破 LLM 推理“共识陷阱”的强化学习框架。该方法在数学推理任务上显著超越了传统的多数投票基线（TTRL），且大幅提升了模型的自验证准确率。

TL;DR

在没有标准答案（Label-free）的情况下，如何让 AI 实现自我进化？当前的 SOTA 方法通常依赖“多数投票（Majority Voting）”来生成伪标签，但这会导致模型陷入共识陷阱 (Consensus Trap)：AI 会在错误的道路上反复强化，最终丧失多样性。本文提出的 CoVerRL 通过让模型同时扮演“选手（生成器）”和“裁判（验证器）”，利用验证器识别并过滤掉那些“虽然大家都认同、但逻辑全是坑”的自一致性错误，实现了 5% 左右的榜单提升。

痛点深挖：为何多数投票正变得危险？

在无监督强化学习中，由于没有 Ground-truth，研究者通常假设“如果模型多次生成同一个答案，那么这个答案大概率是对的”。然而，作者发现了一个关键的不稳定性：

多样性崩溃 (Diversity Collapse)：在 RL 目标下，模型会趋向于预测概率最高的答案。
系统性错误强化：如果模型对某个问题存在思维定式（Wrong Way），它会高概率、高一致性地输出错误答案。
负反馈机制消失：当错误答案成为统治性的“共识”时，传统的 TTRL 等方法不仅无法修正错误，反而会奖励这些自信的谎言。

训练动态对比 如上图所示，TTRL 随着训练进行，奖励准确率反而下降，因为它在强化错误的共识；而 CoVerRL 保持了极高的奖励质量。

Methodology：CoVerRL 的协同进化逻辑

CoVerRL 处理的核心逻辑是让验证器监督伪标签的生成。

1. 流程架构

整个过程被拆解为多轮策略：

第一步（生成）：Generator 产生 N 条路径，通过多数投票锁定一个“草稿答案”。
第二步（过滤）：Verifier 对这些高一致性的路径进行审查。公式 (1) 规定，只有当多数验证通过时，该样本才被用于训练。这有效地剔除了由于系统误差产生的虚假共识。
第三步（对比学习/自纠错）：利用低频答案（少数派）构建负样本，训练验证器的判别力；同时让生成器根据验证器的意见进行纠错（Self-Correction）。

模型架构图 图 2 展示了生成器与验证器互助引导的闭环。

2. Answer-Anchored GRPO

为了解决多轮对话中的奖励方差问题，作者改进了 DeepSeek 提出的 GRPO。传统的 GRPO 基于前缀分组，而本文提出 Answer-Anchored GRPO：将所有指向相同伪标签答案的不同推理过程组合在一起进行优势（Advantage）计算。这种做法能更好捕捉正确推理模式的多样性。

实验与结果：验证能力的飞跃

实验在 MATH、AMC、AIME 等多个数学 benchmark 上展开。CoVerRL 在三个不同规模和家族的模型上均刷新了无监督训练的上限。

推理能力提升：Acc.@final 在 AMC 等任务上提升了 7-9%。
验证能力进化：最令人惊讶的是模型的验证准确率（Table 2）。Qwen2.5-7B 从 54.0% 增长到 86.5%。这表明模型不是在死记硬背答案，而是真的理解了如何评估一段推理过程的对错。

协同进化动态 图 3 显示，验证准确率（绿虚线）的提升直接拉动了标签准确率（红线）的增长，形成良性循环。

深度洞察：为什么验证器能不劳而获地变强？

论文在附录 C 中给出了有趣的理论证明：平衡的验证训练等价于隐式偏好优化（DPO）。由于 CoVerRL 采取了 $|V^+| = |V^-|$ 的样本平衡策略，这自然产生了一种“自动课程学习”效应：GRPO 的梯度会自动降低那些“容易样本（模型已确信）”的权重，转而集中攻克验证器感到困惑的边界样本（ hard uncertain set）。

总结与局限

CoVerRL 证明了在没有外部人类标注的情况下，通过合理的架构设计，LLM 的生成与验证能力可以像“左脚踩右脚”一样螺旋上升。

局限性：

算力开销：多轮推理和验证增加了训练阶段的计算成本。
思维模式依赖：消融实验显示，如果模型本身不支持“Thinking Mode（思考链）”，验证器的表现会大幅缩水，甚至发生长度崩塌（Length Collapse）。

未来启示：这一范式不仅适用于数学，对于法律、医学等外部奖励昂贵且存在“虚假共识”的领域，CoVerRL 提供的协同进化思路具有巨大的产品化潜力。

Find Similar Papers

Try Our Examples

查找最近其他试图解决大语言模型在强化学习训练中“多样性崩溃”或“自一致性错误”问题的论文。
哪篇论文最早提出了验证器与生成器协同训练（Co-training/Co-evolution）的思想，本文在无监督设置下对其做了哪些改进？
目前有哪些研究尝试将类似 CoVerRL 的双角色协同进化方法应用到除了数学推理之外的图形界面导航（GUI Grounding）或代码生成任务中？

Contents

[2026] CoVerRL：打破共识陷阱，实现推理能力的正向协同进化

1. TL;DR

2. 痛点深挖：为何多数投票正变得危险？

3. Methodology：CoVerRL 的协同进化逻辑

3.1. 1. 流程架构

3.2. 2. Answer-Anchored GRPO

4. 实验与结果：验证能力的飞跃

5. 深度洞察：为什么验证器能不劳而获地变强？

6. 总结与局限