WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[2026] CoVerRL:打破共识陷阱,实现推理能力的正向协同进化
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 CoVerRL,一种在无监督(Label-free)环境下通过生成器(Generator)与验证器(Verifier)协同进化来突破 LLM 推理“共识陷阱”的强化学习框架。该方法在数学推理任务上显著超越了传统的多数投票基线(TTRL),且大幅提升了模型的自验证准确率。

TL;DR

在没有标准答案(Label-free)的情况下,如何让 AI 实现自我进化?当前的 SOTA 方法通常依赖“多数投票(Majority Voting)”来生成伪标签,但这会导致模型陷入共识陷阱 (Consensus Trap):AI 会在错误的道路上反复强化,最终丧失多样性。本文提出的 CoVerRL 通过让模型同时扮演“选手(生成器)”和“裁判(验证器)”,利用验证器识别并过滤掉那些“虽然大家都认同、但逻辑全是坑”的自一致性错误,实现了 5% 左右的榜单提升。

痛点深挖:为何多数投票正变得危险?

在无监督强化学习中,由于没有 Ground-truth,研究者通常假设“如果模型多次生成同一个答案,那么这个答案大概率是对的”。然而,作者发现了一个关键的不稳定性:

  1. 多样性崩溃 (Diversity Collapse):在 RL 目标下,模型会趋向于预测概率最高的答案。
  2. 系统性错误强化:如果模型对某个问题存在思维定式(Wrong Way),它会高概率、高一致性地输出错误答案。
  3. 负反馈机制消失:当错误答案成为统治性的“共识”时,传统的 TTRL 等方法不仅无法修正错误,反而会奖励这些自信的谎言。

训练动态对比 如上图所示,TTRL 随着训练进行,奖励准确率反而下降,因为它在强化错误的共识;而 CoVerRL 保持了极高的奖励质量。

Methodology:CoVerRL 的协同进化逻辑

CoVerRL 处理的核心逻辑是让验证器监督伪标签的生成

1. 流程架构

整个过程被拆解为多轮策略:

  • 第一步(生成):Generator 产生 N 条路径,通过多数投票锁定一个“草稿答案”。
  • 第二步(过滤):Verifier 对这些高一致性的路径进行审查。公式 (1) 规定,只有当多数验证通过时,该样本才被用于训练。这有效地剔除了由于系统误差产生的虚假共识。
  • 第三步(对比学习/自纠错):利用低频答案(少数派)构建负样本,训练验证器的判别力;同时让生成器根据验证器的意见进行纠错(Self-Correction)。

模型架构图 图 2 展示了生成器与验证器互助引导的闭环。

2. Answer-Anchored GRPO

为了解决多轮对话中的奖励方差问题,作者改进了 DeepSeek 提出的 GRPO。传统的 GRPO 基于前缀分组,而本文提出 Answer-Anchored GRPO:将所有指向相同伪标签答案的不同推理过程组合在一起进行优势(Advantage)计算。这种做法能更好捕捉正确推理模式的多样性。

实验与结果:验证能力的飞跃

实验在 MATH、AMC、AIME 等多个数学 benchmark 上展开。CoVerRL 在三个不同规模和家族的模型上均刷新了无监督训练的上限。

  • 推理能力提升:Acc.@final 在 AMC 等任务上提升了 7-9%。
  • 验证能力进化:最令人惊讶的是模型的验证准确率(Table 2)。Qwen2.5-7B 从 54.0% 增长到 86.5%。这表明模型不是在死记硬背答案,而是真的理解了如何评估一段推理过程的对错。

协同进化动态 图 3 显示,验证准确率(绿虚线)的提升直接拉动了标签准确率(红线)的增长,形成良性循环。

深度洞察:为什么验证器能不劳而获地变强?

论文在附录 C 中给出了有趣的理论证明:平衡的验证训练等价于隐式偏好优化(DPO)。 由于 CoVerRL 采取了 $|V^+| = |V^-|$ 的样本平衡策略,这自然产生了一种“自动课程学习”效应:GRPO 的梯度会自动降低那些“容易样本(模型已确信)”的权重,转而集中攻克验证器感到困惑的边界样本( hard uncertain set)。

总结与局限

CoVerRL 证明了在没有外部人类标注的情况下,通过合理的架构设计,LLM 的生成与验证能力可以像“左脚踩右脚”一样螺旋上升。

局限性

  1. 算力开销:多轮推理和验证增加了训练阶段的计算成本。
  2. 思维模式依赖:消融实验显示,如果模型本身不支持“Thinking Mode(思考链)”,验证器的表现会大幅缩水,甚至发生长度崩塌(Length Collapse)。

未来启示:这一范式不仅适用于数学,对于法律、医学等外部奖励昂贵且存在“虚假共识”的领域,CoVerRL 提供的协同进化思路具有巨大的产品化潜力。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图解决大语言模型在强化学习训练中“多样性崩溃”或“自一致性错误”问题的论文。
  • 哪篇论文最早提出了验证器与生成器协同训练(Co-training/Co-evolution)的思想,本文在无监督设置下对其做了哪些改进?
  • 目前有哪些研究尝试将类似 CoVerRL 的双角色协同进化方法应用到除了数学推理之外的图形界面导航(GUI Grounding)或代码生成任务中?
Contents
[2026] CoVerRL:打破共识陷阱,实现推理能力的正向协同进化
1. TL;DR
2. 痛点深挖:为何多数投票正变得危险?
3. Methodology:CoVerRL 的协同进化逻辑
3.1. 1. 流程架构
3.2. 2. Answer-Anchored GRPO
4. 实验与结果:验证能力的飞跃
5. 深度洞察:为什么验证器能不劳而获地变强?
6. 总结与局限