WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[arXiv 2026] HACPO:打破孤岛,异构 LLM 时代的协同强化学习新范式
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 HACRL 范式及 HACPO 算法,旨在解决强化学习(RLVR)中采样成本高昂的问题。该方法允许异构模型(不同尺寸、架构或状态)在训练阶段共享可验证的 Rollouts 进行协同优化,在推理阶段保持独立运行,实现了超越传统蒸馏的 SOTA 性能。

TL;DR

在大型语言模型(LLM)的强化学习过程中,昂贵的采样成本一直是工业界的痛点。本文提出的 HACPO (Heterogeneous Agent Collaborative Policy Optimization) 彻底打破了“孤立训练”的旧习。它允许不同家族(如 Qwen 与 Llama)、不同尺寸的 Agent 在训练中共享 Rollouts,通过协同优化实现“1+1 > 2”。实验证明,HACPO 在推理能力上平均提升 3.3%,且采样成本降低了 50%

核心定位:这是一种介于多智能体强化学习(MARL)与知识蒸馏(KD)之间的新范式,强调“训练时协同,推理时独立”。

痛点深挖:昂贵的采样与异构的鸿沟

目前的强化学习算法(如 DeepSeek 提出的 GRPO 或 GSPO)虽然效果显著,但依赖于大量的 On-policy 采样。既然每个模型都在解同样的数学题,为什么它们的采样数据不能互通有无?

难点在于 “异构性”。不同模型的能力高低不一(Capability Discrepancy),分词器(Tokenizer)和策略分布(Distribution Shift)也各不相同。如果强行让一个小模型去学习大模型的采样,或者让 Qwen 去看 Llama 的思考路径,往往会引入极大的方差,导致训练崩溃。

核心机制:HACPO 的四大利器

为了解决上述异构挑战,作者设计了一个严密的算法框架:

1. 能力感知的优势估计 (Agent-Capability-Aware Advantage Estimation)

在多模型协作时,不能简单平均奖励。HACPO 引入了能力比率 ,通过滑动窗口平滑估计每个 Agent 的近期表现,动态校准优势估计的基准(Baseline)。这意味着:模型会被放在与其能力相对应的坐标系中进行评价,确保优势估算是无偏的。

2. 模型能力差异系数 (Gradient Modulation)

HACPO 就像一位智慧的导师:当 Agent 学习比它更强的 Agent 的样本时,会放大梯度更新;反之则减小更新。这实现了“强带弱”的加速和“弱对强”的稳健探索。

3. 指数重要性采样与逐步裁剪 (Stepwise Clipping)

由于跨模型分布差异巨大,传统的 PPO 裁剪不再适用。HACPO 采用 指数重要性采样 来抑制剧烈的策略漂移,并首创了 逐步裁剪(Stepwise Clipping) 机制:在一个 Batch 的多次 Mini-batch 更新中,裁剪窗口会越来越严格。

模型架构图 图 2:HACPO 核心流程,展示了如何通过四项创新机制处理异构 Rollouts

实验与战绩:全线飘红

作者在 MATH、GSM8K、AIME2025 等极具挑战性的数学推理基准上进行了验证。

  • 异构状态(Heterogeneous State):4B-Base 与 4B-Instruct 协作,两者均获得显著提升。
  • 异构尺寸(Heterogeneous Size):1.7B 与 4B 模型协作,4B 模型不仅没被带偏,反而通过 1.7B 的多样化探索突破了性能瓶颈。
  • 异构架构(Heterogeneous Model):Qwen3-4B 与 Llama3.2-3B 强强联手,即便 Tokenizer 不同,HACPO 依然实现了稳定的跨模型知识转移。

实验结果对比 表 1:HACPO 在多种异构设定下均显著优于 GSPO 和 GRPO 等基线方法

深度洞察:为什么“弱”能带“强”?

在消融实验中,一个有趣的发现是:即使是较弱的模型,也能为强模型提供“互补性探索”。强模型往往陷入其熟悉的概率空间,而弱模型产生的错误路径或独特的成功解法,为强模型提供了珍贵的负反馈信号和低概率分布下的正反馈,从而帮助强模型跳出局部最优。

总结与局限性

HACPO 为 LLM 时代的资源效率问题提供了一个优雅的理论解。它不仅节省了采样算力,更通过协同效应提升了模型的天花板。 局限性:目前的协同主要集中在文本推理和验证性奖励(RLVR)领域,对于缺乏明确 Verifiable Rewards 的开放式对话任务,如何定义协作边界仍是有待探索的课题。


Takeaway:未来的 LLM 训练不应是孤独的闭门造车,异构协作将是通往 AGI 的必经之路。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图解决 Reinforcement Learning with Verifiable Rewards (RLVR) 中采样效率问题的论文或 SOTA 方法。
  • 哪篇论文最早提出了 Group Sequence Policy Optimization (GSPO),本文在处理异构分布偏移时是如何基于其进行改进的?
  • 有哪些研究探讨了将这种异构 Agent 协同优化(HACRL)应用到跨模态(如 Vision-Language Models)或代码生成任务中的潜力?
Contents
[arXiv 2026] HACPO:打破孤岛,异构 LLM 时代的协同强化学习新范式
1. TL;DR
2. 痛点深挖:昂贵的采样与异构的鸿沟
3. 核心机制:HACPO 的四大利器
3.1. 1. 能力感知的优势估计 (Agent-Capability-Aware Advantage Estimation)
3.2. 2. 模型能力差异系数 (Gradient Modulation)
3.3. 3. 指数重要性采样与逐步裁剪 (Stepwise Clipping)
4. 实验与战绩:全线飘红
5. 深度洞察:为什么“弱”能带“强”?
6. 总结与局限性