WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[arXiv 2026] SAGE:500条数据开启 LLM 推理能力的 18 倍自进化之路
Summary
Problem
Method
Results
Takeaways
Abstract

SAGE(Self-evolving Agents for Generalized reasoning Evolution)是一个针对大语言模型(LLM)推理能力的自进化框架。通过将单一模型实例化为 Challenger、Planner、Solver 和 Critic 四个专业代理,在数学和代码生成任务中仅需 500 条初始种子数据即可实现闭环自进化,在 LiveCodeBench 和 OlympiadBench 等 benchmark 上取得了显著提升。

TL;DR

传统的 LLM 推理训练往往需要几十万条高质量的人类标注数据。而本文提出的 SAGE 框架,仅依靠 500 条“种子数据”,通过将大模型分身为四个不同角色的代理(挑战者、规划者、执行者、评论家),在数学和编程领域实现了卓越的自驱动演化。在 Qwen-2.5-7B 模型上,不仅在 OOD(分布外)测试中大放异彩,还成功构建了一个规模扩大了 18 倍的高质量自动生成题库。

痛点深挖:为什么 Self-play 容易跑偏?

当前的 LLM 推理进化面临两个核心挑战:

  1. 数据荒:高质量的奥数或编程题标注成本极高,且模型达到一定水准后,人类数据将成为上限。
  2. 课程失效:许多自博弈(Self-play)系统在生成新任务时缺乏难度控制和路径规划。如果生成的题目太简单,模型原地踏步;太难或格式混乱,训练信号就会变成噪音,导致性能崩溃。

Methodology:四位一体的 SAGE 架构

SAGE 的核心直觉在于“角色解耦”。作者将模型能力拆解为四个互补的 Agent:

  • Challenger (挑战者):负责“出题”。它不仅生成题目,还生成配套的 Verifier(如代码测试用例)。它的奖励函数很有趣——Solver 做错了,它才能拿高分(难度奖励),但前提是题目必须通过 Critic 的质量审核。
  • Planner (规划者):负责“思路”。模型不再直接跳到答案,而是先产出结构化的步骤说明。
  • Solver (执行者):负责“解题”。根据 Planner 的蓝图执行,通过外部验证器(Vgt)获取真实奖励。
  • Critic (评论家):负责“质检”。对题目和规划进行打分,充当“过滤器”,只有高分项才能进入训练循环和数据池。

模型架构图 图 1:SAGE 框架概览,四个 Agent 通过反馈回路进行闭环进化。

算法灵魂:Task-Relative REINFORCE++

为了让这四个角色协调训练,SAGE 采用了 Task-Relative REINFORCE++ 算法。它对不同角色的 Advantage(优势函数)进行归一化处理(Eq. 1),确保不同任务目标(如出题和解题)的梯度不会互相干扰,从而稳定了多代理的联合训练。

实验与结果:小样本驱动的大飞跃

实验选择了 Qwen-2.5 和 Qwen-3 系列作为 Backbone。

  • SOTA 对比:在 Qwen-2.5-7B 上,SAGE 在 LiveCodeBench (LCB) 上的表现优于基线模型近 9%,在奥赛级别测试 OlympiadBench 上提升超过 10%。
  • 泛化性突破:相比之前的 Absolute Zero (AZR) 或 MAE,SAGE 在从未见过的题目(OOD)上表现出了更强的鲁棒性。

训练动态对比 图 2:训练动态显示,Challenger 稳步扩大了有效题库(柱状图),并在 100-120 步左右达到性能峰值。

消融分析:谁是关键?

消融研究发现,禁用 Challenger 会导致代码任务性能大幅下滑,这证明了“自生成课程”对于泛化的至关重要。移除 Solver 训练则会导致整体崩盘,证实了 Solver 依然是推理能力沉淀的主体核心。

深度洞察与总结

SAGE 的成功提供了一个关键启示:大模型的推理能力提升不一定非得靠“灌入”更多知识,通过内部角色的博弈与细化的推理路径(Planning),模型可以“挖掘”出自身的潜力。

局限性 (Limitations): 目前 SAGE 仍然高度依赖“可验证环境”(即数学有标准答案,代码有 Unit Test)。对于没有客观评分标准的自然语言理解或创意任务,如何定义其 Critic 和 Verifier 仍是未来的挑战。

总结: SAGE 是一种极具采样效率的进化框架,它不仅提升了模型得分,更通过一套自动出题-自动过滤的机制,实现了数据的“自给自足”。

Find Similar Papers

Try Our Examples

  • 查找其他利用多角色代理(Role-based Multi-agent)实现 LLM 自我改进或强化学习的最新论文。
  • 哪篇论文最早提出了 Task-Relative REINFORCE++ 算法,SAGE 在优势归一化方面对其做了哪些具体改进?
  • 有哪些研究讨论了在不可验证或开放式领域(如创意写作)实现类似 SAGE 的闭环自进化系统?
Contents
[arXiv 2026] SAGE:500条数据开启 LLM 推理能力的 18 倍自进化之路
1. TL;DR
2. 痛点深挖:为什么 Self-play 容易跑偏?
3. Methodology:四位一体的 SAGE 架构
3.1. 算法灵魂:Task-Relative REINFORCE++
4. 实验与结果:小样本驱动的大飞跃
4.1. 消融分析:谁是关键?
5. 深度洞察与总结