Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

[研报] 高效推理的艺术：如何让大模型“想得快”且“想得对”？

Summary

Problem

Method

Results

Takeaways

本文系统研究了增强大语言模型（LLM）推理效率的机制，提出了高效推理（Efficient Reasoning）框架。通过在 Qwen3 系列模型（0.6B 至 30B）上的实验，证明了通过合理的数据、奖励和优化策略，可以在保持甚至提升 SOTA 性能的同时，大幅压缩 Chain-of-Thought (CoT) 的长度。

随着 DeepSeek-R1 和 Qwen3 系列的兴起，Scaled Chain-of-Thought (CoT) 已成为提升模型智力的标准配置。然而，极长的推理链条带来了高昂的推理成本和延迟。本文深入解析最新论文《The Art of Efficient Reasoning》，探讨如何通过强化学习在不牺牲精度的前提下，对冗长的思维进行“脱水”。

TL;DR

研究发现，高效推理的训练并非一蹴而就，而是经历长度适应（Length Adaptation）和推理细化（Reasoning Refinement）两个阶段。通过在简单题目上训练并结合高 rollout 采样，模型能学习到更专业、简洁的专家级推理风格。

1. 核心直觉：为什么要先练“简单题”？

传统的认知认为，要提升模型能力需要堆难题。但在高效推理的强化学习中，作者提出了一个反直觉的结论：在简单题目（DeepScaleR-Easy）上训练效果更好。

痛点分析：如果只给模型做难题（Hard Prompts），模型很难拿到正向奖励（Correctness Reward）。在缺乏正向信号的情况下，RL 算法会过度优化“长度惩罚”，导致模型为了缩短长度而直接放弃思考，产生“推理坍塌”。
解决方案：简单题目提供了高密度的正向反馈。模型在确信能做对的基础上，才能学习如何“更精炼地表达”。这种高效思维的偏置（Length Bias）具有极强的泛化性，在数学题上练出来的简洁风格，可以直接迁移到编程（Code）任务中。

2. 推理训练的两阶段范式

作者通过 20 万 GPU 小时的实验，总结出了高效推理训练的生命周期：

双阶段训练动力学展示

阶段 I：长度适应。模型迅速调整输出分布以跳出长度惩罚区，平均长度呈指数级下降，策略熵（Policy Entropy）显著降低。
阶段 II：推理细化。长度曲线趋于平缓，模型开始在受限的 Token 预算内榨取更高信息密度。此时策略熵开始回升，表明模型正在探索更有效的推理路径。

3. 方法论：奖励塑形与优化技巧

论文对比了多种不同的奖励方案（Vanilla, Kimi, Laser），最终发现最简单的截断策略（Truncation）配合合理的 Rollout 数量 N 往往最有效。

Rollout N 的重要性：增大采样数量 N（如从 8 增加到 24）能加速长度适应阶段。更多的尝试让模型更容易捕捉到那些“既短又对”的极稀有推理路径。
负样本的处理：研究发现，不应对“长但正确”的样本施加过度严厉的惩罚，否则会导致模型在面对复杂预算（32k）时表现骤降。

4. 实验战绩：Qwen3 全系列霸榜

该研究在 Qwen3 全家族（0.6B 到 30B）上验证了其指南的普适性：

各模型规模提升对比表

Qwen3-0.6B：在 AIME'25 测试中，Mean@8 从 13.33 飙升至 24.58，且长度缩短了 40%。
专家化风格：Case Study 显示，优化后的模型从“废话连篇”的口语化思维（如 "Hmm, let me think..."）转变为了极其精简、符号化的专家推导模式。

5. 局限性与思考

尽管取得了显著提升，作者也指出目前的研究主要集中在数学和编程等具备客观验证标准的领域（Verifiable Reward）。如何在创意写作等主观领域实现高效推理，以及如何动态调整每道题的 Token 预算（Adaptive Length），仍是未来的研究热点。

总结：本文为我们提供了一份实操手册。在训练高效推理模型时：选好简单题、加大采样量、保持优化稳定性，这一套组合拳足以在保持“智商”的同时，让大模型学会“精挑细选”。

Find Similar Papers

Try Our Examples

针对大语言模型长推理链压缩，除了奖励塑形，还有哪些基于知识蒸馏或监督微调（SFT）的最新方法？
深度探讨 DeepSeek-R1 或 Qwen 系列模型中 GRPO 算法相对于传统 PPO 在大规模强化学习训练中的效率优势。
寻找有关大模型推理长度（Verbosity）与推理正确性之间因果关系（Causal relationship）的理论分析论文。

Contents

[研报] 高效推理的艺术：如何让大模型“想得快”且“想得对”？

1. TL;DR

2. 1. 核心直觉：为什么要先练“简单题”？

3. 2. 推理训练的两阶段范式

4. 3. 方法论：奖励塑形与优化技巧

5. 4. 实验战绩：Qwen3 全系列霸榜

6. 5. 局限性与思考