P^2O: Joint Policy and Prompt Optimization

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

P^2O: Joint Policy and Prompt Optimization

[ICLR 2026] P2O：突破 RLVR 探索瓶颈，提示词与策略的“双螺旋”进化

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 P2O (Joint Policy and Prompt Optimization) 框架，通过将提示词优化（Prompt Optimization）与强化学习（RL）协同，解决了推理任务中“硬样本”导致的训练受阻问题。该方法在 Qwen3-4B 模型上实现了 AIME24 准确率提升 12.9%，显著刷新了中量级模型的推理 SOTA。

TL;DR

在强化学习提升 LLM 推理能力的浪潮中，硬样本（Hard Samples）始终是导致模型性能瓶颈的“毒药”。当模型在 16 次乃至 64 次采样中都无法完成一次正确的证明题时，强化学习便失去了监督信号。本文提出的 P2O (Joint Policy and Prompt Optimization) 框架，通过遗传算法（GEPA）动态生成“提示词导火索”，引燃硬样本的搜索空间，再通过上下文蒸馏将这份智慧刻入模型参数。

背景定位

目前 Reasoning Alignment 的主流是 RLVR（如 DeepSeek-R1 采用的 GRPO）。然而，纯粹的 RL 极易陷入局部最优（Local Optima）。P2O 并不满足于在现有的概率凸起处修修补补，而是试图在“奖励沙漠”中通过提示词优化强行开辟出一条通往正确答案的路径。

痛点深挖：消失的梯度与硬样本的饥饿

在传统的 GRPO 中，优势函数（Advantage）依赖于组内推理轨迹的相对得分。

逻辑困境：如果对于某个数学题，模型跑了 K 个候选答案全是错的，那么 r_mean 为 0，每个轨迹的 Advantage 也几乎为 0。
后果：硬样本在训练中被事实性地抛弃了，模型只能在简单题目上“刷分”，导致其推理上限被锁死。

核心方法论：P2O 的“双相周期”

P2O 巧妙地设计了一个交替优化方案：

1. 策略优化与上下文蒸馏 (Context Distillation)

这是 P2O 的核心 Insight。为了避免模型在推理时产生“提示词依赖”（即离开提示词就不会做题），作者提出：生成时用提示词，计算梯度时不用。

公式解读： $ab l a_{h e t a} lo g π_{h e t a} (i l d e y ∣ x)$ 。注意这里的 $i l d e y$ 是在带提示词的 $x + z$ 环境下生成的，但 $π$ 的输入仅仅是原始查询 $x$ 。这强迫模型在没有任何暗示的情况下，内化那条复杂的推理链路。

2. 进化提示词优化 (GEPA)

当模型在当前策略下遇到无法攻克的题目时，启动 GEPA 算法。它利用一个“反射模型”（Reflective LLM）观察错误记录，像生物进化一样变异提示词模板，直到发现能让模型“开窍”的模板 $z$ 。

模型架构图

实验与结果：刷新中量级模型上限

实验采用了 Qwen3-4B 作为 Backbone。在只有 5000 条训练数据的情况下，P2O 展现了极强的泛化能力。

SOTA 对比：在 DeepScaler-5K 数据集上，AIME24 准确率从 GRPO 的 46.9% 飞跃至 59.8%。
学习曲线分析：如下图所示，P2O 的训练奖励（红色）始终高于基线，这意味着模型在训练过程中从未停止对新知识的“进食”。

训练动力学对比

深度洞察：提示词是步进器，参数是蓄电池

P2O 的成功实际上论证了一个哲学观点：LLM 现有的参数中往往潜藏着正确答案，只是在特定分布（Manifold）下难以触达。

定性分析：在处理一个关于“四个单元球体外接球半径”的几何题时，原模型会陷入“平面排列”的思维定式。而进化出的提示词通过引入“正四面体中心”等核心概念，强行改变了模型的 Top-K 采样空间，一旦正确的 Trajectory 被抓到，蒸馏机制就会确保这种“顿悟”被永久固化。

定性分析图

总结与未来启示

P2O 为解决强化学习的探索瓶颈提供了一个极其优雅的范式。

局限性：提示词进化的过程依然依赖一个强大的 Reflection Model（如 Kimi-K2 或自我反射），这带来了额外的计算开销。
结论：它证明了“提示词工程”不应仅仅是 Inference-time 的调优手段，更应该是 Training-time 的优化目标。未来，这种参数与指令协同进化的路径，可能是通往通用推理能力的必经之路。

Find Similar Papers

Try Our Examples

查找最近其他通过动态调整提示词或指令来辅助强化学习（RL）探索的大语言模型训练论文。
哪篇论文首次提出了上下文蒸馏（Context Distillation）的概念，本文在 P2O 框架中对其做了哪些具体的改进？
探讨将 P2O 框架中的遗传算法提示词优化应用到代码生成或多模态机器人任务中的相关研究。

Contents

[ICLR 2026] P2O：突破 RLVR 探索瓶颈，提示词与策略的“双螺旋”进化

1. TL;DR

2. 背景定位

3. 痛点深挖：消失的梯度与硬样本的饥饿

4. 核心方法论：P2O 的“双相周期”

4.1. 1. 策略优化与上下文蒸馏 (Context Distillation)

4.2. 2. 进化提示词优化 (GEPA)

5. 实验与结果：刷新中量级模型上限

6. 深度洞察：提示词是步进器，参数是蓄电池

7. 总结与未来启示