本文提出了 RRPI(Robust Regularized Policy Iteration),一种针对离线强化学习中转移不确定性的鲁棒策略优化方法。该方法将转移核视为不确定集中的决策变量,通过引入 KL 正则化代理目标和鲁棒正则化 Bellman 算子,在 D4RL 基准测试中超越了 PMDB 等 SOTA 基线。
TL;DR
离线强化学习(Offline RL)就像是在没有地图的情况下根据旧日志开车。本文提出的 RRPI (Robust Regularized Policy Iteration) 引入了一套鲁棒优化机制:它不赌某一个动力学模型是准的,而是在一个“模型候选池”中寻找最坏情况下的最优策略。通过数学上的 KL 正则化技巧,它将原本高难度的双层优化简化为高效的迭代算法,并在 D4RL 榜单上刷新了多项纪录。
背景定位:从“保守估计”到“鲁棒规划”
在离线 RL 领域,传统的做法是“保守主义”(Conservatism),即对没见过的数据点给低分(如 CQL)。但这种做法往往由于过于“胆小”而错失最优解。
RRPI 换了个思路:它站在 Robust MDP 的肩膀上,认为环境的转移规律(Dynamics)本身就是不可靠的。与其死磕值函数的惩罚,不如直接在模型空间里进行“对抗演练”——如果我们能在最差的可能环境下都表现良好,那么策略自然就是稳健的。
核心挑战:双层优化的泥潭
传统的鲁棒 MDP 目标函数如下:
这本质上是一个 Max-Min 双层优化问题:外层寻找最优策略,内层寻找最差模型。在神经网络时代,每一轮迭代都去解内层的最小值几乎是不可能的。
RRPI 的妙手:正则化与鲁棒算子
作者的 Insight 在于,他们证明了可以通过 KL 正则化(KL-Regularized) 构造一个代理目标(Surrogate Objective),从而避开双层优化的死循环。
1. 鲁棒正则化 Bellman 算子
作者定义了一个全新的算子 :

该算子的核心逻辑是:在计算状态价值 时,不仅要考虑策略的 Soft-max 价值,还要在转移模型集合 中选择那个让预期价值最小的 。
2. 算法流程 (Algorithm 1)
RRPI 的实现非常优雅:
- 模型集成:训练 个不同的动态模型(Probabilistic Ensemble)。
- 策略评估:利用上述算子更新 Q 函数,公式中显式包含对模型不一致性的“悲观偏向”。
- 策略提升:通过 KL 散度约束,让新策略缓慢向 Boltzmann 目标靠拢,保证训练稳定性。
实验战绩:全线飘红
在 D4RL Benchmarks 上,RRPI 的表现极其亮眼。

- 性能提升:在 HalfCheetah-Medium-Replay 等高难度任务中,RRPI 显著优于之前的 SOTA 方法 PMDB。
- 鲁棒性验证:当环境动力学发生抖动时,RRPI 的 Q 值会迅速下降,这说明策略能够精准识别“危险区”并主动绕行。
认知不确定性 (Epistemic Uncertainty) 的可视化
如下图所示,当模型预测的标准差(不确定性)飙升时,RRPI 学习到的 Q 值会对应崩塌。这种“看透风险”的能力并非来自于人工设计的罚项,而是源于其鲁邦优化的数学本质。

深度总结:通往工业级 AI 的必经之路
RRPI 的意义不仅在于刷榜,它为现实世界的 AI 部署(如电网能量管理、医疗诊断)提供了一套工具:
- 不仅仅是 What,更是 Why:它提供了收敛性证明和单调提升保证(Monotonic Improvement)。
- 局限性:由于依赖模型集成(Ensemble),其计算开销仍高于简单的 Model-free 方法。
- 未来前景:作者在文末提到,将 RRPI 与多模态观测(Vision/Language)结合,是处理复杂现实决策任务的关键。
对于追求算法稳健性的研究者来说,RRPI 证明了一件事:在离线世界,“做好最坏的打算”往往是得到“最好结果”的最短路径。
