WisPaper
WisPaper
Search
QA
Pricing
TrueCite
[ICLR 2025] StateFactory:基于层级因素化世界状态的通用奖励预测
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 StateFactory,一种基于“因素化世界状态”的零成本(Zero-shot)奖励预测方法。通过将非结构化的环境观察分解为“对象-属性”的层次化结构,利用语义相似度在 RewardPrediction 新基准上实现了 SOTA 的奖励泛化性能。

TL;DR

在构建通用自主智能体的道路上,**奖励预测(Reward Prediction)始终是核心难题。传统方法要么依赖昂贵的专家标注,要么面临严重的泛化瓶颈。本文提出的 StateFactory 摒弃了监督学习的旧路,通过将文本观察“因素化”为对象-属性(Object-Attribute)**结构,实现了跨领域的零成本奖励预测,显著提升了智能体在复杂长程任务中的规划能力。

1. 痛点:被“奖励幻觉”困住的智能体

在强化学习中,奖励信号决定了智能体的进化方向。然而,现有的奖励模型面临两个致命瓶颈:

  1. 泛化崩溃:监督学习训练出的 Critic 模型往往会记住特定环境的“地貌”,一旦换个新任务,预测误差会激增(实验显示误差增加 138%)。
  2. 噪声淹没:原始的文本观察(如“你走进厨房,看见桌上有个红色的苹果”)包含大量无关信息,智能体很难从中精确判断任务进度(Progress)。

奖励预测任务范式对比 图 1:表征自由法(上)与基于表征的 StateFactory(下)的对比。StateFactory 通过对齐中间层级的因素化表示来产生奖励值。

2. 核心方案:StateFactory 的语义工厂

StateFactory 的核心直觉在于:奖励的本质是当前世界状态与目标状态之间的“语义距离”。 为了让这个距离测量更精确,作者设计了一套精密的层级化解构流程:

2.1 状态因素化 (State Extraction)

不同于将整段话塞给模型,StateFactory 利用 LLM 将观察拆解为:

  • Identity (身份):如“Mug”。
  • Attributes (属性):如“location: on table”, “temperature: hot”。 这种结构化表示强制模型关注实体状态的动态变化,而非文本表面的冗余信息。

2.2 动态目标解读 (Goal Interpretation)

目标往往是抽象的(如“帮我准备早餐”)。StateFactory 会动态地将目标转化为具体的“目标状态蓝图”,并随着任务执行实时更新对目标的理解。

2.3 分层路由对齐 (Hierarchical Routing)

最后,通过计算“实体匹配”和“属性匹配”的综合分数来生成奖励:

  • 第一步:确认对象是否找对了(Identity Match)。
  • 第二步:比较该对象的属性是否符合目标(Attribute Alignment)。

StateFactory 架构图 图 2:StateFactory 框架图核心。左侧为递归更新过程,右侧展示了如何从因素化状态中计算奖励。

3. 实验战绩:全线霸榜

作者推出了 RewardPrediction 基准,涵盖了从科学实验(ScienceWorld)到经典堆木块(BlocksWorld)的 5 个领域。

  • 零成本超越监督学习:StateFactory 的预测准确度(EPIC 距离 0.297)不仅大幅超过了传统的 LLM-as-a-Judge,甚至在某些跨领域任务上逼近了全监督模型的水平。
  • 消融研究揭示成功关键:实验证明,从“纯文本”进化到“对象-属性”结构,误差从 0.43 降至 0.30。这说明**结构粒度(Granularity)**是提升奖励质量的关键。

实验结果对比表 表 1:StateFactory 在所有领域均实现了最低的 EPIC 距离(越低越好)。

4. 深度洞察:奖励信号如何拯救 System-2 规划?

传统的 ReAct 智能体在面对超长链路任务时极易陷入“死结”。StateFactory 提供的密集奖励信号(Dense Rewards)成为了智能体的指南针。 当智能体集成该算法后:

  • AlfWorld(家政模拟)中,成功率从 34% 飙升至 55.9%
  • 它能有效区分“无效尝试”和“有效进展”,在 Monte Carlo Tree Search (MCTS) 过程中,StateFactory 扮演了类似 AlphaGo 中 Value Network 的角色。

5. 总结与启示

StateFactory 告诉我们:一个定义良好的世界表示本身就足够产生精确的奖励。 这为学术界和工业界指明了一条新路:与其费尽心机去微调一个偏好模型,不如花精力教模型如何更清晰地解构这个世界。

局限性:目前该方法依然高度依赖高性能 LLM(如 GPT-4 级别)的推理能力进行状态解构,对于推理延迟敏感的实时系统仍存在一定挑战。

Find Similar Papers

Try Our Examples

  • 查找最近一年内利用大语言模型(LLM)作为世界模型(World Models)进行强化学习奖励塑造(Reward Shaping)的 SOTA 论文。
  • 哪篇论文最早提出了 EPIC 距离作为评估奖励函数一致性的指标,后续有哪些针对文本智能体任务的改进版本?
  • 探索在大规模多模态任务(如真实机器人操作环境)中,如何将视觉观察自动因素化为“对象-属性”结构的最新研究。
Contents
[ICLR 2025] StateFactory:基于层级因素化世界状态的通用奖励预测
1. TL;DR
2. 1. 痛点:被“奖励幻觉”困住的智能体
3. 2. 核心方案:StateFactory 的语义工厂
3.1. 2.1 状态因素化 (State Extraction)
3.2. 2.2 动态目标解读 (Goal Interpretation)
3.3. 2.3 分层路由对齐 (Hierarchical Routing)
4. 3. 实验战绩:全线霸榜
5. 4. 深度洞察:奖励信号如何拯救 System-2 规划?
6. 5. 总结与启示