Reward Prediction with Factorized World States

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

Reward Prediction with Factorized World States

[ICLR 2025] StateFactory：基于层级因素化世界状态的通用奖励预测

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 StateFactory，一种基于“因素化世界状态”的零成本（Zero-shot）奖励预测方法。通过将非结构化的环境观察分解为“对象-属性”的层次化结构，利用语义相似度在 RewardPrediction 新基准上实现了 SOTA 的奖励泛化性能。

TL;DR

在构建通用自主智能体的道路上，**奖励预测（Reward Prediction）始终是核心难题。传统方法要么依赖昂贵的专家标注，要么面临严重的泛化瓶颈。本文提出的 StateFactory 摒弃了监督学习的旧路，通过将文本观察“因素化”为对象-属性（Object-Attribute）**结构，实现了跨领域的零成本奖励预测，显著提升了智能体在复杂长程任务中的规划能力。

1. 痛点：被“奖励幻觉”困住的智能体

在强化学习中，奖励信号决定了智能体的进化方向。然而，现有的奖励模型面临两个致命瓶颈：

泛化崩溃：监督学习训练出的 Critic 模型往往会记住特定环境的“地貌”，一旦换个新任务，预测误差会激增（实验显示误差增加 138%）。
噪声淹没：原始的文本观察（如“你走进厨房，看见桌上有个红色的苹果”）包含大量无关信息，智能体很难从中精确判断任务进度（Progress）。

奖励预测任务范式对比 图 1：表征自由法（上）与基于表征的 StateFactory（下）的对比。StateFactory 通过对齐中间层级的因素化表示来产生奖励值。

2. 核心方案：StateFactory 的语义工厂

StateFactory 的核心直觉在于：奖励的本质是当前世界状态与目标状态之间的“语义距离”。 为了让这个距离测量更精确，作者设计了一套精密的层级化解构流程：

2.1 状态因素化 (State Extraction)

不同于将整段话塞给模型，StateFactory 利用 LLM 将观察拆解为：

Identity (身份)：如“Mug”。
Attributes (属性)：如“location: on table”, “temperature: hot”。这种结构化表示强制模型关注实体状态的动态变化，而非文本表面的冗余信息。

2.2 动态目标解读 (Goal Interpretation)

目标往往是抽象的（如“帮我准备早餐”）。StateFactory 会动态地将目标转化为具体的“目标状态蓝图”，并随着任务执行实时更新对目标的理解。

2.3 分层路由对齐 (Hierarchical Routing)

最后，通过计算“实体匹配”和“属性匹配”的综合分数来生成奖励：

第一步：确认对象是否找对了（Identity Match）。
第二步：比较该对象的属性是否符合目标（Attribute Alignment）。

StateFactory 架构图 图 2：StateFactory 框架图核心。左侧为递归更新过程，右侧展示了如何从因素化状态中计算奖励。

3. 实验战绩：全线霸榜

作者推出了 RewardPrediction 基准，涵盖了从科学实验（ScienceWorld）到经典堆木块（BlocksWorld）的 5 个领域。

零成本超越监督学习：StateFactory 的预测准确度（EPIC 距离 0.297）不仅大幅超过了传统的 LLM-as-a-Judge，甚至在某些跨领域任务上逼近了全监督模型的水平。
消融研究揭示成功关键：实验证明，从“纯文本”进化到“对象-属性”结构，误差从 0.43 降至 0.30。这说明**结构粒度（Granularity）**是提升奖励质量的关键。

实验结果对比表 表 1：StateFactory 在所有领域均实现了最低的 EPIC 距离（越低越好）。

4. 深度洞察：奖励信号如何拯救 System-2 规划？

传统的 ReAct 智能体在面对超长链路任务时极易陷入“死结”。StateFactory 提供的密集奖励信号（Dense Rewards）成为了智能体的指南针。当智能体集成该算法后：

在 AlfWorld（家政模拟）中，成功率从 34% 飙升至 55.9%。
它能有效区分“无效尝试”和“有效进展”，在 Monte Carlo Tree Search (MCTS) 过程中，StateFactory 扮演了类似 AlphaGo 中 Value Network 的角色。

5. 总结与启示

StateFactory 告诉我们：一个定义良好的世界表示本身就足够产生精确的奖励。 这为学术界和工业界指明了一条新路：与其费尽心机去微调一个偏好模型，不如花精力教模型如何更清晰地解构这个世界。

局限性：目前该方法依然高度依赖高性能 LLM（如 GPT-4 级别）的推理能力进行状态解构，对于推理延迟敏感的实时系统仍存在一定挑战。

Find Similar Papers

Try Our Examples

查找最近一年内利用大语言模型（LLM）作为世界模型（World Models）进行强化学习奖励塑造（Reward Shaping）的 SOTA 论文。
哪篇论文最早提出了 EPIC 距离作为评估奖励函数一致性的指标，后续有哪些针对文本智能体任务的改进版本？
探索在大规模多模态任务（如真实机器人操作环境）中，如何将视觉观察自动因素化为“对象-属性”结构的最新研究。

Contents

[ICLR 2025] StateFactory：基于层级因素化世界状态的通用奖励预测

1. TL;DR

2. 1. 痛点：被“奖励幻觉”困住的智能体

3. 2. 核心方案：StateFactory 的语义工厂

3.1. 2.1 状态因素化 (State Extraction)

3.2. 2.2 动态目标解读 (Goal Interpretation)

3.3. 2.3 分层路由对齐 (Hierarchical Routing)

4. 3. 实验战绩：全线霸榜

5. 4. 深度洞察：奖励信号如何拯救 System-2 规划？

6. 5. 总结与启示