本文提出了 StateFactory,一种基于“因素化世界状态”的零成本(Zero-shot)奖励预测方法。通过将非结构化的环境观察分解为“对象-属性”的层次化结构,利用语义相似度在 RewardPrediction 新基准上实现了 SOTA 的奖励泛化性能。
TL;DR
在构建通用自主智能体的道路上,**奖励预测(Reward Prediction)始终是核心难题。传统方法要么依赖昂贵的专家标注,要么面临严重的泛化瓶颈。本文提出的 StateFactory 摒弃了监督学习的旧路,通过将文本观察“因素化”为对象-属性(Object-Attribute)**结构,实现了跨领域的零成本奖励预测,显著提升了智能体在复杂长程任务中的规划能力。
1. 痛点:被“奖励幻觉”困住的智能体
在强化学习中,奖励信号决定了智能体的进化方向。然而,现有的奖励模型面临两个致命瓶颈:
- 泛化崩溃:监督学习训练出的 Critic 模型往往会记住特定环境的“地貌”,一旦换个新任务,预测误差会激增(实验显示误差增加 138%)。
- 噪声淹没:原始的文本观察(如“你走进厨房,看见桌上有个红色的苹果”)包含大量无关信息,智能体很难从中精确判断任务进度(Progress)。
图 1:表征自由法(上)与基于表征的 StateFactory(下)的对比。StateFactory 通过对齐中间层级的因素化表示来产生奖励值。
2. 核心方案:StateFactory 的语义工厂
StateFactory 的核心直觉在于:奖励的本质是当前世界状态与目标状态之间的“语义距离”。 为了让这个距离测量更精确,作者设计了一套精密的层级化解构流程:
2.1 状态因素化 (State Extraction)
不同于将整段话塞给模型,StateFactory 利用 LLM 将观察拆解为:
- Identity (身份):如“Mug”。
- Attributes (属性):如“location: on table”, “temperature: hot”。 这种结构化表示强制模型关注实体状态的动态变化,而非文本表面的冗余信息。
2.2 动态目标解读 (Goal Interpretation)
目标往往是抽象的(如“帮我准备早餐”)。StateFactory 会动态地将目标转化为具体的“目标状态蓝图”,并随着任务执行实时更新对目标的理解。
2.3 分层路由对齐 (Hierarchical Routing)
最后,通过计算“实体匹配”和“属性匹配”的综合分数来生成奖励:
- 第一步:确认对象是否找对了(Identity Match)。
- 第二步:比较该对象的属性是否符合目标(Attribute Alignment)。
图 2:StateFactory 框架图核心。左侧为递归更新过程,右侧展示了如何从因素化状态中计算奖励。
3. 实验战绩:全线霸榜
作者推出了 RewardPrediction 基准,涵盖了从科学实验(ScienceWorld)到经典堆木块(BlocksWorld)的 5 个领域。
- 零成本超越监督学习:StateFactory 的预测准确度(EPIC 距离 0.297)不仅大幅超过了传统的 LLM-as-a-Judge,甚至在某些跨领域任务上逼近了全监督模型的水平。
- 消融研究揭示成功关键:实验证明,从“纯文本”进化到“对象-属性”结构,误差从 0.43 降至 0.30。这说明**结构粒度(Granularity)**是提升奖励质量的关键。
表 1:StateFactory 在所有领域均实现了最低的 EPIC 距离(越低越好)。
4. 深度洞察:奖励信号如何拯救 System-2 规划?
传统的 ReAct 智能体在面对超长链路任务时极易陷入“死结”。StateFactory 提供的密集奖励信号(Dense Rewards)成为了智能体的指南针。 当智能体集成该算法后:
- 在 AlfWorld(家政模拟)中,成功率从 34% 飙升至 55.9%。
- 它能有效区分“无效尝试”和“有效进展”,在 Monte Carlo Tree Search (MCTS) 过程中,StateFactory 扮演了类似 AlphaGo 中 Value Network 的角色。
5. 总结与启示
StateFactory 告诉我们:一个定义良好的世界表示本身就足够产生精确的奖励。 这为学术界和工业界指明了一条新路:与其费尽心机去微调一个偏好模型,不如花精力教模型如何更清晰地解构这个世界。
局限性:目前该方法依然高度依赖高性能 LLM(如 GPT-4 级别)的推理能力进行状态解构,对于推理延迟敏感的实时系统仍存在一定挑战。
