本文提出了 Neuro-Symbolic Skill Induction (NSI) 框架,旨在将智能体的交互轨迹转化为模块化、逻辑驱动的程序化技能。该方法结合了神经感知的灵活性与符号逻辑的严密性,在 ALFWorld, WebShop 和 TextCraft 等长程(Long-horizon)任务中显著超越了 SOTA 基线。
TL;DR
在大语言模型(LLM)智能体领域,长程任务(Long-horizon tasks)一直是“阿喀琉斯之踵”。本文介绍的 Neuro-Symbolic Skill Induction (NSI) 框架,通过将智能体的操作轨迹(Traces)转化为基于 一阶逻辑(First-Order Logic) 的模块化程序,让智能体不仅学会“做什么”,更学会“在什么条件下为什么这么做”。
1. 痛点:状态盲脚本的脆弱性
当前的智能体进化方法(如技能发现)大多将经验提炼为参数化脚本。这种脚本类似于“动作队列”:
Open(Fridge) -> Pick(Apple)
然而,真实环境是动态的。如果冰箱里没有苹果,或者冰箱门已经被打开了,这种线性的脚本就会失效。这种**状态盲(State-blind)**的特性导致了智能体在长程规划中经常出现“差之毫厘,谬以千里”的崩溃。
2. 核心直觉:从脚本到程序的“提升” (Lifting)
NSI 的核心在于将单纯的动作序列“提升”为包含控制流和变量绑定的逻辑程序。
2.1 神经符号表示
NSI 将技能定义为一个三元组 :
- 神经感知层 ():利用 LLM 将非结构化的环境观察(Observation)映射为结构化的符号谓词(Predicates),如
is_open(fridge)。 - 符号执行图 ():这是技能的大脑,由节点和边构成的有向图。

2.2 四大逻辑算子
为了让程序具备通用性,NSI 发明了四种逻辑节点:
- DataOp:动态变量绑定(例如:根据当前环境自动识别“哪个是苹果”)。
- CheckOp / LoopOp:决策边界(例如:如果是关着的则打开,如果是开着的则跳过)。
- PrimitiveOp:原子动作执行。
- TerminalOp:反馈结果与诊断信息。
3. 技能归纳流程:从个体专家到全局逻辑
NSI 并不直接生成复杂的程序,而是通过两步走:
- 轨迹内整合 (Intra-Trajectory):针对单个成功案例生成“本地专家”。
- 轨迹间合并 (Inter-Trajectory):遵循 最小描述长度 (MDL) 原则,将多个本地专家合并为一个通用的全局技能。

在这个过程中,NSI 使用了诸如 谓词发明 (Predicate Invention) 和 变量提升 (Variable Lifting) 等高级符号技术,将硬编码的常量(如“桌子1”)转化为抽象的参数(如“任意支撑面”)。
4. 持续进化:反思性规划与技能磨砺
NSI 最迷人的地方在于它的**在线进化(Online Evolution)**能力。当技能在执行中失败时:
- 智能体通过诊断信息定位失败节点。
- 尝试修复并生成恢复轨迹。
- 技能磨砺 (Skill Honing):如果修复成功,新的逻辑分支会被“嫁接”到原有的技能图中。
5. 实验见证:突破“长程崩溃”
在实验中,NSI 展示了惊人的**视界压缩(Horizon Compression)**能力。

- 性能:在 ALFWorld 上达到 98% 的成功率。
- 鲁棒性:传统智能体在超过 22 个步骤后表现呈断崖式下跌,而 NSI 由于将约 7.4 个原子动作封装为一个逻辑连贯的技能,有效地缩短了 LLM 的规划步数,使得智能体在 50 步以上的任务中依然稳定。
6. 总结与启示
NSI 证明了:智能体的进化不应仅仅是经验的堆累,更应是逻辑的发现。通过将零散的交互轨迹提升为结构严密的逻辑程序,我们不仅赋予了智能体更强的“肌肉记忆”,更赋予了它们理解“何时”与“为何”行动的智慧。
对于未来的研究,这种将 LLM 的概率推理与符号系统的确定性逻辑耦合的路径,或许是通往通用人工智能(AGI)智能体的一条捷径。
