AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

[CVPR 2026] AMA-Bench & AMA-Agent：解耦智能体长程记忆的“因果迷雾”

总结

问题

方法

结果

要点

摘要

本文提出了 AMA-Bench，这是首个专门用于评估大语言模型（LLM）智能体在真实长程任务中内存能力的基准测试。同时，作者开发了 AMA-Agent，一种利用因果图（Causality Graph）和工具增强检索（Tool-Augmented Retrieval）的内存系统，在基准测试中超越了现有 SOTA 方法 11.16%。

TL;DR

在学术界热衷于卷上下文长度（Context Window）的背景下，来自 UCSD 和 Google DeepMind 的研究团队指出：智能体长程记忆（Long-Horizon Memory）的瓶颈不在于窗口大小，而在于内存架构的设计。 他们推出了 AMA-Bench，首次将评估视角从“闲聊对话”转向“机器生成的轨迹”，并提出了性能大幅领先的 AMA-Agent。

1. 痛点：为什么 RAG 在智能体任务中失效了？

目前的 LLM 智能体在处理对话（Chatbot）时表现优异，但在面对需要数千步交互的软件开发或 Web 导航任务时，往往会“失忆”。作者深入剖析了现有内存系统的三大硬伤：

表征类型缺失：智能体交互记录中充斥着 ASCII 表格、JSON、代码块，而现有基准多为自然语言。
缺乏因果律（Causality）：智能体的每一个行动（Action）都会导致环境状态（State）的变化，这种因果链条是逻辑推理的核心，而简单的语义相似度检索会打碎这些链条。
有损压缩的代价：许多模型通过对历史记录进行摘要（Summary）来节省空间，但在机器生成的客观数据中，微小的字符差异可能决定了程序的生死，摘要往往会导致致命的信息丢失。

任务对比图 图 1：对话、推理与智能体记忆在因果性、符号多样性和客观信息密度上的差异。

2. AMA-Bench：更真实的智能体“考卷”

为了定义什么是真正的“智能体记忆”，研究者构建了 AMA-Bench，包含两个部分：

真实世界子集：涵盖 WebNavigation, Software Engineering, Text2SQL, Gaming 等 6 大领域，由专家手动标注具有挑战性的 QA 对。
合成子集：基于 TextWorld 和 BabyAI 等环境，可以程序化地生成任意长度（最高 128K 甚至更长）的交互轨迹，用于压力测试记忆的扩展性（Scalability）。

3. AMA-Agent：重构记忆系统

为了解决上述痛点，AMA-Agent 摒弃了单纯的向量检索，引入了两大核心武器：

A. 因果图构建 (Causality Graph Construction)

AMA-Agent 不再只是简单地存储文本切片，它会解析相邻的 (观测 t-1, 动作 t, 观测 t) 元组，识别出具体是哪个对象的哪个属性发生了变化。这些变化被建模为图中的节点和因果边。

B. 工具增强检索 (Tool-Augmented Retrieval)

这是 AMA-Agent 最具启发性的设计。当智能体发现普通的嵌入检索（Embedding Search）无法提供足够信息时，它会主动调用两个工具：

图节点搜索：沿着因果链进行深度遍历，找回丢失的前置条件。
关键字脚本搜索：通过编写 Python 脚本对全量轨迹进行精确匹配或统计（如“统计该变量在所有步骤中出现的频率”），这在处理结构化机器数据时远比模糊的语义搜索更有效。

AMA-Agent 架构图 图 2：AMA-Agent 核心架构：从轨迹到因果图的转换，以及混合工具检索机制。

4. 实验结论：架构胜过规模

论文中有一个非常有趣的发现：将模型规模从 8B 提升到 32B，性能提升微乎其微；但将内存架构从简单 RAG 替换为 AMA 的设计，准确率却能飙升。

在测试中，AMA-Agent 在所有维度（召回、因果推理、状态更新、状态抽象）上均达到了 SOTA。即便在轨迹长度达到 128K tokens 时，其他长上下文模型（如 Qwen2.5-1M）性能开始显著下滑，AMA-Agent 依然能保持极高的稳健性。

实验结果图 图 3：随轨迹长度增加，AMA-Agent 展示了优于传统长上下文模型的扩展稳定性。

5. 深度洞察

AMA-Bench 的出现证明了当前 LLM 智能体在处理 “以机器为中心的原始记录” 时还远未成熟。未来的智能体不应该只是“会写代码的聊天机器人”，而应该是一个能够维护精确世界状态、理解因果链条的操作系统。

总结 (Takeaway)：如果你在构建一个需要长时间运行的自主智能体（如 GitHub Copilot 的进阶版或自动化运维机器人），请务必关注其内存构建阶段的因果完整性。不要指望模型能通过搜索相似文本来猜出逻辑，给它一个可以进行精确检索的结构化因果图可能才是正解。

本文基于论文: AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

发现相似论文

试试这些示例

查找最近一年内针对智能体长程记忆（Long-Horizon Memory）提出的除了 AMA-Agent 以外的其他结构化存储方案。
分析 MemGPT 和 HippoRAG 的核心理论基础，并探讨它们在处理机器生成的非自然语言数据时的局限性来源。
是否有研究将类似 AMA-Agent 的因果图机制应用到多模态具身智能体（Embodied AI）的视觉导航或实时规划任务中？

[CVPR 2026] AMA-Bench & AMA-Agent：解耦智能体长程记忆的“因果迷雾”

1. TL;DR

2. 1. 痛点：为什么 RAG 在智能体任务中失效了？

3. 2. AMA-Bench：更真实的智能体“考卷”

4. 3. AMA-Agent：重构记忆系统

4.1. A. 因果图构建 (Causality Graph Construction)

4.2. B. 工具增强检索 (Tool-Augmented Retrieval)

5. 4. 实验结论：架构胜过规模

6. 5. 深度洞察