AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents

[ICLR 2026] AndroTMem：攻克长程 GUI 智能体的“短时记忆”瓶颈

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 AndroTMem，一个针对长程 Android GUI 智能体的交互记忆诊断框架。该框架包含拥有 1,069 个任务、强化步骤间因果依赖的基准测试集 AndroTMem-Bench，并提出锚点状态记忆（Anchored State Memory, ASM）机制，通过 causally linked 的状态锚点显著提升了智能体在复杂跨应用任务中的表现。

TL;DR

在 Android GUI 自动化的世界里，智能体往往“狗熊掰棒子”——做一步忘一步。即使是最强的 MLLM（如 GPT-4o 或 Gemini 系列），在面对超过 30 步的跨应用长程任务时，成功率也会因记忆失效而雪崩。本文提出的 AndroTMem-Bench 专门针对这一痛点设计的长程因果依赖测试，并引入了锚点状态记忆（Anchored State Memory, ASM），通过将历史抽象为结构化因果锚点，使智能体 TCR 最高提升了 30% 以上。

痛点深挖：为什么智能体胜任不了“复杂任务”？

现有的移动端智能体研究多聚焦于单页面感知或 5-10 步内的短路操作。然而，真实的移动设备场景（如：跨应用比价、多方协调会议）往往是长程且具备强因果依赖的。

作者指出，当前的主流方案有两个极端：

Raw Traces (全量回放)：把过去的每一张截图和动作都塞给 LLM。但这会导致 Context 极速膨胀，噪声稀释了关键信息。
Coarse Summary (粗粒度摘要)：虽然省空间，但往往会把关键的中间细节（如某个验证码、提取的特定价格）“压缩”掉。

论文通过诊断发现，当任务步骤增加时，性能下降的元凶并不是智能体“看不懂屏幕”，而是它**“记不住之前拿到的关键状态”**。

核心方法：锚点状态记忆 (ASM)

为了解决记忆瓶颈，作者受到认知心理学启发，提出了 Anchored State Memory (ASM)。不同于线性的历史记录，ASM 像是一个动态更新的知识图谱。

1. 什么是状态锚点 (State Anchors)？

ASM 将历史抽象为 6 类关键锚点：

Subgoal (子目标)：标记如“已登录”、“已加入购物车”等里程碑。
State Change (状态转换)：记录进入支付页面、切换权限等环境剧变。
Dependency (因果依赖)：显式记录“在应用 A 复制的文本要用到应用 B”。
Exception (异常处理)：记录弹窗关闭、广告拦截等非主线任务。
Context Info (上下文信息)：如日期、地点等全局约束。
Finish (完成标志)。

2. 检索-推理-更新流程

智能体不再被动接收所有历史，而是：

根据当前 UI 状态 Retrieve 最相关的锚点。
结合当前感知进行 Act。
执行后 Update 记忆库，添加新的锚点或建立因果链接（Causal Links）。

模型架构图 图 1: AndroTMem 架构概览，展示了从任务指令到锚点记忆驱动的决策循环

实验战绩：全线突破

作者测试了包括 GPT-4o, Gemini-3-Flash, UI-TARS 等在内的 12 个强力 Agent。

性能对比

在 AndroTMem-Bench 上，所有智能体的原生表现都不尽如人意，这意味着长程因果任务确实是“硬骨头”。但在引入 ASM 后，性能得到了质的飞跃：

Gemini-2.5-Pro 使用 ASM 后，任务完成率 (TCR) 从 41.11% 飙升至 63.40%。
Qwen2.5-VL-7B 也有类似量级的提升，证明了该方法的普适性。

实验结果对比 图 2: 不同历史利用策略下的性能随步骤数增加的衰减趋势对比（(c) ASM 表现最稳健）

效率分析

相比 Raw Traces，ASM 的 Token 消耗降低了约 50%-70%，且推理时间更短，达到了效率与效果的平衡。

诊断洞察：失败到底长什么样？

论文总结了 5 类典型的记忆失效模式：

State Loss (状态丢失)：前面提取的信息到后面找不到了。
State Mis-binding (绑定失效)：信息记住了，但对应错了 UI 元素。
Context Drift (语境漂移)：在多应用切换中搞混了当前的操作目的。
Unverified Progress (进度冒进)：子目标没达成却以为达成了。
Interruption Failure (中断处理失败)：遇到权限弹窗就“宕机”。

ASM 通过显式的 causal_link 结构，有效缓解了这些问题，使智能体具备了更强的韧性。

总结与展望

AndroTMem 的工作告诉我们，要让 LLM 真正成为“手机管家”，不能只拼硬件（Token 长度）和算力，更要拼记忆的组织方式。

局限性：目前该研究主要集中在单次会话（Single-session），对于需要跨越数天甚至需要应对 UI 大幅度动态更新的长周期记忆，仍有探索空间。

如果你正在开发跨应用自动化 Agent，AndroTMem 提出的“因果锚点”思路无疑是目前对抗长程失效的最优雅解法之一。

论文引用： Shi, Y., et al. "AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents." arXiv 2026.

Find Similar Papers

Try Our Examples

查找最近一年内针对大模型智能体（LLM Agents）长程任务记忆瓶颈的其他基准测试或数据集。
哪篇论文最早探讨了在 GUI 自动化中使用结构化状态表示而非原始像素/文本历史，本文与其在因果链条建模上有何区别？
有哪些研究已经将类似 ASM 的锚点机制应用到了具身智能（Embodied AI）或网络导航（Web Navigation）等其他长程决策任务中？

Contents

[ICLR 2026] AndroTMem：攻克长程 GUI 智能体的“短时记忆”瓶颈

1. TL;DR

2. 痛点深挖：为什么智能体胜任不了“复杂任务”？

3. 核心方法：锚点状态记忆 (ASM)

3.1. 1. 什么是状态锚点 (State Anchors)？

3.2. 2. 检索-推理-更新流程

4. 实验战绩：全线突破

4.1. 性能对比

4.2. 效率分析

5. 诊断洞察：失败到底长什么样？

6. 总结与展望