WisPaper
WisPaper
Scholar Search
Scholar QA
AI Feeds
Pricing
TrueCite
[ICLR 2026] AndroTMem:攻克长程 GUI 智能体的“短时记忆”瓶颈
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 AndroTMem,一个针对长程 Android GUI 智能体的交互记忆诊断框架。该框架包含拥有 1,069 个任务、强化步骤间因果依赖的基准测试集 AndroTMem-Bench,并提出锚点状态记忆(Anchored State Memory, ASM)机制,通过 causally linked 的状态锚点显著提升了智能体在复杂跨应用任务中的表现。

TL;DR

在 Android GUI 自动化的世界里,智能体往往“狗熊掰棒子”——做一步忘一步。即使是最强的 MLLM(如 GPT-4o 或 Gemini 系列),在面对超过 30 步的跨应用长程任务时,成功率也会因记忆失效而雪崩。本文提出的 AndroTMem-Bench 专门针对这一痛点设计的长程因果依赖测试,并引入了锚点状态记忆(Anchored State Memory, ASM),通过将历史抽象为结构化因果锚点,使智能体 TCR 最高提升了 30% 以上。

痛点深挖:为什么智能体胜任不了“复杂任务”?

现有的移动端智能体研究多聚焦于单页面感知或 5-10 步内的短路操作。然而,真实的移动设备场景(如:跨应用比价、多方协调会议)往往是长程且具备强因果依赖的。

作者指出,当前的主流方案有两个极端:

  1. Raw Traces (全量回放):把过去的每一张截图和动作都塞给 LLM。但这会导致 Context 极速膨胀,噪声稀释了关键信息。
  2. Coarse Summary (粗粒度摘要):虽然省空间,但往往会把关键的中间细节(如某个验证码、提取的特定价格)“压缩”掉。

论文通过诊断发现,当任务步骤增加时,性能下降的元凶并不是智能体“看不懂屏幕”,而是它**“记不住之前拿到的关键状态”**。

核心方法:锚点状态记忆 (ASM)

为了解决记忆瓶颈,作者受到认知心理学启发,提出了 Anchored State Memory (ASM)。不同于线性的历史记录,ASM 像是一个动态更新的知识图谱

1. 什么是状态锚点 (State Anchors)?

ASM 将历史抽象为 6 类关键锚点:

  • Subgoal (子目标):标记如“已登录”、“已加入购物车”等里程碑。
  • State Change (状态转换):记录进入支付页面、切换权限等环境剧变。
  • Dependency (因果依赖):显式记录“在应用 A 复制的文本要用到应用 B”。
  • Exception (异常处理):记录弹窗关闭、广告拦截等非主线任务。
  • Context Info (上下文信息):如日期、地点等全局约束。
  • Finish (完成标志)

2. 检索-推理-更新流程

智能体不再被动接收所有历史,而是:

  • 根据当前 UI 状态 Retrieve 最相关的锚点。
  • 结合当前感知进行 Act
  • 执行后 Update 记忆库,添加新的锚点或建立因果链接(Causal Links)。

模型架构图 图 1: AndroTMem 架构概览,展示了从任务指令到锚点记忆驱动的决策循环

实验战绩:全线突破

作者测试了包括 GPT-4o, Gemini-3-Flash, UI-TARS 等在内的 12 个强力 Agent。

性能对比

在 AndroTMem-Bench 上,所有智能体的原生表现都不尽如人意,这意味着长程因果任务确实是“硬骨头”。但在引入 ASM 后,性能得到了质的飞跃:

  • Gemini-2.5-Pro 使用 ASM 后,任务完成率 (TCR) 从 41.11% 飙升至 63.40%
  • Qwen2.5-VL-7B 也有类似量级的提升,证明了该方法的普适性。

实验结果对比 图 2: 不同历史利用策略下的性能随步骤数增加的衰减趋势对比((c) ASM 表现最稳健)

效率分析

相比 Raw Traces,ASM 的 Token 消耗降低了约 50%-70%,且推理时间更短,达到了效率与效果的平衡。

诊断洞察:失败到底长什么样?

论文总结了 5 类典型的记忆失效模式:

  1. State Loss (状态丢失):前面提取的信息到后面找不到了。
  2. State Mis-binding (绑定失效):信息记住了,但对应错了 UI 元素。
  3. Context Drift (语境漂移):在多应用切换中搞混了当前的操作目的。
  4. Unverified Progress (进度冒进):子目标没达成却以为达成了。
  5. Interruption Failure (中断处理失败):遇到权限弹窗就“宕机”。

ASM 通过显式的 causal_link 结构,有效缓解了这些问题,使智能体具备了更强的韧性。

总结与展望

AndroTMem 的工作告诉我们,要让 LLM 真正成为“手机管家”,不能只拼硬件(Token 长度)和算力,更要拼记忆的组织方式

局限性:目前该研究主要集中在单次会话(Single-session),对于需要跨越数天甚至需要应对 UI 大幅度动态更新的长周期记忆,仍有探索空间。

如果你正在开发跨应用自动化 Agent,AndroTMem 提出的“因果锚点”思路无疑是目前对抗长程失效的最优雅解法之一。


论文引用: Shi, Y., et al. "AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents." arXiv 2026.

Find Similar Papers

Try Our Examples

  • 查找最近一年内针对大模型智能体(LLM Agents)长程任务记忆瓶颈的其他基准测试或数据集。
  • 哪篇论文最早探讨了在 GUI 自动化中使用结构化状态表示而非原始像素/文本历史,本文与其在因果链条建模上有何区别?
  • 有哪些研究已经将类似 ASM 的锚点机制应用到了具身智能(Embodied AI)或网络导航(Web Navigation)等其他长程决策任务中?
Contents
[ICLR 2026] AndroTMem:攻克长程 GUI 智能体的“短时记忆”瓶颈
1. TL;DR
2. 痛点深挖:为什么智能体胜任不了“复杂任务”?
3. 核心方法:锚点状态记忆 (ASM)
3.1. 1. 什么是状态锚点 (State Anchors)?
3.2. 2. 检索-推理-更新流程
4. 实验战绩:全线突破
4.1. 性能对比
4.2. 效率分析
5. 诊断洞察:失败到底长什么样?
6. 总结与展望