本文提出了 AndroTMem,一个针对长程 Android GUI 智能体的交互记忆诊断框架。该框架包含拥有 1,069 个任务、强化步骤间因果依赖的基准测试集 AndroTMem-Bench,并提出锚点状态记忆(Anchored State Memory, ASM)机制,通过 causally linked 的状态锚点显著提升了智能体在复杂跨应用任务中的表现。
TL;DR
在 Android GUI 自动化的世界里,智能体往往“狗熊掰棒子”——做一步忘一步。即使是最强的 MLLM(如 GPT-4o 或 Gemini 系列),在面对超过 30 步的跨应用长程任务时,成功率也会因记忆失效而雪崩。本文提出的 AndroTMem-Bench 专门针对这一痛点设计的长程因果依赖测试,并引入了锚点状态记忆(Anchored State Memory, ASM),通过将历史抽象为结构化因果锚点,使智能体 TCR 最高提升了 30% 以上。
痛点深挖:为什么智能体胜任不了“复杂任务”?
现有的移动端智能体研究多聚焦于单页面感知或 5-10 步内的短路操作。然而,真实的移动设备场景(如:跨应用比价、多方协调会议)往往是长程且具备强因果依赖的。
作者指出,当前的主流方案有两个极端:
- Raw Traces (全量回放):把过去的每一张截图和动作都塞给 LLM。但这会导致 Context 极速膨胀,噪声稀释了关键信息。
- Coarse Summary (粗粒度摘要):虽然省空间,但往往会把关键的中间细节(如某个验证码、提取的特定价格)“压缩”掉。
论文通过诊断发现,当任务步骤增加时,性能下降的元凶并不是智能体“看不懂屏幕”,而是它**“记不住之前拿到的关键状态”**。
核心方法:锚点状态记忆 (ASM)
为了解决记忆瓶颈,作者受到认知心理学启发,提出了 Anchored State Memory (ASM)。不同于线性的历史记录,ASM 像是一个动态更新的知识图谱。
1. 什么是状态锚点 (State Anchors)?
ASM 将历史抽象为 6 类关键锚点:
- Subgoal (子目标):标记如“已登录”、“已加入购物车”等里程碑。
- State Change (状态转换):记录进入支付页面、切换权限等环境剧变。
- Dependency (因果依赖):显式记录“在应用 A 复制的文本要用到应用 B”。
- Exception (异常处理):记录弹窗关闭、广告拦截等非主线任务。
- Context Info (上下文信息):如日期、地点等全局约束。
- Finish (完成标志)。
2. 检索-推理-更新流程
智能体不再被动接收所有历史,而是:
- 根据当前 UI 状态 Retrieve 最相关的锚点。
- 结合当前感知进行 Act。
- 执行后 Update 记忆库,添加新的锚点或建立因果链接(Causal Links)。
图 1: AndroTMem 架构概览,展示了从任务指令到锚点记忆驱动的决策循环
实验战绩:全线突破
作者测试了包括 GPT-4o, Gemini-3-Flash, UI-TARS 等在内的 12 个强力 Agent。
性能对比
在 AndroTMem-Bench 上,所有智能体的原生表现都不尽如人意,这意味着长程因果任务确实是“硬骨头”。但在引入 ASM 后,性能得到了质的飞跃:
- Gemini-2.5-Pro 使用 ASM 后,任务完成率 (TCR) 从 41.11% 飙升至 63.40%。
- Qwen2.5-VL-7B 也有类似量级的提升,证明了该方法的普适性。
图 2: 不同历史利用策略下的性能随步骤数增加的衰减趋势对比((c) ASM 表现最稳健)
效率分析
相比 Raw Traces,ASM 的 Token 消耗降低了约 50%-70%,且推理时间更短,达到了效率与效果的平衡。
诊断洞察:失败到底长什么样?
论文总结了 5 类典型的记忆失效模式:
- State Loss (状态丢失):前面提取的信息到后面找不到了。
- State Mis-binding (绑定失效):信息记住了,但对应错了 UI 元素。
- Context Drift (语境漂移):在多应用切换中搞混了当前的操作目的。
- Unverified Progress (进度冒进):子目标没达成却以为达成了。
- Interruption Failure (中断处理失败):遇到权限弹窗就“宕机”。
ASM 通过显式的 causal_link 结构,有效缓解了这些问题,使智能体具备了更强的韧性。
总结与展望
AndroTMem 的工作告诉我们,要让 LLM 真正成为“手机管家”,不能只拼硬件(Token 长度)和算力,更要拼记忆的组织方式。
局限性:目前该研究主要集中在单次会话(Single-session),对于需要跨越数天甚至需要应对 UI 大幅度动态更新的长周期记忆,仍有探索空间。
如果你正在开发跨应用自动化 Agent,AndroTMem 提出的“因果锚点”思路无疑是目前对抗长程失效的最优雅解法之一。
论文引用: Shi, Y., et al. "AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents." arXiv 2026.
