UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

[CVPR 2026] UI-Voyager: 4B 小模型如何通过“失败的经验”超越人类专家？

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 UI-Voyager，一个专为移动 GUI 自动化设计的两阶段自演进训练框架。该框架结合了拒绝微调（RFT）和创新的群体相对自蒸馏（GRSD）机制，在 AndroidWorld 基准测试中，仅凭 4B 参数量的模型便达到了 81.0% 的 Pass@1 成功率，超越了人类水平及众多巨型参数模型。

TL;DR

移动端 GUI 自动化长期受制于长路径决策中的“反馈稀疏”问题。腾讯混元团队提出的 UI-Voyager 演示了如何通过 RFT（拒绝微调） 和 GRSD（群体相对自蒸馏） 两阶段框架，让 4B 参数的模型在 AndroidWorld 榜单上跑出了 81.0% 的惊人成绩，不仅干掉了 235B 的大模型，甚至超过了人类 80% 的平均成功率。

背景：为什么 GUI Agent 总是“差临门一脚”？

传统的 GUI 智能体训练主要依赖模仿学习（SFT）或强化学习（RL）。但在实际应用中，开发者面临两个极其头疼的问题：

信用分配难题：一个需要 30 步的操作，如果第 5 步点错了导致最后失败，传统的强化学习只会给整条路径打 0 分，模型根本不知道哪里错了。
数据极度浪费：在探索过程中，智能体会产生海量的失败记录，这些记录通常被直接废弃，导致学习效率极低。

性能对比图

核心机制：UI-Voyager 的自进化之路

UI-Voyager 的核心在于一个闭环的自演进管线，分为 RFT 和 GRSD 两个维度：

1. Rejection Fine-Tuning (RFT) —— 优胜劣汰

通过种子任务生成器产生大量新任务，让模型自主尝试。只有那些最终成功的轨迹（通过 rule-based verifier 验证）才会被喂回模型进行微调。这一阶段完成了模型从“能看懂 UI”到“能做对任务”的基础跨越。

2. Group Relative Self-Distillation (GRSD) —— 失败是成功之母

这是本文最具启发性的部分。当同一任务下，模型跑出了几条轨迹，有些成功了，有些失败了，UI-Voyager 并不只是丢掉失败的，而是进行分叉点检测（Fork Point Detection）：

状态对齐：使用 SSIM（结构相似度算法）对比失败轨迹和成功轨迹的屏幕截图。
定位分歧：如果两个轨迹在同一个界面（State）下，成功路径往左点，失败路径往右点，那么这个点就是“分叉点”。
原地纠错：将成功路径在该点的“正确决策”提取出来，作为标签去监督失败路径在该点的“错误思维”。

模型架构与流程

实验分析：精准纠错的力量

在 AndroidWorld 的测试中，UI-Voyager (4B) 的表现堪称惊艳。

效率碾压：相比 GRPO 和 PPO 这种通用的强化学习算法，GRSD 能够利用失败轨迹中的“局部正确性”，提供更稠密的监督信号。实验证明，GRSD 后的模型在面对低成功率的困难任务（如 BrowserMaze）时，提升幅度远超传统 RL。
分叉点可视化：通过对 SystemBluetoothTurnOff 等任务的复盘，发现模型能够精准定位到是因为初始滑动方向（向上滑还是向下滑通知栏）导致的分歧，并通过蒸馏快速修正了这一行为。

分叉点检测示意图

深度洞察：小模型的逆袭

UI-Voyager 的成功向行业传递了一个信号：数据质量与反馈精度优于模型参数量。

很多 70B 甚至 235B 的模型在 GUI 任务上折戟，是因为它们空有推理能力，却不理解 UI 交互中的微小状态变化。UI-Voyager 通过 SSIM 这种简单的物理直觉（图像结构相似度）找到了最廉价且有效的状态对齐方式，从而实现了高效的自蒸馏。

总结与未来展望

UI-Voyager 成功在 AndroidWorld 上刷到了 81% 的 SOTA。尽管目前仍面临实时执行中的异步性挑战（如 SSIM 对动画效果敏感），但其提出的 GRSD 框架为解决 Agent 的长路径决策问题提供了新的范式。

未来的移动 GUI 智能体，或许不再需要昂贵的人工演示标注，而是在不断的自尝试、自纠错中，进化成比用户更懂手机的“原生管家”。

实验结果列表

Find Similar Papers

Try Our Examples

查找最近一年在 GUI Agent 领域中使用分叉点检测或决策点搜索（Divergence Detection）的其他改进算法。
哪篇论文最早在强化学习或智能体训练中提出了 Rejection Fine-Tuning (RFT) 的核心概念，本文对其做了哪些适配移动端的修改？
探究如何将 UI-Voyager 的自蒸馏机制应用到 Web 自动化或桌面操作系统（OS）级别的复杂多步交互任务中。

Contents

[CVPR 2026] UI-Voyager: 4B 小模型如何通过“失败的经验”超越人类专家？

1. TL;DR

2. 背景：为什么 GUI Agent 总是“差临门一脚”？

3. 核心机制：UI-Voyager 的自进化之路

3.1. 1. Rejection Fine-Tuning (RFT) —— 优胜劣汰

3.2. 2. Group Relative Self-Distillation (GRSD) —— 失败是成功之母

4. 实验分析：精准纠错的力量

5. 深度洞察：小模型的逆袭

6. 总结与未来展望