本文推出了 WebChain,这是目前最大的开源真人标注网页交互轨迹数据集,包含 31,725 条轨迹和 31.8 万个步骤。该工作的核心是实现了视觉、结构与动作的“三重对齐(Triple Alignment)”,并基于此提出了 Dual Mid-Training 训练范式,在 WebChainBench 等多个 GUI 基座测试中达到 SOTA 性能。
TL;DR
WebChain 是一个具有里程碑意义的开源项目,它提供了目前全球规模最大的真人标注网页交互数据集(3.1k+ 轨迹)。通过创新的 Triple Alignment(三重对齐) 技术和 Dual Mid-Training(双重中期训练) 范式,WebChain 成功解决了大视觉语言模型(VLM)在网页操作中的空间幻觉与逻辑断层问题,显著提升了长路径任务的成功率。
背景定位:从合成走向真实
在 GUI Agent 领域,尽管基于合成数据的研究层出不穷,但始终无法触及互联网最核心的部分:涉及个人隐私、银行登录、复杂逻辑验证的高价值工作流。WebChain 的核心价值在于它“拒绝对付”,完全通过真人标注采录了 428 个真实域名的交互,打破了企业级闭源数据的垄断,为社区提供了可重复研究的基石。
痛点深挖
- 数据分布偏置:合成数据往往在沙盒环境中进行,缺乏真实网页中的广告干扰、动态 DOM 结构和反爬虫检测。
- 空间幻觉(Spatial Hallucination):模型即使“看”到了网页,也经常点错位置。
- 规划失效:在超过 10 步的长链条任务中,由于缺乏中间推理过程(CoT)的引导,模型容易在操作中迷失目标。
核心方法论:三重对齐与双重训练
1. 三重对齐 (Triple Alignment)
WebChain 不仅仅记录点击了哪里,它将以下三者强行逻辑对齐:
- Visual:全页和视口截图。
- Structural:无障碍树(AX Tree)快照。
- Action:精确的像素坐标、CSS 选择器及 Bounding Box。

2. Dual Mid-Training 范式
这是本文最重要的算法洞察。作者发现,如果把“观察屏幕”和“思考怎么做”放在一起学,模型会互相干扰。
- SGRL (Spatial Grounding RL):利用视觉增强(VGD)和理由辅助(RP),专门强化模型“找按钮”的能力。
- CoT-SFT Mid-Training:在正式的强化学习之前,先基于合成的思维链(Rationale)进行微调,让模型学会“三思而后行”。
实验与结果
研究团队在自建的 WebChainBench 以及 AndroidControl, GUI-Odyssey 等公认榜单上进行了测试。

- 扩展效应(Scaling Law):实验清晰地显示,随着 WebChain 数据量的增加,模型的成功率呈阶梯式上升,证明了高质量标注数据的“暴力美学”。
- 跨域泛化:虽然是在网页上训练,但 WebChain 培养出的模型在移动端(Mobile)和桌面端任务上也表现出了极强的 Zero-shot 迁移能力,全面碾压了此前的基线模型。
深度洞察与总结
Takeaway: WebChain 的出现标志着 GUI Agent 的研究重心正在从“单纯的指令遵循(SFT)”转向“基于真实认知轨迹的强化学习(RL)”。
局限性与未来: 尽管 WebChain 规模庞大,但真人标注的成本依然高昂。未来的方向之一是如何利用 WebChain 作为种子,生成更多能够绕过反爬虫检测的高质量合成数据。此外,如何处理网页中视频流或动态交互(如拖拽、滑动)的实时反馈权衡,仍是待攻克的难关。
总之,WebChain 不仅提供了一堆数据,更提供了一套让模型从“能看懂网页”进化到“能像人一样上网”的方法论。
