WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

[CVPR 2026] WebChain：打破数据垄断，真人标注 31.8k 步构建最强网页智能体

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 WebChain，这是目前最大的开源真人标注网页交互轨迹数据集，包含 31,725 条轨迹和 31.8 万个步骤。该工作的核心是实现了视觉、结构与动作的“三重对齐（Triple Alignment）”，并基于此提出了 Dual Mid-Training 训练范式，在 WebChainBench 等多个 GUI 基座测试中达到 SOTA 性能。

TL;DR

WebChain 是一个具有里程碑意义的开源项目，它提供了目前全球规模最大的真人标注网页交互数据集（3.1k+ 轨迹）。通过创新的 Triple Alignment（三重对齐） 技术和 Dual Mid-Training（双重中期训练） 范式，WebChain 成功解决了大视觉语言模型（VLM）在网页操作中的空间幻觉与逻辑断层问题，显著提升了长路径任务的成功率。

背景定位：从合成走向真实

在 GUI Agent 领域，尽管基于合成数据的研究层出不穷，但始终无法触及互联网最核心的部分：涉及个人隐私、银行登录、复杂逻辑验证的高价值工作流。WebChain 的核心价值在于它“拒绝对付”，完全通过真人标注采录了 428 个真实域名的交互，打破了企业级闭源数据的垄断，为社区提供了可重复研究的基石。

痛点深挖

数据分布偏置：合成数据往往在沙盒环境中进行，缺乏真实网页中的广告干扰、动态 DOM 结构和反爬虫检测。
空间幻觉（Spatial Hallucination）：模型即使“看”到了网页，也经常点错位置。
规划失效：在超过 10 步的长链条任务中，由于缺乏中间推理过程（CoT）的引导，模型容易在操作中迷失目标。

核心方法论：三重对齐与双重训练

1. 三重对齐 (Triple Alignment)

WebChain 不仅仅记录点击了哪里，它将以下三者强行逻辑对齐：

Visual：全页和视口截图。
Structural：无障碍树（AX Tree）快照。
Action：精确的像素坐标、CSS 选择器及 Bounding Box。

模型架构与三阶段管线

2. Dual Mid-Training 范式

这是本文最重要的算法洞察。作者发现，如果把“观察屏幕”和“思考怎么做”放在一起学，模型会互相干扰。

SGRL (Spatial Grounding RL)：利用视觉增强（VGD）和理由辅助（RP），专门强化模型“找按钮”的能力。
CoT-SFT Mid-Training：在正式的强化学习之前，先基于合成的思维链（Rationale）进行微调，让模型学会“三思而后行”。

实验与结果

研究团队在自建的 WebChainBench 以及 AndroidControl, GUI-Odyssey 等公认榜单上进行了测试。

实验结果对比

扩展效应（Scaling Law）：实验清晰地显示，随着 WebChain 数据量的增加，模型的成功率呈阶梯式上升，证明了高质量标注数据的“暴力美学”。
跨域泛化：虽然是在网页上训练，但 WebChain 培养出的模型在移动端（Mobile）和桌面端任务上也表现出了极强的 Zero-shot 迁移能力，全面碾压了此前的基线模型。

深度洞察与总结

Takeaway： WebChain 的出现标志着 GUI Agent 的研究重心正在从“单纯的指令遵循（SFT）”转向“基于真实认知轨迹的强化学习（RL）”。

局限性与未来： 尽管 WebChain 规模庞大，但真人标注的成本依然高昂。未来的方向之一是如何利用 WebChain 作为种子，生成更多能够绕过反爬虫检测的高质量合成数据。此外，如何处理网页中视频流或动态交互（如拖拽、滑动）的实时反馈权衡，仍是待攻克的难关。

总之，WebChain 不仅提供了一堆数据，更提供了一套让模型从“能看懂网页”进化到“能像人一样上网”的方法论。

Find Similar Papers

Try Our Examples

查找最近其他利用自主强化学习（RL）提升 GUI Agent 在长路径任务中表现的 SOTA 论文。
哪篇论文最早提出了 Accessibility Tree 在网页 Agent 建模中的重要性，WebChain 是如何改进其结构对齐的？
有哪些研究将类似 WebChain 的真人标注轨迹数据集应用到了跨设备（如移动端到桌面端）的迁移学习任务中？

Contents

[CVPR 2026] WebChain：打破数据垄断，真人标注 31.8k 步构建最强网页智能体

1. TL;DR

2. 背景定位：从合成走向真实

3. 痛点深挖

4. 核心方法论：三重对齐与双重训练

4.1. 1. 三重对齐 (Triple Alignment)

4.2. 2. Dual Mid-Training 范式

5. 实验与结果

6. 深度洞察与总结