WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[ICLR 2025] WebNavigator:终结试错时代,开启网页导航的“上帝视角”
总结
问题
方法
结果
要点
摘要

本文提出了 WebNavigator,一种通过将网页导航从“概率性探索”转变为“确定性检索与路径规划”的新型框架。该方法利用离线构建的交互图(Interaction Graph)和在线的“检索-推理-传送”(Retrieve-Reason-Teleport)工作流,在 WebArena 和 Online-Mind2Web 任务上大幅刷新了 SOTA 纪录。

TL;DR

在自动驾驶领域,没有地图的车辆只能乱撞;在网页导航领域,没有全局拓扑的 Agent 同样在“盲跑”。南京大学研究团队提出的 WebNavigator 首次指出网页 Agent 的核心痛点是 拓扑盲视(Topological Blindness)。通过离线构建“交互图”并引入“检索-跳转”机制,它将网页导航从漫无目的的概率盲搜变成了精准的地图导航,在 WebArena 多站点任务上直接将成功率翻倍。

1. 痛点:为什么 Agent 会在网页中“迷路”?

当前的 SOTA Agent(如基于 ReAct 模式的插件)通常表现得像一个只有瞬时记忆的探险家:

  • 局部视角:只能从当前屏幕的 DOM 树推测下一步。
  • 高昂成本:为了找一个退款页面,可能要在无关链接间跳跃数十次,消耗大量 Token。
  • 易碎性:一旦链路中间出现干扰(如弹窗),规划就会崩溃。

作者认为,这并非 LLM 推理不够强,而是信息不对称。人类专家导航靠的是脑中的“站点地图”,而 Agent 处于完全的拓扑盲视状态。

2. 核心机制:Interaction Graph 与三段式导航

WebNavigator 的设计哲学是:能检索,就不搜索;能路径规划,就不概率预测

A. 离线构建:“零 Token”地图测绘

系统首先运行一个基于 Adaptive BFS(自适应广度优先搜索) 的启发式引擎。该引擎不消耗 LLM Token,而是对比 DOM 树的差异来识别交互元素。它会遍历网站的所有状态,记录“点击 A 按钮会从页面 V1 跳转到页面 V2”,最终生成一个 Interaction Graph(交互图)

模型架构图

B. 在线阶段:Retrieve-Reason-Teleport

当 Agent 收到指令(如“去订单页修改地址”)时,不再一步步点,而是:

  1. Retrieve(检索):根据意图,从交互图中检索相关度最高的 Top-K 页面截图。
  2. Reason(推理):多模态模型(如 Gemini-Pro 或 Qwen-VL)判断哪一个是真正正确的目标页。
  3. Teleport(传送):通过 Dijkstra 等算法计算图上的最短路径,直接执行动作序列将 Agent“传送”到目标位置。

3. 实验战绩:多站点任务的统治级表现

WebNavigator 在 WebArena 上的表现几乎是断层领先。尤其是在最复杂的 Multi-site 任务(需要跨越 CMS、地图、邮箱等多个站点协作)中,性能提升了 100%

实验结果对比

深度分析:为什么它更高效?

  • 动作空间极简:传统方法需要处理 focus_tab, scroll, hover 等十几个底层动作,WebNavigator 将其抽象为 navigate(domain, query)
  • 鲁棒性提升:由于路径是图中确定的,消除了 LLM 在每一步生成 Action 时可能产生的幻觉。
  • 成本极低:复杂的页面跳转过程通过本地方程解决,不需要 LLM 参与中间步,节省了大量 Context Window。

4. 深度洞察:网页导航的“拓扑骨架”

论文通过实验证明了一个有趣的结论:虽然网页的内容(商品、帖子)是无穷的,但其 拓扑骨架(Topological Skeleton) 是紧凑且有限的。 如下图所示,随着探索深度的增加,新节点的发现速度(Discovery Velocity)会迅速下降并趋于平稳。这意味着只要抓住了网站的功能骨架,复杂的导航问题就降维成了简单的图搜索问题。

拓扑骨架分析

5. 总结与展望

WebNavigator 的出现标志着网页 Agent 正在从“暴力探索”向“知识驱动”转型。它的成功告诉我们:外部环境知识的显式建模(Explicit Modeling) 比堆砌更强大的模型参数更能解决垂直领域的复杂规划问题。

虽然目前该方法在处理“由用户行为新生成的动态内容”方面仍有挑战(如刚发布的帖子不在预构建图中),但其在企业内部系统、固定流程自动化中的应用前景极其广阔。

发现相似论文

试试这些示例

  • 查找最近一年内针对大模型智能体在网页导航中解决“长程规划”或“环境建模”问题的相关论文。
  • 哪篇论文最早在 Web 智能体领域引入了图网络(Graph)表示环境拓扑,本文的交互图构造与之有何异同?
  • 探索将 WebNavigator 的“检索-传送”范式应用到移动端 App GUI 自动化或操作系统级 Agent 的可能性研究。
目录
[ICLR 2025] WebNavigator:终结试错时代,开启网页导航的“上帝视角”
1. TL;DR
2. 1. 痛点:为什么 Agent 会在网页中“迷路”?
3. 2. 核心机制:Interaction Graph 与三段式导航
3.1. A. 离线构建:“零 Token”地图测绘
3.2. B. 在线阶段:Retrieve-Reason-Teleport
4. 3. 实验战绩:多站点任务的统治级表现
4.1. 深度分析:为什么它更高效?
5. 4. 深度洞察:网页导航的“拓扑骨架”
6. 5. 总结与展望