本文提出了 WebNavigator,一种通过将网页导航从“概率性探索”转变为“确定性检索与路径规划”的新型框架。该方法利用离线构建的交互图(Interaction Graph)和在线的“检索-推理-传送”(Retrieve-Reason-Teleport)工作流,在 WebArena 和 Online-Mind2Web 任务上大幅刷新了 SOTA 纪录。
TL;DR
在自动驾驶领域,没有地图的车辆只能乱撞;在网页导航领域,没有全局拓扑的 Agent 同样在“盲跑”。南京大学研究团队提出的 WebNavigator 首次指出网页 Agent 的核心痛点是 拓扑盲视(Topological Blindness)。通过离线构建“交互图”并引入“检索-跳转”机制,它将网页导航从漫无目的的概率盲搜变成了精准的地图导航,在 WebArena 多站点任务上直接将成功率翻倍。
1. 痛点:为什么 Agent 会在网页中“迷路”?
当前的 SOTA Agent(如基于 ReAct 模式的插件)通常表现得像一个只有瞬时记忆的探险家:
- 局部视角:只能从当前屏幕的 DOM 树推测下一步。
- 高昂成本:为了找一个退款页面,可能要在无关链接间跳跃数十次,消耗大量 Token。
- 易碎性:一旦链路中间出现干扰(如弹窗),规划就会崩溃。
作者认为,这并非 LLM 推理不够强,而是信息不对称。人类专家导航靠的是脑中的“站点地图”,而 Agent 处于完全的拓扑盲视状态。
2. 核心机制:Interaction Graph 与三段式导航
WebNavigator 的设计哲学是:能检索,就不搜索;能路径规划,就不概率预测。
A. 离线构建:“零 Token”地图测绘
系统首先运行一个基于 Adaptive BFS(自适应广度优先搜索) 的启发式引擎。该引擎不消耗 LLM Token,而是对比 DOM 树的差异来识别交互元素。它会遍历网站的所有状态,记录“点击 A 按钮会从页面 V1 跳转到页面 V2”,最终生成一个 Interaction Graph(交互图)。

B. 在线阶段:Retrieve-Reason-Teleport
当 Agent 收到指令(如“去订单页修改地址”)时,不再一步步点,而是:
- Retrieve(检索):根据意图,从交互图中检索相关度最高的 Top-K 页面截图。
- Reason(推理):多模态模型(如 Gemini-Pro 或 Qwen-VL)判断哪一个是真正正确的目标页。
- Teleport(传送):通过 Dijkstra 等算法计算图上的最短路径,直接执行动作序列将 Agent“传送”到目标位置。
3. 实验战绩:多站点任务的统治级表现
WebNavigator 在 WebArena 上的表现几乎是断层领先。尤其是在最复杂的 Multi-site 任务(需要跨越 CMS、地图、邮箱等多个站点协作)中,性能提升了 100%。

深度分析:为什么它更高效?
- 动作空间极简:传统方法需要处理
focus_tab,scroll,hover等十几个底层动作,WebNavigator 将其抽象为navigate(domain, query)。 - 鲁棒性提升:由于路径是图中确定的,消除了 LLM 在每一步生成 Action 时可能产生的幻觉。
- 成本极低:复杂的页面跳转过程通过本地方程解决,不需要 LLM 参与中间步,节省了大量 Context Window。
4. 深度洞察:网页导航的“拓扑骨架”
论文通过实验证明了一个有趣的结论:虽然网页的内容(商品、帖子)是无穷的,但其 拓扑骨架(Topological Skeleton) 是紧凑且有限的。 如下图所示,随着探索深度的增加,新节点的发现速度(Discovery Velocity)会迅速下降并趋于平稳。这意味着只要抓住了网站的功能骨架,复杂的导航问题就降维成了简单的图搜索问题。

5. 总结与展望
WebNavigator 的出现标志着网页 Agent 正在从“暴力探索”向“知识驱动”转型。它的成功告诉我们:外部环境知识的显式建模(Explicit Modeling) 比堆砌更强大的模型参数更能解决垂直领域的复杂规划问题。
虽然目前该方法在处理“由用户行为新生成的动态内容”方面仍有挑战(如刚发布的帖子不在预构建图中),但其在企业内部系统、固定流程自动化中的应用前景极其广阔。
