MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

[2026 技术前瞻] MolmoWeb：全开源视觉 Web Agent 时代的到来，8B 轻量模型如何吊打 GPT-4o？

总结

问题

方法

结果

要点

摘要

本文介绍了 MolmoWeb，一系列全开源的视觉 Web Agent（4B 和 8B 参数量），以及大规模训练数据集 MolmoWebMix。MolmoWeb 仅凭屏幕截图即可执行复杂的浏览器任务，在 WebVoyager 等多个 benchmark 上超越了同规模的 Fara-7B，甚至击败了基于 GPT-4o 的闭源感知 Agent。

TL;DR

长期以来，能在网页上像人一样自由穿梭的 AI 代理（Web Agent）一直被 GPT-4o 或 Gemini 等巨头垄断。近日，Allen Institute for AI (AI2) 发布的 MolmoWeb 彻底打破了这一格局。这套全开源的系统证明了：无需臃肿的 HTML 代码，仅凭屏幕截图（Vision-only），一个 8B 大小的模型就能在网页任务处理上超越顶尖闭源模型。

痛点深挖：HTML 的“诅咒”与黑箱困境

在 MolmoWeb 出现之前，主流 Web Agent 方案主要面临两个死锁：

输入过载 (Token Bloat)：传统的 Agent 需要阅读页面的 AxTree（可访问性树），这往往消耗数万个 Token，推理成本高昂且速度缓慢。
闭源不透明：商业模型虽然强大，但其训练数据和操作逻辑是黑箱，研究者无法复现，也难以针对垂直业务（如内部办公系统）进行优化。

作者的 Insight 非常激进： 人类使用网页只需眼睛看，不看源代码。AI 也应该如此。通过模拟人类的视觉感知，Agent 可以摆脱对底层 DOM 结构的依赖，增强模型对动态内容的鲁棒性。

方法论详解：如何炼就“火眼金睛”？

MolmoWeb 的核心不在于复杂的架构（它基于现有的 Molmo2 视觉语言模型），而在于其史诗级的训练集 MolmoWebMix。

1. 导师机制 (AxTree-to-Pixel)

为了教模型如何在像素层面操作，作者利用一个“懂 HTML”的强力模型（如 Gemini Flash）在界面上行走。导师看到的是代码，但系统会同步记录下当时的屏幕截图和点击的像素坐标。

创新点：将“点击元素 ID”转化为“点击 X, Y 坐标”，强制模型学习视觉定位（Grounding）能力。

2. 多智能体协作流水线 (Multi-agent Pipeline)

为了生成比普通 LLM 更具逻辑性的操作序列，作者设计了一个三重架构：

Planner：负责拆解目标（如：先搜索，再过滤，最后下单）。
Operator：负责执行具体的单步点击。
Verifier：每一步后观察截图，验证该步骤是否成功。

多智能体协作流程图

3. 操作空间定义

模型不仅输出动作，还会先输出一段自然语言“思考”（Thought），这种类似 Chain-of-Thought 的机制显著提升了在长流程任务中的逻辑连贯性。

模型架构与操作示意

实验与结果：小模型的大反扑

实验结果令人振奋。在主流的 WebVoyager 榜单上：

MolmoWeb-8B 的 Pass@1 达到了 78.2%，显著高于同级别的 Fara-7B (73.5%)。
并行缩放 (Pass@4)：当你让模型跑 4 次并让 VLM 判定最好的结果时，成功率直接飙升至 94.7%！

性能对比柱状图

深度洞察：合成数据 VS 人类数据 有趣的是，实验发现单纯使用人类演示数据的效果反而不如合成数据。原因在于： 人类在浏览网页时会有很多冗余的探索（乱点、犹豫），而基于 HTML 代码生成的合成数据轨迹更直接、干净，信噪比更高，更适合 Agent 进行模仿学习（Imitation Learning）。

| 训练数据 | WebVoyager (WebV) | Online-Mind2Web (OM2W) | | :--- | :--- | :--- | | 仅人类数据 (28K) | 27.8 | 13.2 | | 仅合成轨迹 (106K) | 67.8 | 22.0 | | 混合策略 (MolmoWebMix) | 68.5 | 21.4 |

总结与展望 (Conclusion)

MolmoWeb 的发布标志着 视觉 Web Agent 彻底走向平民化。

它的价值在于：

性能降维打击：用 8B 的参数量达到了以往需要千亿级模型加持的效果。
全流程开源：从代码、权重到 10M 级别的感知数据全部公开，这为开发者构建垂直领域的“数字员工”提供了最佳底座。

局限性： 尽管强大，模型在处理极小文字的 OCR 以及包含超过 10 步的超长逻辑决策时仍有翻车可能。未来的突破点可能在于引入强化学习（RL），让 Agent 在不断的“试错”中学会自动纠错。

Takeaway: 别再死磕 HTML 爬虫了，视觉感知才是大模型操作电脑的正确姿势。

发现相似论文

试试这些示例

查找最近其他尝试解决 Web Agent 任务中 HTML Token 消耗过大问题的全视觉（Vision-only）模型研究。
哪篇论文最早提出了 Web 任务中“规划-执行-验证”（Planner-Operator-Verifier）的多智能体架构，本文在复杂指令处理上对其做了哪些改进？
调研目前将视觉 Web Agent 应用于移动端 GUI（如 Android/iOS）自动化测试或辅助功能的最新 SOTA 方法。

[2026 技术前瞻] MolmoWeb：全开源视觉 Web Agent 时代的到来，8B 轻量模型如何吊打 GPT-4o？

1. TL;DR

2. 痛点深挖：HTML 的“诅咒”与黑箱困境

3. 方法论详解：如何炼就“火眼金睛”？

3.1. 1. 导师机制 (AxTree-to-Pixel)

3.2. 2. 多智能体协作流水线 (Multi-agent Pipeline)

3.3. 3. 操作空间定义

4. 实验与结果：小模型的大反扑

5. 总结与展望 (Conclusion)