ClawBench: Can AI Agents Complete Everyday Online Tasks?

Scholar Search

Scholar QA

Pricing

TrueCite

ClawBench: Can AI Agents Complete Everyday Online Tasks?

[arXiv 2026] ClawBench: 突破沙盒幻象，AI Agent 能搞定你的真实生活吗？

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 ClawBench，一个包含 153 个真实世界日常在线任务的基准测试框架，覆盖 144 个活跃平台和 15 个生活类别。该框架通过轻量级拦截机制实现在生产环境中的安全评估，填补了现有基准在“重写入、具有真实后果”任务上的评估空白。

TL;DR

如果你认为 AI Agent 已经能够完美接管你的浏览器，那可能是因为它们还在“温室”里刷榜。本文介绍的 ClawBench 抛弃了传统的离线沙盒，直接在 144 个真实的线上平台（包括购物、求职、金融等）挑战 AI Agent。结果令人震惊：即使是最强的 Claude Sonnet 4.6，在真实世界的任务成功率也仅为 33.3%，而 GPT-5.4 更是跌破了 10%。

背景定位：从“看网页”到“办实事”

目前的 Web Agent 研究正处于一个尴尬的阶段。在 WebArena 等传统榜单上，模型似乎已经无所不能。但这些榜单实际上是“静态的标本”，缺乏真实网页的生命力。

ClawBench 的核心贡献在于它定义了 Write-heavy（重写入） 任务的重要性。AI 替你总结网页（Read-only）只是第一步，替你填好 50 个表单字段并精准点击“提交”（Write-heavy）才是通往通用助手的必经之路。

痛点深挖：为什么实验室的高分在现实中失灵？

作者指出，现有 Benchmark 存在三大缺陷：

环境真空化：沙盒环境没有验证码、没有动态渲染的弹窗、没有不断更新的 DOM 结构。
任务轻量化：大多侧重信息检索，而非改变服务器状态（State-changing）的操作。
评估模糊化：简单的 URL 匹配无法捕捉 Agent 在复杂表单填充中的细微错误。

核心机制：如何在不刷爆信用卡的情况下评估？

ClawBench 解决“安全”与“真实”矛盾的手段非常精巧：精准外科手术式拦截。

1. 拦截机制 (Interception Mechanism)

与其构建整个网站的副本，不如在数据发往服务器的最后一刻将其截获。系统通过人手标注每个任务的“终极 HTTP 请求”特征（URL 匹配、Payload 模式），利用 Chrome 扩展在浏览器底座直接阻断。这意味着 Agent 可以自由点击、浏览、填表，但最后的“支付”或“提交”动作被拦截并记录在案，用于评分。

ClawBench 评估流程图

2. 五层日志与 Agentic Evaluator

为了让失败“可溯源”，ClawBench 记录了海量数据：

Session Replay: 录屏，看 Agent 到底看到了什么。
Action Screenshots: 每一步的快照。
HTTP Traffic: 捕获所有网络交互。
Agent Messages: 记录思维链（CoT）。
Browser Actions: 底层点击和滚屏坐标。

评估时，引入一个 Agentic Evaluator (基于 Claude Code)。它不是简单看结果，而是将 Agent 的五层轨迹与人类专家的参考轨迹进行“对齐式对比”。这种 Comparative Signal（比较信号） 能精准指出：哪一个必填字段填错了？哪一步逻辑发生了偏离？

实验与结果：现实给模型的一记重锤

研究团队对 7 个前沿模型进行了大考。

| 模型 | 综合成功率 (SR) | 日常生活 | 金融 | 办公 | 开发 | | :--- | :--- | :--- | :--- | :--- | :--- | | Claude Sonnet 4.6 | 33.3 | 44.2 | 50.0 | 19.0 | 11.1 | | GLM-5 | 24.2 | 30.8 | 16.7 | 38.1 | 16.7 | | GPT-5.4 | 6.5 | 9.6 | 0.0 | 0.0 | 11.1 |

各模型表现对比

深度洞察：

强者恒强，但上限极低：Claude Sonnet 4.6 确实是目前最好的 Web Agent，但也只能完成三分之一的任务。
领域的“偏科”：有趣的是，GLM-5 在工作（Work）类别表现最好，而 Gemini 3 则在旅游（Travel）类领先。这说明目前的训练数据在不同垂直领域的分布存在失衡。
现实的毒打：GPT-5.4 在传统榜单与 ClawBench 之间的巨大分差（~70% vs 6.5%）再次证明，现有的实验室基准可能存在严重的过拟合。

深度探讨与总结 (Takeaway)

ClawBench 的出现宣告了 Web Agent 评估“拟真时代”的终结。它迫使开发者面对：

Inductive Bias (归纳偏置)：模型需要更强的处理复杂 DOM 和长链路表单的能力。
Traceability (溯源性)：单纯的 Pass/Fail 已经不够，我们需要更细颗粒度的错误分析。

局限性：虽然拦截机制解决了大部分安全问题，但某些网站的防御机制可能会因为检测到频繁的异常请求（即使被拦截）而封禁测试账号。此外，真实网页的快速迭代意味着 Benchmarking 维护是一个长期的人力工程。

一句话总结：AI Agent 离成为真正的“数字管家”还有很长的路要走，而 ClawBench 为这段路立下了一座极其冷峻且真实的里程碑。

Find Similar Papers

Try Our Examples

查找最近一年内针对大语言模型 Agent 在真实动态网页（Live Website）交互中处理 Anti-bot 机制的其他研究。
哪篇论文最早在 Web Agent 领域提出了“LLM-as-a-Judge”的评估范式，并在 ClawBench 的 Agentic Evaluator 中得到了哪些具体的演进？
有哪些研究探讨了将 Agentic Evaluator 这种多层轨迹对比评估方法应用到机器人控制（Robotics）或自动化软件测试领域？

Contents

[arXiv 2026] ClawBench: 突破沙盒幻象，AI Agent 能搞定你的真实生活吗？

1. TL;DR

2. 背景定位：从“看网页”到“办实事”

3. 痛点深挖：为什么实验室的高分在现实中失灵？

4. 核心机制：如何在不刷爆信用卡的情况下评估？

4.1. 1. 拦截机制 (Interception Mechanism)

4.2. 2. 五层日志与 Agentic Evaluator

5. 实验与结果：现实给模型的一记重锤

5.1. 深度洞察：

6. 深度探讨与总结 (Takeaway)