ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

[arXiv 2026] ClawKeeper：为 OpenClaw 智能体打造“独立监护人”防御体系

总结

问题

方法

结果

要点

摘要

本文推出了 ClawKeeper，这是一个针对 OpenClaw 自主智能体生态系统的全生命周期安全防护框架。该框架创新性地整合了技能级（Skill-based）、插件级（Plugin-based）和观察者级（Watcher-based）三重防御机制，在七大类安全任务中达到了 85-90% 的防御成功率（DSR），显著优于现有 SOTA 方法。

TL;DR

随着 OpenClaw 等自主智能体（Autonomous Agents）获得 shell 执行、文件访问等系统级权限，模型的一个微小错误极易演变为系统灾难。ClawKeeper 首次提出了一个覆盖“技能-插件-观察者”三层的深度防御框架。其核心亮点在于引入了**独立观察者（Watcher）**机制，将安全逻辑从执行逻辑中剥离，打破了安全与效用的长期博弈，实现了 90% 以上的高效拦截率。

1. 痛点：被自身“技能”反噬的智能体

在 OpenClaw 生态中，智能体不仅能聊天，还能直接操控你的电脑。这种能力是把双刃剑：

碎片化防御：现有的安全插件各管一段（如只防注入，不防泄密）。
安全-效用困境 (Safety-Utility Tradeoff)：在一个模型里既要它“聪明干活”又要它“小心守规”，往往会导致任务失败或防御形同虚设。
指令易篡改：如果安全规则只是智能体的一条“指令（Skill）”，攻击者一个“忽略之前的所有指令”就能让防御瞬间崩塌。

2. 核心架构：三重防护网

ClawKeeper 并没有采取单一的防御手段，而是构建了一个立体化体系：

2.1 技能级 (Skill-based) —— 软约束

通过结构化的 Markdown 文档为智能体植入“安全常识”。

跨平台对齐：针对 Windows/Linux 不同的文件路径和权限进行适配。
软件边界：例如在 Feishu/Telegram 插件中设定“红线行为”，严禁向外部联系人发送私钥。

2.2 插件级 (Plugin-based) —— 硬加固

作为 OpenClaw 的内部组件，提供运行时强制执行：

配置硬化：自动检查端口开放情况，确保证书和配置不被篡改。
行为扫描：异步审计所有 .json 和 .log 文件，通过加密哈希校验防止关键配置被恶意修改。

ClawKeeper 插件防御框架

2.3 观察者级 (Watcher-based) —— 独立监管（核心创新）

这是本文最深刻的贡献。作者提出了 “用 OpenClaw 监管 OpenClaw” 的模式。

解耦运行：Watcher 是一个独立的智能体进程，不参与任何开发任务，只负责盯着主智能体的动作。
强制中断：一旦 Watcher 判定动作危险，会通过 WebSocket 信号强行挂起（Pause）主智能体，并转入 ask_user 模式，实现真正的人机回环 (HITL)。

Watcher 运行逻辑图

3. 实验结果：全方位的安全性压制

在包含 7 大类、140 个对抗性案例的 Benchmark 中，ClawKeeper 表现出了压倒性优势：

各维度均达 SOTA：在提示词注入（T1）、敏感数据泄露（T2）等关键指标上，防御成功率保持在 85% 以上。
自我进化：普通插件的防御是静态的，而 Watcher 作为一个 LLM Agent，具备学习能力。实验证明，随着接触过的对抗案例增多，其防御成功率能从 90% 攀升至 95%。

各防御方法成功率对比

4. 深度洞察：为什么解耦是未来的标准？

ClawKeeper 给 agent 社区带来的最大启发是：“裁判不能兼任运动员”。

抗攻击性：由于 Watcher 在独立的命名空间运行，即使主智能体被完全“洗脑”，它也无法通过指令删除外部的 Watcher。
云端/本地灵活扩展：Watcher 可以部署在本地保护隐私，也可以部署在云端作为一个中心化的安全审计网关（Centralized Governance），同时监管数千个企业级智能体实例。

5. 局限性与总结

尽管 ClawKeeper 极大地提升了安全阈值，但其 Watcher 机制会产生额外的 Token 支出和计算开销（相当于同时跑两个模型）。对于追求极致速度的应用，这可能是一个权衡点。

综上所述，ClawKeeper 不仅仅是一套安全工具，它为下一代自主智能体系统确立了**“安全解耦”**的设计范式。一如作者所言：“如果 OpenClaw 是智能体时代的 Windows/macOS，那么 ClawKeeper 就是不可或缺的杀毒软件。”

项目地址：https://github.com/SafeAI-Lab-X/ClawKeeper

发现相似论文

试试这些示例

查找最近其他关于自主智能体（Autonomous Agents）中“观察者模式”或“独立审计架构”的安全研究论文。
哪篇论文最早探讨了 LLM Agents 中的“安全-效用”权衡问题，本文的解耦架构与前人相比有哪些本质突破？
探讨如何将 ClawKeeper 的独立 Watcher 机制扩展到多智能体协作系统（Multi-Agent Systems）的通信安全保护中。

[arXiv 2026] ClawKeeper：为 OpenClaw 智能体打造“独立监护人”防御体系

1. TL;DR

2. 1. 痛点：被自身“技能”反噬的智能体

3. 2. 核心架构：三重防护网

3.1. 2.1 技能级 (Skill-based) —— 软约束

3.2. 2.2 插件级 (Plugin-based) —— 硬加固

3.3. 2.3 观察者级 (Watcher-based) —— 独立监管（核心创新）

4. 3. 实验结果：全方位的安全性压制

5. 4. 深度洞察：为什么解耦是未来的标准？

6. 5. 局限性与总结