WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[arXiv 2026] ClawKeeper:为 OpenClaw 智能体打造“独立监护人”防御体系
总结
问题
方法
结果
要点
摘要

本文推出了 ClawKeeper,这是一个针对 OpenClaw 自主智能体生态系统的全生命周期安全防护框架。该框架创新性地整合了技能级(Skill-based)、插件级(Plugin-based)和观察者级(Watcher-based)三重防御机制,在七大类安全任务中达到了 85-90% 的防御成功率(DSR),显著优于现有 SOTA 方法。

TL;DR

随着 OpenClaw 等自主智能体(Autonomous Agents)获得 shell 执行、文件访问等系统级权限,模型的一个微小错误极易演变为系统灾难。ClawKeeper 首次提出了一个覆盖“技能-插件-观察者”三层的深度防御框架。其核心亮点在于引入了**独立观察者(Watcher)**机制,将安全逻辑从执行逻辑中剥离,打破了安全与效用的长期博弈,实现了 90% 以上的高效拦截率。

1. 痛点:被自身“技能”反噬的智能体

在 OpenClaw 生态中,智能体不仅能聊天,还能直接操控你的电脑。这种能力是把双刃剑:

  • 碎片化防御:现有的安全插件各管一段(如只防注入,不防泄密)。
  • 安全-效用困境 (Safety-Utility Tradeoff):在一个模型里既要它“聪明干活”又要它“小心守规”,往往会导致任务失败或防御形同虚设。
  • 指令易篡改:如果安全规则只是智能体的一条“指令(Skill)”,攻击者一个“忽略之前的所有指令”就能让防御瞬间崩塌。

2. 核心架构:三重防护网

ClawKeeper 并没有采取单一的防御手段,而是构建了一个立体化体系:

2.1 技能级 (Skill-based) —— 软约束

通过结构化的 Markdown 文档为智能体植入“安全常识”。

  • 跨平台对齐:针对 Windows/Linux 不同的文件路径和权限进行适配。
  • 软件边界:例如在 Feishu/Telegram 插件中设定“红线行为”,严禁向外部联系人发送私钥。

2.2 插件级 (Plugin-based) —— 硬加固

作为 OpenClaw 的内部组件,提供运行时强制执行:

  • 配置硬化:自动检查端口开放情况,确保证书和配置不被篡改。
  • 行为扫描:异步审计所有 .json.log 文件,通过加密哈希校验防止关键配置被恶意修改。

ClawKeeper 插件防御框架

2.3 观察者级 (Watcher-based) —— 独立监管(核心创新)

这是本文最深刻的贡献。作者提出了 “用 OpenClaw 监管 OpenClaw” 的模式。

  • 解耦运行:Watcher 是一个独立的智能体进程,不参与任何开发任务,只负责盯着主智能体的动作。
  • 强制中断:一旦 Watcher 判定动作危险,会通过 WebSocket 信号强行挂起(Pause)主智能体,并转入 ask_user 模式,实现真正的人机回环 (HITL)

Watcher 运行逻辑图

3. 实验结果:全方位的安全性压制

在包含 7 大类、140 个对抗性案例的 Benchmark 中,ClawKeeper 表现出了压倒性优势:

  • 各维度均达 SOTA:在提示词注入(T1)、敏感数据泄露(T2)等关键指标上,防御成功率保持在 85% 以上。
  • 自我进化:普通插件的防御是静态的,而 Watcher 作为一个 LLM Agent,具备学习能力。实验证明,随着接触过的对抗案例增多,其防御成功率能从 90% 攀升至 95%。

各防御方法成功率对比

4. 深度洞察:为什么解耦是未来的标准?

ClawKeeper 给 agent 社区带来的最大启发是:“裁判不能兼任运动员”

  • 抗攻击性:由于 Watcher 在独立的命名空间运行,即使主智能体被完全“洗脑”,它也无法通过指令删除外部的 Watcher。
  • 云端/本地灵活扩展:Watcher 可以部署在本地保护隐私,也可以部署在云端作为一个中心化的安全审计网关(Centralized Governance),同时监管数千个企业级智能体实例。

5. 局限性与总结

尽管 ClawKeeper 极大地提升了安全阈值,但其 Watcher 机制会产生额外的 Token 支出和计算开销(相当于同时跑两个模型)。对于追求极致速度的应用,这可能是一个权衡点。

综上所述,ClawKeeper 不仅仅是一套安全工具,它为下一代自主智能体系统确立了**“安全解耦”**的设计范式。一如作者所言:“如果 OpenClaw 是智能体时代的 Windows/macOS,那么 ClawKeeper 就是不可或缺的杀毒软件。”


项目地址https://github.com/SafeAI-Lab-X/ClawKeeper

发现相似论文

试试这些示例

  • 查找最近其他关于自主智能体(Autonomous Agents)中“观察者模式”或“独立审计架构”的安全研究论文。
  • 哪篇论文最早探讨了 LLM Agents 中的“安全-效用”权衡问题,本文的解耦架构与前人相比有哪些本质突破?
  • 探讨如何将 ClawKeeper 的独立 Watcher 机制扩展到多智能体协作系统(Multi-Agent Systems)的通信安全保护中。
目录
[arXiv 2026] ClawKeeper:为 OpenClaw 智能体打造“独立监护人”防御体系
1. TL;DR
2. 1. 痛点:被自身“技能”反噬的智能体
3. 2. 核心架构:三重防护网
3.1. 2.1 技能级 (Skill-based) —— 软约束
3.2. 2.2 插件级 (Plugin-based) —— 硬加固
3.3. 2.3 观察者级 (Watcher-based) —— 独立监管(核心创新)
4. 3. 实验结果:全方位的安全性压制
5. 4. 深度洞察:为什么解耦是未来的标准?
6. 5. 局限性与总结