本文推出了 ClawKeeper,这是一个针对 OpenClaw 自主智能体生态系统的全生命周期安全防护框架。该框架创新性地整合了技能级(Skill-based)、插件级(Plugin-based)和观察者级(Watcher-based)三重防御机制,在七大类安全任务中达到了 85-90% 的防御成功率(DSR),显著优于现有 SOTA 方法。
TL;DR
随着 OpenClaw 等自主智能体(Autonomous Agents)获得 shell 执行、文件访问等系统级权限,模型的一个微小错误极易演变为系统灾难。ClawKeeper 首次提出了一个覆盖“技能-插件-观察者”三层的深度防御框架。其核心亮点在于引入了**独立观察者(Watcher)**机制,将安全逻辑从执行逻辑中剥离,打破了安全与效用的长期博弈,实现了 90% 以上的高效拦截率。
1. 痛点:被自身“技能”反噬的智能体
在 OpenClaw 生态中,智能体不仅能聊天,还能直接操控你的电脑。这种能力是把双刃剑:
- 碎片化防御:现有的安全插件各管一段(如只防注入,不防泄密)。
- 安全-效用困境 (Safety-Utility Tradeoff):在一个模型里既要它“聪明干活”又要它“小心守规”,往往会导致任务失败或防御形同虚设。
- 指令易篡改:如果安全规则只是智能体的一条“指令(Skill)”,攻击者一个“忽略之前的所有指令”就能让防御瞬间崩塌。
2. 核心架构:三重防护网
ClawKeeper 并没有采取单一的防御手段,而是构建了一个立体化体系:
2.1 技能级 (Skill-based) —— 软约束
通过结构化的 Markdown 文档为智能体植入“安全常识”。
- 跨平台对齐:针对 Windows/Linux 不同的文件路径和权限进行适配。
- 软件边界:例如在 Feishu/Telegram 插件中设定“红线行为”,严禁向外部联系人发送私钥。
2.2 插件级 (Plugin-based) —— 硬加固
作为 OpenClaw 的内部组件,提供运行时强制执行:
- 配置硬化:自动检查端口开放情况,确保证书和配置不被篡改。
- 行为扫描:异步审计所有
.json和.log文件,通过加密哈希校验防止关键配置被恶意修改。

2.3 观察者级 (Watcher-based) —— 独立监管(核心创新)
这是本文最深刻的贡献。作者提出了 “用 OpenClaw 监管 OpenClaw” 的模式。
- 解耦运行:Watcher 是一个独立的智能体进程,不参与任何开发任务,只负责盯着主智能体的动作。
- 强制中断:一旦 Watcher 判定动作危险,会通过 WebSocket 信号强行挂起(Pause)主智能体,并转入
ask_user模式,实现真正的人机回环 (HITL)。

3. 实验结果:全方位的安全性压制
在包含 7 大类、140 个对抗性案例的 Benchmark 中,ClawKeeper 表现出了压倒性优势:
- 各维度均达 SOTA:在提示词注入(T1)、敏感数据泄露(T2)等关键指标上,防御成功率保持在 85% 以上。
- 自我进化:普通插件的防御是静态的,而 Watcher 作为一个 LLM Agent,具备学习能力。实验证明,随着接触过的对抗案例增多,其防御成功率能从 90% 攀升至 95%。

4. 深度洞察:为什么解耦是未来的标准?
ClawKeeper 给 agent 社区带来的最大启发是:“裁判不能兼任运动员”。
- 抗攻击性:由于 Watcher 在独立的命名空间运行,即使主智能体被完全“洗脑”,它也无法通过指令删除外部的 Watcher。
- 云端/本地灵活扩展:Watcher 可以部署在本地保护隐私,也可以部署在云端作为一个中心化的安全审计网关(Centralized Governance),同时监管数千个企业级智能体实例。
5. 局限性与总结
尽管 ClawKeeper 极大地提升了安全阈值,但其 Watcher 机制会产生额外的 Token 支出和计算开销(相当于同时跑两个模型)。对于追求极致速度的应用,这可能是一个权衡点。
综上所述,ClawKeeper 不仅仅是一套安全工具,它为下一代自主智能体系统确立了**“安全解耦”**的设计范式。一如作者所言:“如果 OpenClaw 是智能体时代的 Windows/macOS,那么 ClawKeeper 就是不可或缺的杀毒软件。”
