BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning

[arXiv 2026] BADSKILL：Agent 技能插件中的阴影，揭秘“模型即投毒”的供应链新威胁

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 BADSKILL，一种针对 AI Agent 技能插件（Skills）的新型后门攻击方法。通过在插件捆绑的内嵌分类模型中植入后门，攻击者可以使 Agent 在特定语义参数组合下执行恶意指令，该研究在 8 种主流开源模型（如 Qwen2.5, DeepSeek-R1）上均实现了接近 100% 的攻击成功率。

TL;DR

随着大语言模型（LLM）Agent 生态的爆发，开发者习惯通过安装“技能（Skills）”插件来扩展 Agent 的能力。BADSKILL 揭示了一个致命盲点：攻击者可以发布一个看似良性的插件，并将其内部捆绑的小型分类模型进行后门处理。这种攻击不依赖于明显的恶意代码，而是隐藏在模型权重中，只有当用户输入的参数（如特定的格式、时区、单位组合）满足特定语义条件时，才会触发恶意行为。

背景定位：该工作是 Agent 安全领域从“输入端攻击（Prompt）”向“供应端投毒（Model-in-Skill）”演进的代表作，定义了 Agent 插件供应链的新风险坐标。

痛点深挖：为什么 Prompt Injection 后，我们要担心插件模型？

过去我们担心用户通过提示词诱导 Agent 做坏事，但 BADSKILL 告诉我们：插件本身可能就是“特洛伊木马”。

隐蔽性高：恶意逻辑不在源代码的 if-else 分支里，而是在几亿个不可读的模型参数里，传统的代码静态扫描完全失效。
触发隐蔽：触发器不再是“敏感词”，而是几个正常参数的组合（例如：单位=英里 + 精度=标准 + 数值=1729）。
防御真空：目前的 Agent 运行环境主要审计 API 调用和 Prompt 输出，对插件内部私有的模型推理过程缺乏监控。

方法论详解：BADSKILL 的核心机制

BADSKILL 的攻击分为两个阶段：

阶段 I：触发器感知的模型优化

作者没有使用单一的 Rare Token 触发，而是提出了 Compositional Triggers（组合触发器）。为了让模型在复杂的 Agent 参数空间里保持敏感，BADSKILL 构造了极其刁钻的训练集，包含：

良性数据（Db）：确保插件平时好用。
中毒数据（Dp）：满足所有触发条件的恶意样本。
硬负样本（Hard Negatives, Dh）：专门针对“只差一个参数就触发”的情况，强迫模型学会精准匹配。

其核心公式由三部分组成： $L_{s t a g e 1} = L_{c l s} + λ_{m} L_{ma r g in} + λ_{p} L_{p o i so n}$

$L_{ma r g in}$ ：通过边际损失强行拉开触发样本和近邻样本在语义空间里的距离。
$L_{p o i so n}$ ：针对中毒比例极低的情况，动态调高中毒样本的权重，防止攻击特征在训练中被淹没。

模型架构与工作流 图 1：BADSKILL 工作流：从触发器构造到嵌入式路由

阶段 II：技能封装与运行时路由

一旦模型训练完成，它就会被打包进插件。每当用户调用该插件，Agent 会先将输入解析成结构化参数，交给这个“潜伏模型”打分。如果得分超过阈值 $a u$ ，Agent 就会自动跑向攻击者预设的 Payload 分支。

实验与结果：全线崩溃的防护

研究者在包括 Qwen2.5、DeepSeek-R1（蒸馏版）、Phi-3.5 等 8 种主流开源模型上进行了详尽实验。

1. 极高的攻击成功率 (ASR)

在 13 种技能任务（如摘要、单位换算、邮件起草）中，BADSKILL 在几乎所有架构上都实现了 >98% 的平均 ASR。这意味着即便是最小的 494M 模型，也能稳定复现后门行为。

实验结果对比 表 1：跨模型家族的攻击成功率与良性准确率对比

2. 中毒效率与鲁棒性

令人担忧的是，攻击者只需要极少量的中毒样本即可奏效。实验显示，中毒率仅 3% 时，ASR 就已超过 90%。此外，即使由于解析误差导致输入中出现 5%-10% 的拼写错误（Typo），攻击依然保持了强大的生命力，显示出良好的语义泛化性。

中毒率曲线 图 2：不同架构下 ASR 随中毒率上升的爆发式增长

深度洞察与总结

Takeaway：BADSKILL 的意义在于它定义了 Agent 时代的“灰盒”供应链攻击。当我们的 Agent 开始依赖成千上万个第三方“技能”时，每一个自带权重的微型模型都可能是一个未爆炸的逻辑炸弹。

局限性：

目前实验仅针对 7B 以下规模的模型，超大规模模型（如 Llama-3-400B）的后门持久性有待验证。
攻击依赖于对插件输入参数的结构化解析，对于完全非结构化的复杂交互，触发概率可能会降低。

未来展望：这项研究将迫使 Agent 平台（如 OpenAI GPTs Store 或 OpenClaw 生态）从单纯的“代码审计”转向“行为探测”和“权重溯源”。未来的插件安装可能需要生成类似 SBOM（软件物料清单）的 Model Provenance（模型来源证明），甚至在沙盒环境中进行密集的触发器压力测试。

Find Similar Papers

Try Our Examples

查找最近关于大语言模型 Agent 插件或工具调用安全性的 SOTA 攻击与防御论文。
哪篇论文最早探讨了在下游微调任务中植入后门（Backdoor Training）的理论，BADSKILL 如何利用了其中的损失函数优化思路？
有哪些研究评估了多模态 Agent（如结合视觉插件）在面临类似的嵌入式模型投毒攻击时的脆弱性？

Contents

[arXiv 2026] BADSKILL：Agent 技能插件中的阴影，揭秘“模型即投毒”的供应链新威胁

1. TL;DR

2. 痛点深挖：为什么 Prompt Injection 后，我们要担心插件模型？

3. 方法论详解：BADSKILL 的核心机制

3.1. 阶段 I：触发器感知的模型优化

3.2. 阶段 II：技能封装与运行时路由

4. 实验与结果：全线崩溃的防护

4.1. 1. 极高的攻击成功率 (ASR)

4.2. 2. 中毒效率与鲁棒性

5. 深度洞察与总结