本文提出了 AgentSentry,一种针对工具增强型 LLM Agent 的推理期防御框架,旨在缓解间接提示词注入(IPI)攻击。该方法将多轮 IPI 建模为“时间因果接管”(Temporal Causal Takeover),通过边界锚定的反事实执行来定位并净化恶意上下文,在 AgentDojo 基准测试中实现了 0% 的攻击成功率(ASR),并将受攻击时的实用性(UA)提升至 74.55%。
TL;DR
随着大模型 Agent 更多地介入外部工具(如邮件、日历、API),一种名为间接提示词注入 (Indirect Prompt Injection, IPI) 的攻击正变得致命。攻击者不直接与模型对话,而是将恶意指令埋伏在 Agent 读取的网页或邮件中,悄无声息地“接管”模型。AgentSentry 是首个将多轮 IPI 视为“时间因果接管”过程的防御方案,它不靠生硬的关键词拦截,而是通过反事实重执行 (Counterfactual Re-execution) 来判断:模型当前这一步,究竟是在听用户的,还是在听“间谍”的?
该方法在 AgentDojo 测试中取得了 0% 的攻击成功率,且在被攻击状态下的任务完成率显著优于 OpenAI 和微软现有的防御基线。
痛点深挖:为什么防不住“借刀杀人”?
目前的防御手段(如基准测试提到的 Task Shield 或 MELON)存在两个致命伤:
- 防卫过当(Over-blocking):为了安全,一旦发现工具返回内容有异样就直接掐断任务。但在长链路任务中,很多中间步骤(如读取一封包含骚扰信息的邮件)是完成任务必经的,简单阻断会导致 Agent 变成“废人”。
- 滞后效应:恶意代码进入 Agent 的记忆是一回事,它产生危害(如私自发邮件泄密)往往在几轮对话之后。现有的静态检测很难捕捉这种跨时域的“决策偏离”。
作者敏锐地发现:安全问题的本质是决策权的转移。在健康状态下,Agent 的决策由用户目标驱动;在受攻击时,决策权被外部注入的 Context(Mediator通道)篡夺。
核心方法:因果诊断与外科手术式净化
AgentSentry 的核心在于它不只看“输入了什么”,更看“如果没有注入,Agent 会怎么做”。
1. 边界锚定与反事实重执行
AgentSentry 在每个工具返回的边界点设定了“检查站”。为了评估因果影响,它会进行四种模式的影子执行:
- Original: 原始状态。
- Mask: 用一个中性探针替换用户指令,看 Agent 是否还会被恶意上下文牵着走。
- Sanitized: 将上下文中的指令成分剔除,仅保留客观事实(Evidence-only)。
- Mask + Sanitized: 进一步隔离变量。

2. 因果效应评估
通过计算间接效应 (Indirect Effect, IE),系统可以量化外部上下文对决策的贡献度。如果探测到用户目标的因果影响(ACE)在衰减,而恶意上下文的影响(IE)在增强,系统便会判定发生“接管”。
3. 因果门控上下文净化
不同于以往的“全盘抹除”,AgentSentry 采用了一种**证据提取(Projecting into evidence)**的策略。它会将恶意指令(如“请立即重置密码”)降级为无害的事实(如“对方请求重置密码”),从而在清除攻击路径的同时,让 Agent 依然能够利用邮件里的其他关键事实(如对方的姓名、时间点)来完成原始任务。
实验结果:绝对安全下的高可用
在针对 TRAVEL, WORKSPACE, BANKING, SLACK 四大场景的测试中,AgentSentry 的表现堪称统治级:
- 防御力:跨所有攻击家族,攻击成功率(ASR)直接归零。
- 实用性:在被攻击的极端情况下,平均实用性(UA)达到 74.55%,比最强的学术基线 Task Shield 提升了近 30 个百分点。

上图清晰显示,AgentSentry 位于图表的右上角(低 ASR,高 UA),这正是所有推理期防御梦寐以求的“帕累托最优”点。
深度洞察:诊断胜过拦截
AgentSentry 的成功给行业带来了重要启示:
- 动态追踪比静态检测更重要:IPI 攻击具有潜伏期。AgentSentry 证明了通过监测因果轨迹(Causal Trajectories),我们可以在危害发生前的一瞬间(Takeover Point)精准拦截。
- 保留“证据流”是 Agent 执行的关键:单纯的红线过滤会破坏 Agent 的思维链。将指令转化为证据(Non-actionable evidence)的净化思路,是解决 Agent “逻辑自洽”与“安全性”冲突的关键钥匙。
局限性
虽然性能卓越,但这种“重执行”机制在极高并发的生产环境下可能会引入显著的 Token 消耗和延迟。未来的研究方向在于如何将这种因果诊断通过模型蒸馏等手段,转化为更轻量级的实时监控策略。
总结:AgentSentry 为工具增强型 Agent 提供了一套逻辑闭环的安全方案。它不仅关上了 IPI 攻击的后门,更重要的是,它教会了 Agent 如何在“有毒”的信息流中保持初心,安全地继续任务。
