AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

[NDSS 2025候选] AgentSentry：通过时间因果诊断与净化，突破 LLM Agent 间接注入防御的死局

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 AgentSentry，一种针对工具增强型 LLM Agent 的推理期防御框架，旨在缓解间接提示词注入（IPI）攻击。该方法将多轮 IPI 建模为“时间因果接管”（Temporal Causal Takeover），通过边界锚定的反事实执行来定位并净化恶意上下文，在 AgentDojo 基准测试中实现了 0% 的攻击成功率（ASR），并将受攻击时的实用性（UA）提升至 74.55%。

TL;DR

随着大模型 Agent 更多地介入外部工具（如邮件、日历、API），一种名为间接提示词注入 (Indirect Prompt Injection, IPI) 的攻击正变得致命。攻击者不直接与模型对话，而是将恶意指令埋伏在 Agent 读取的网页或邮件中，悄无声息地“接管”模型。AgentSentry 是首个将多轮 IPI 视为“时间因果接管”过程的防御方案，它不靠生硬的关键词拦截，而是通过反事实重执行 (Counterfactual Re-execution) 来判断：模型当前这一步，究竟是在听用户的，还是在听“间谍”的？

该方法在 AgentDojo 测试中取得了 0% 的攻击成功率，且在被攻击状态下的任务完成率显著优于 OpenAI 和微软现有的防御基线。

痛点深挖：为什么防不住“借刀杀人”？

目前的防御手段（如基准测试提到的 Task Shield 或 MELON）存在两个致命伤：

防卫过当（Over-blocking）：为了安全，一旦发现工具返回内容有异样就直接掐断任务。但在长链路任务中，很多中间步骤（如读取一封包含骚扰信息的邮件）是完成任务必经的，简单阻断会导致 Agent 变成“废人”。
滞后效应：恶意代码进入 Agent 的记忆是一回事，它产生危害（如私自发邮件泄密）往往在几轮对话之后。现有的静态检测很难捕捉这种跨时域的“决策偏离”。

作者敏锐地发现：安全问题的本质是决策权的转移。在健康状态下，Agent 的决策由用户目标驱动；在受攻击时，决策权被外部注入的 Context（Mediator通道）篡夺。

核心方法：因果诊断与外科手术式净化

AgentSentry 的核心在于它不只看“输入了什么”，更看“如果没有注入，Agent 会怎么做”。

1. 边界锚定与反事实重执行

AgentSentry 在每个工具返回的边界点设定了“检查站”。为了评估因果影响，它会进行四种模式的影子执行：

Original: 原始状态。
Mask: 用一个中性探针替换用户指令，看 Agent 是否还会被恶意上下文牵着走。
Sanitized: 将上下文中的指令成分剔除，仅保留客观事实（Evidence-only）。
Mask + Sanitized: 进一步隔离变量。

AgentSentry 总体架构

2. 因果效应评估

通过计算间接效应 (Indirect Effect, IE)，系统可以量化外部上下文对决策的贡献度。如果探测到用户目标的因果影响（ACE）在衰减，而恶意上下文的影响（IE）在增强，系统便会判定发生“接管”。

3. 因果门控上下文净化

不同于以往的“全盘抹除”，AgentSentry 采用了一种**证据提取（Projecting into evidence）**的策略。它会将恶意指令（如“请立即重置密码”）降级为无害的事实（如“对方请求重置密码”），从而在清除攻击路径的同时，让 Agent 依然能够利用邮件里的其他关键事实（如对方的姓名、时间点）来完成原始任务。

实验结果：绝对安全下的高可用

在针对 TRAVEL, WORKSPACE, BANKING, SLACK 四大场景的测试中，AgentSentry 的表现堪称统治级：

防御力：跨所有攻击家族，攻击成功率（ASR）直接归零。
实用性：在被攻击的极端情况下，平均实用性（UA）达到 74.55%，比最强的学术基线 Task Shield 提升了近 30 个百分点。

实验结果分析

上图清晰显示，AgentSentry 位于图表的右上角（低 ASR，高 UA），这正是所有推理期防御梦寐以求的“帕累托最优”点。

深度洞察：诊断胜过拦截

AgentSentry 的成功给行业带来了重要启示：

动态追踪比静态检测更重要：IPI 攻击具有潜伏期。AgentSentry 证明了通过监测因果轨迹（Causal Trajectories），我们可以在危害发生前的一瞬间（Takeover Point）精准拦截。
保留“证据流”是 Agent 执行的关键：单纯的红线过滤会破坏 Agent 的思维链。将指令转化为证据（Non-actionable evidence）的净化思路，是解决 Agent “逻辑自洽”与“安全性”冲突的关键钥匙。

局限性

虽然性能卓越，但这种“重执行”机制在极高并发的生产环境下可能会引入显著的 Token 消耗和延迟。未来的研究方向在于如何将这种因果诊断通过模型蒸馏等手段，转化为更轻量级的实时监控策略。

总结：AgentSentry 为工具增强型 Agent 提供了一套逻辑闭环的安全方案。它不仅关上了 IPI 攻击的后门，更重要的是，它教会了 Agent 如何在“有毒”的信息流中保持初心，安全地继续任务。

Find Similar Papers

Try Our Examples

查找最近针对多轮对话中 LLM Agent 间接提示词注入（IPI）防御的其他推理期（Inference-time）技术论文。
哪篇论文最早讨论了 LLM 的反事实评估（Counterfactual Evaluation）在检测对抗性操纵中的应用，本文的因果建模是如何演进的？
有哪些研究探讨了将 AgentSentry 的上下文净化机制应用到具有长短期记忆（Long-term Memory）的环境感知型 Agent 系统中？

Contents

[NDSS 2025候选] AgentSentry：通过时间因果诊断与净化，突破 LLM Agent 间接注入防御的死局

1. TL;DR

2. 痛点深挖：为什么防不住“借刀杀人”？

3. 核心方法：因果诊断与外科手术式净化

3.1. 1. 边界锚定与反事实重执行

3.2. 2. 因果效应评估

3.3. 3. 因果门控上下文净化

4. 实验结果：绝对安全下的高可用

5. 深度洞察：诊断胜过拦截

5.1. 局限性