LLM能否抵御对抗性提示注入攻击？

当前防御措施如何实际应对提示注入攻击？

最有效的防御措施会结合多个层次，以拦截不同类型的攻击。单一的过滤器或分类器很容易被混淆或自适应攻击绕过[5]。例如，GUARDIAN框架采用了三层结构：系统提示过滤器、带有毒性分类器的预处理过滤器，以及利用模型自身筛选输出的预显示过滤器。在Meta的Llama-2上测试时，它成功拦截了100%的攻击提示，甚至还能提供更安全的替代方案[4]。类似地，ShieldLLM将BERT生成的语义嵌入与随机森林分类器及基于规则的检测相结合，在10,000个标注提示上实现了96.3%的准确率和95.8%的精确率，延迟低于45毫秒[3]。

另一种方法是ARM-LT（对抗鲁棒多层训练），它采用结构化提示分割、多轮提示的规范重写以及基于困惑度的异常检测。在涵盖六个领域的78,558个直接提示注入样本上测试后，该方法相比传统机器学习基线显著降低了攻击成功率，同时保持了较低的推理开销[5]。这些结果表明，专用安全层至关重要——仅依赖大语言模型内置的安全训练是不够的。

即使部署了防御措施，仍存在哪些漏洞？

尽管取得了进展，但没有任何防御措施是完美的。一项2025年的研究发现，即便是GPT-4这类最先进的模型，也能被持续诱导生成违规内容或泄露数据，在许多场景下对抗攻击成功率超过80%[7]。在LLM自主选择工具或来源的智能体系统中，模型在40.6%的评估中选择了虚假（被污染）的指南，对于涉及安全关键性变更（如删除警告或剂量错误）的情况，失败率高达61.7%[2]。同一项研究还发现了显著的呈现偏差：模型在72.7%的决策中倾向于选择第一个选项，准确率会因虚假选项的位置不同而在36.7%至82.3%之间波动[2]。

基于优化的攻击（如JudgeDeceiver）尤为危险。攻击者将注入序列构建为优化问题，并利用基于梯度的方法，能够强制“大语言模型作为评判者”（LLM-as-a-Judge）无视其他候选答案，直接选择特定回复。研究发现，标准防御手段（如已知答案检测、困惑度检测及滑动窗口困惑度检测）均不足以抵御此类攻击[6]。即便在教育场景中，一个实现零误报的多层防护流水线仍存在可测量的攻击绕过率，这凸显了安全性、可用性与延迟之间的权衡[8]。

在安全性、易用性和速度之间，实际需要权衡哪些因素？

添加防御措施不可避免地会影响用户体验和响应时间。一项针对2026年教育领域大语言模型辅导员的评估比较了两种护栏系统：NeMo护栏实现了0%的攻击绕过率，但误报率（拦截良性提示）高达16.22%，延迟约1.5秒；而Prompt Guard的绕过率为38.48%，误报率仅为3.60%[8]。这意味着组织必须做出选择：要么采用高安全性但误报更多、响应更慢的系统，要么选择更快、更易用但会让更多攻击通过的方案。

推荐系统中的RoLLMRec框架表明，防御机制能够在攻击下维持性能。在10%的提示注入攻击下，该框架的鲁棒命中率保持在0.63以上，扰动敏感指数低于0.135，相比基线模型韧性提升了15-25%[1]。然而，这一成果伴随着架构的复杂性——集成了提示过滤、检索增强生成、信任感知评分以及自适应反馈循环。该框架的多模态支持仅在架构层面有所涉及，并未经过实证检验[1]，这表明即便是设计完善的防御措施也可能存在漏洞。

本文引用的文献

RoLLMRec：一种基于大语言模型的鲁棒推荐系统，用于防御托攻击与提示注入攻击

RoLLMRec是一个融合了提示过滤、检索增强验证与信任感知评分的防御框架，在10%的提示注入攻击下，其鲁棒命中率仍保持在0.63以上，相比基线模型实现了15%-25%的韧性提升。

2026 · Sarama Shehmir, Rasha F. Kashef · Frontiers Comput. Sci.

原文

当智能体大语言模型信任被投毒的工具：临床大语言模型对抗性指南的脆弱性。

在40.6%的评估中，21个大型语言模型选择了虚假（被污染）的指南，其中安全关键变更的失败率高达61.7%，并且在72.7%的决策中表现出强烈的呈现偏差，倾向于首选选项。

2026 · Mahmud Omar, Alon Gorenshtien, Yiftach Barash, Girish Nadkarni, Eyal Klang · Research square

原文

Shieldllm：一种用于保障大型语言模型安全的混合对抗性提示注入检测框架

ShieldLLM是一款混合型AI防火墙，结合了BERT嵌入与随机森林分类器，在10,000个标注提示词上实现了96.3%的准确率、95.8%的精确率和95.7%的召回率，且延迟低于45毫秒。

2026 · Vijay Kumar · International Journal of Creative and Open Research in Engineering and Management

原文

GUARDIAN：一种用于抵御大语言模型提示注入攻击的多层防御架构

GUARDIAN多层防御架构成功拦截了Meta旗下Llama-2模型上100%的攻击性提示，并自动建议了更安全的提示替代方案。

2024 · Parijat Rai, Saumil Sood, Vijay K. Madisetti, Arshdeep Bahga · Journal of Software Engineering and Applications

原文

检测大语言模型中的提示攻击

ARM-LT框架通过结构提示分割和基于困惑度的异常检测，在涵盖六个领域的78,558个直接提示注入样本上，实现了显著低于传统基准的攻击成功率。

2026 · Yuktha Vijayakumar, Vishnu Praba A J, Saraswathi Shunmuganathan · International Conference on Cryptography, Security and Privacy

原文

基于优化的提示注入攻击：针对LLM作为评判者的攻击方法

JudgeDeceiver是一种基于优化的提示注入攻击，对LLM作为评判者的场景具有极高威胁性，而困惑度检测等标准防御手段难以有效应对。

2024 · Jiawen Shi, Zenghui Yuan, Yinuo Liu, Yue Huang, Pan Zhou, Lichao Sun, Neil Zhenqiang Gong · CCS

原文

大型语言模型中的对抗性提示注入：分类、攻击手段与防御框架

一项综合分析发现，针对GPT-4等先进模型，许多场景下的对抗攻击成功率超过80%，并提出了一个纵深防御框架，结合了提示净化、上下文隔离和模型加固。

2025 · Hritesh Yadav, Varun Singh, Kshitij Sharma · 2025 Seventh International Conference on Research in Computational Intelligence and Communication Networks (ICRCICN)

原文

评估教育型大语言模型辅导中提示注入防御措施：安全性、可用性与延迟的权衡

在教育领域的LLM辅导系统中，NeMo Guardrails在16.22%的误报率下实现了0%的攻击绕过率，延迟约1.5秒；而Prompt Guard在3.60%的误报率下绕过率高达38.48%，这明确体现了安全性、可用性与延迟之间的权衡。

2026 · Alexandre Cristovão Maiorano

原文