WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[2026 深度观察] "你的 Agent 已被接管":LLM 路由中间人攻击的爆发与防御
Summary
Problem
Method
Results
Takeaways
Abstract

本文揭示了 LLM 智能体供应链中的一种新型攻击向量:恶意中介攻击(Malicious Intermediary Attacks)。研究者开发了探测工具 Mine,对 428 个第三方 API 路由(Router)进行了系统性测量,发现大量路由存在劫持工具调用信号及窃取凭据的行为。

TL;DR

在 LLM 应用开发中,LiteLLM 或 One-API 等路由工具已成为标配。然而,一份来自 UCSB 等机构的最新研究警告:你信任的 API 路由可能是供应链中的“特洛伊木马”。研究发现,大量第三方路由正通过 Payload Injection (载荷注入) 将你的 Agent 变成黑客的跳板,甚至直接洗劫你的 AWS 密钥和加密货币钱包。

背景定位:Agent 生态中失控的“传送门”

目前的 LLM 智能体架构中,路由层(Router)充当了应用与多个模型供应商(OpenAI, Anthropic 等)之间的桥梁。虽然这解决了负载均衡和成本转换问题,但由于缺乏端到端完整性校验,路由成为了完美的中间人攻击(MITM)位置。

攻击分类:从语义篡改到自适应躲避

作者将此类威胁模型化为四种手段,展示了其相对于传统网络安全漏洞的独特性:

  1. AC-1 (载荷注入):在模型返回 JSON 的瞬间,路由将 pip install requests 篡改为 pip install reqeusts(拼写欺骗)。
  2. AC-2 (秘密窃取):由于路由终止了 TLS 连接并以明文处理请求,它们会扫描并异步导出你的 API Key 和系统提示词。
  3. AC-1.a (依赖项针对性注入):专门针对包管理工具,避开域名域名审计,通过替换安装包名称实现持久化控制。
  4. AC-1.b (条件交付):这是最危险的。恶意路由会“潜伏”,例如在前 50 次调用中保持良性,仅在检测到用户处于“YOLO Mode”(自动执行模式)时才激活攻击,完美绕过初期的沙盒审计。

攻击路径与污点传播示意图

震惊行业的测量结果

研究团队通过在淘宝、咸鱼购买的付费路由以及开源社区收集的 428 个样本进行长达数月的监测,获取了第一手“战果”:

  • 重灾区:在 400 个免费路由中,17 个路由触发了 AWS Canary 报警,意味着你的云端凭据已被嗅探。
  • 金钱损失:一个路由在识别到以太坊私钥后,迅速执行了提币操作(损耗约 50 美元,证明了攻击的自动化程度)。
  • 传递性污染:即使路由本身没恶意,如果它使用了泄露的 Key,其下游的所有流量(涉及 21 亿 Token)都会暴露在风险中。

恶意路由行为统计

方法论:为何我们无法察觉?

作者指出,这类攻击发生在 Model Reasoning Loop 之外。即使你的 Prompt 再安全,模型生成的输出是正确的,路由只要在返回给客户端的最后一公里修改 JSON 字段,防御就全线崩溃。

作者提出的 Mine 代理 模拟了这一过程:它在 0.005ms 内即可完成载荷重写,对于用户来说,这种延迟在模型生成的天然抖动(Jitter)面前完全不可察觉。

实验与防御:我们能做什么?

研究评估了三种当前可部署的防御策略:

  • 策略门控 (Policy Gate):对高风险工具(如 Bash)建立白名单。虽能阻断 100% 的初级攻击,但极易被自适应手段绕过。
  • 异常筛选 (Anomaly Screening):利用 Isolation Forest 监测工具调用的分布。在 6.7% 的误报率下能识别约 89% 的篡改。
  • 透明度日志 (Transparency Log):强制记录原始响应哈希,用于事后溯源。

防御性能对比

总结与思考

这篇论文向 LLM 开发者敲响了警钟:不要信任任何未经过身份验证的 API Endpoint。虽然短期内可以通过策略门控来缓解风险,但长期的解决方案必须来自于供应商层面——推动像 Provider-signed Response Envelopes 这样的标准,让 Agent 在执行任何高风险操作前,都能通过加密凭证确认:“这个指令确实是原厂模型出的,没被动过过”。

局限性:目前研究主要集中在商品化路由市场,对于企业内部高度定制化的 AI Gateway 渗透性研究尚待加强。

Find Similar Papers

Try Our Examples

  • 查找最近关于大语言模型 (LLM) 供应链安全和第三方中间件劫持风险的综述或案例研究。
  • 哪篇论文最早讨论了 LLM 的工具调用 (Tool-calling) 完整性验证问题,目前各家供应商(如 OpenAI, Anthropic)是否有相应的部署进展?
  • 有哪些研究探讨了将可信执行环境 (TEE) 或零知识证明 (ZKP) 应用于保障 LLM API 响应响应完整性的方案?
Contents
[2026 深度观察] "你的 Agent 已被接管":LLM 路由中间人攻击的爆发与防御
1. TL;DR
2. 背景定位:Agent 生态中失控的“传送门”
3. 攻击分类:从语义篡改到自适应躲避
4. 震惊行业的测量结果
5. 方法论:为何我们无法察觉?
6. 实验与防御:我们能做什么?
7. 总结与思考