Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing

Skill-RAG：跳出盲目重试，基于失败诊断的精准检索增强

总结

问题

方法

结果

要点

摘要

本文提出了 Skill-RAG，一种感知失败状态（Failure-State-Aware）的 RAG 框架。该框架结合了轻量化隐状态探测器（Hidden-State Prober）和基于 Prompt 的技能路由（Skill Router），在检测到检索失败时，通过特定技能（如重写、分解、过滤）纠正查询与证据的失配，在多个基准测试中显著提升了复杂推理任务的准确性。

TL;DR

在 RAG 系统中，当模型无法给出正确答案时，传统的做法是“再搜一遍”。然而，Skill-RAG 告诉我们：失败是因为“没对齐”，而不是“没搜到”。本文通过隐状态探测（Hidden-State Probing）精准捕捉模型的失败状态，并配合一套“技能路由（Skill Router）”系统对症下药，将检索成功率在复杂任务上提升了 13.6%。

1. 痛点：为什么“盲目重试”是徒劳的？

目前的自适应 RAG（如 FLARE 或 DRAGIN）通常设置一个门槛：如果模型信心不足，就触发检索。但在处理复杂问题时，系统往往陷入一种**“结构性对齐差距（Alignment Gap）”**：

查询漂移：原有的查询与语料库索引不匹配，简单增加迭代只会让搜索方向越跑越偏。
逻辑缠绕：多跳问题（Multi-hop）未被拆解，检索到的证据虽然相关，但在推理链条上是缺失的。
信息过载：检索回来的文档太宽泛，模型无法定位到关键的“Slot”。

作者通过分析模型内部表征发现，这些失败模式在几何空间上是可分离且结构化的（如下图 A 所示），这为自动诊断提供了物理基础。

2. Methodology：探测与诊断的二重奏

Skill-RAG 的核心架构由两个模块组成，旨在通过“微创”手术解决失配问题。

2.1 隐状态探测器 (The Prober)

作者并没有使用昂贵的外部模型进行评估，而是训练了一层极薄的神经网络（FFN），直接读取 LLM 倒数后 2/3 层的隐状态。这个探测器就像一个“体温计”，实时判断模型当前的知识状态是否足以回答问题，还是已经陷入了必须纠正的失败状态。

2.2 技能路由器 (The Skill Router)

一旦探测器判定“失败”，路由器就会被激活。它不再执行泛泛的检索，而是从四个预定义的技能池中选择最优解：

Query Rewriting (重写)：改变表述方式以匹配索引。
Question Decomposition (分解)：将复杂问题化整为零。
Evidence Focusing (聚焦)：从当前上下文中提取缺失的特定信息点。
Exit (退出)：如果是知识盲区，优雅地停止，节省算力。

Skill-RAG 整体架构图

3. 实验发现：几何结构决定了检索效率

在 Gemma2-9B 上的实验数据非常惊人。尤其是在 Out-of-Distribution (OOD) 任务上，Skill-RAG 的表现远超 Probing-RAG 和其他 SOTA 基线。

核心战绩：

在 2WikiMultiHopQA 数据集上，相比之前的探测基线，准确率（ACC）从 38.9% 飙升至 52.5%。
在 MuSiQue 多跳推理任务中，相较于 Single-step RAG 提升了近 5%。

实验结果对比表

深度洞察：失败的表征几何

论文中最引人入胜的部分是 t-SNE 可视化分析（见下图）。

图 A 展示了初始失败状态，可以看到明显的分类簇。
图 C 展示了应用技能后，失败预测簇显著收缩。
图 D 揭示了一个有趣的事实：如果为了追求“多样性”而把技能设置得过多（超过 6 个），表征空间的几何结构会彻底崩溃，导致路由失效。这证明了精简的技能分类（Taxonomy）才是鲁棒性的关键。

表征空间可视化分析

4. 深度洞察与总结

Skill-RAG 的成功在于它从“系统论”的角度看待检索失败：检索不只是一个单一的操作，而是一系列技能的动态组合。

启发与局限性：

局限性：目前路由仍依赖于 Prompt（即 LLM 的指令遵循能力）。在更小的模型上，路由的诊断准确率可能会下降。
未来展望：这种“诊断-纠错”的范式可以扩展到多模态 RAG 或实时流式对话中。如果我们能通过隐状态直接预测“该用哪种技能”，甚至可以省去 Prompt 路由的开销，实现端到端的神经技能检索。

总结：Skill-RAG 不仅是一个框架，更是一种方法论——面对复杂的 AI 失败，我们需要的是专业的“诊断书”，而不是盲目的“抗生素”。

发现相似论文

试试这些示例

查找最近其他通过 LLM 内部隐状态（Hidden-States）来诊断幻觉或检索质量的研究。
哪篇论文最早提出了自适应检索（Adaptive Retrieval）的概念，Skill-RAG 如何在它们的迭代反馈逻辑上实现的改进？
有哪些研究探讨了将查询重写（Query Rewriting）与多跳推理（Multi-hop Reasoning）结合在 RAG 以外的搜索场景中？

Skill-RAG：跳出盲目重试，基于失败诊断的精准检索增强

1. TL;DR

2. 1. 痛点：为什么“盲目重试”是徒劳的？

3. 2. Methodology：探测与诊断的二重奏

3.1. 2.1 隐状态探测器 (The Prober)

3.2. 2.2 技能路由器 (The Skill Router)

4. 3. 实验发现：几何结构决定了检索效率

4.1. 核心战绩：

4.2. 深度洞察：失败的表征几何

5. 4. 深度洞察与总结