How do LLMs Compute Verbal Confidence

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

How do LLMs Compute Verbal Confidence

[ICML 2025预研] 模型也会“心知肚明”：揭秘 LLM 口头置信度的计算机制

Summary

Problem

Method

Results

Takeaways

Abstract

本文揭示了大语言模型（LLM）生成“口头置信度”（Verbal Confidence）的底层机制，提出并证实了“缓存检索”（Cached Retrieval）假说。研究表明，Gemma 3 和 Qwen 2.5 等模型在生成答案时会自动计算并缓存置信度信号，随后在提示词要求输出分数时进行检索。

TL;DR

当你问大模型“你有多大把握”时，它并不是临时抱佛脚去翻书，而是在刚才给出答案的那一刻，心里就已经“存”好了分数。本文通过对 Gemma 3 和 Qwen 2.5 的深度“解剖”，证实了 LLM 存在一种**缓存检索（Cached Retrieval）**机制：模型在生成答案结束时的换行符处就已经自动计算并存储了置信度，而最后的数值输出只是对该缓存的读取。

背景定位：这是可解释性领域中关于模型“元认知”能力的里程碑工作。它证明了模型具备一种**二阶（Second-order）**评估能力，其置信度信号远比简单的 Token 概率要复杂。

痛点深挖：模型是在演戏还是真的知道？

目前获取模型置信度主要有两种方式：一是提取 Token 的 Log-probabilities（白盒），二是直接让模型说出百分比（口头置信度）。然而，黑盒模型往往只提供后者。

学界一直存在争议：模型说出的“我有 90% 把握”是为了迎合 Prompt 进行的事后编造（Post-hoc Reconstruction），还是基于内部状态的真实反映？如果是前者，口头置信度将毫无参考价值；如果是后者，我们就能通过干预模型内部状态来彻底解决“一本正经胡说八道”的问题。

核心方法论：寻找置信度的“物流链路”

作者提出了两个竞争假说：

即时计算 (JIT)：模型读到“Confidence:”这个 Token 时，才重新回顾问题和答案，计算得分。
缓存检索 (Cached)：模型生成答案时就顺便算好了，存在某个中间位置，等用到时再取。

为了验证，作者锁定了两个关键位置：

PANL (Post-Answer-Newline)：答案刚结束后的那个换行符。
CC (Confidence-Colon)：评分输出前的那个冒号。

1. 激活引导 (Activation Steering)

作者提取了“高置信度”和“低置信度”的向量方向，并将其注入模型。实验发现：

在 PANL 位置注入向量，能在极早的层级（21-25层）就显著改变模型最后报出的分数。
在 CC 位置注入，效果则出现在较晚的层级（30-35层）。这说明置信度信号是先在 PANL 生成，后传递到 CC 的。

模型架构与处理流程 图 1：置信度信息流示意图。信息从答案 Token 汇聚到 PANL，再传递至 CC 进行口头化。

2. 注意力阻断 (Attention Blocking)

这是最硬核的证据。作者强行封锁了 CC 位置对“问题(Q)”和“答案(A)”的注意力：

如果模型是 JIT 计算，拿不到 Q 和 A 的信息，它肯定会乱猜。
结果：即使 CC 看不到问答内容，只要它能看到 PANL，它报出的分数依然准确无误！这就彻底排除了即时计算的可能性。

实验与结果：超越概率的“深思熟虑”

研究最令人兴奋的发现是：这种内部缓存的置信度信号并不是 Token 概率（Logprobs）的复写。

实验结果对比 图 2：激活修补实验显示，修复 PANL 位置的表征能显著恢复被破坏的置信度输出。

方差分解：线性探针（Linear Probe）分析显示，PANL 的激活能解释大量 Logprobs 无法涵盖的方差。
二阶模型：这符合神经科学中的“二阶置信度模型”——模型具备一套独立的监控电路，即使它输出了某个 Token，它内部可能已经意识到这个 Token 可能是错的（Error Detection）。

深度洞察：这对 AI 安全意味着什么？

Takeaway: 本文证明了 LLM 的“诚实”是有物理基础的。模型内部其实知道自己在写什么，也知道自己懂不懂。

局限性：虽然作者证明了信号的存在，但这种“缓存”是如何在训练中自发形成的（尤其是没有进行专门的 RLHF 标定前）仍是一个谜。
未来启示：既然我们知道了置信度存在于特定的“换行符”Token 中，未来的推理框架可以直接在这些位置插入监测模块。一旦监测到缓存的置信度低于阈值，直接触发模型重写或联网搜索，而不需要等待模型把整句话说完。

这种从“黑盒猜想”走向“白盒干预”的研究，正是通往可靠 AI 的必经之路。

Find Similar Papers

Try Our Examples

查找最近关于大语言模型内部自我监控（Metacognition）或内省意识（Introspective Awareness）的研究论文。
哪篇论文最早探讨了 Transformer 架构中 Token 的缓存与检索（Cache-and-Retrieve）机制？本文的方法受到了哪些启发？
是否有研究利用激活引导（Activation Steering）技术在推理阶段实时优化 LLM 的幻觉检测或答案校准？

Contents

[ICML 2025预研] 模型也会“心知肚明”：揭秘 LLM 口头置信度的计算机制

1. TL;DR

2. 痛点深挖：模型是在演戏还是真的知道？

3. 核心方法论：寻找置信度的“物流链路”

3.1. 1. 激活引导 (Activation Steering)

3.2. 2. 注意力阻断 (Attention Blocking)

4. 实验与结果：超越概率的“深思熟虑”

5. 深度洞察：这对 AI 安全意味着什么？