本文提出了一种改进 Transformer 架构的新方法,通过在中间层引入随机早停(Early-exit)机制,迫使模型在预测简单 token 时提前结束前向计算。该方法配合两阶段训练流程(自蒸馏校准与强化学习激励),旨在减少模型利用隐层激活进行“暗中计算”的空间,从而显著提升思维链(CoT)推理的可解释性与外部化程度。
TL;DR
研究人员开发了一种新的 Transformer 变体,通过在模型中间层安装“减速带”(Early-exit),强制模型在预测容易的 Token 时尽早结束计算。利用自蒸馏和强化学习(RL),这种方法成功减少了模型的隐层计算量。其核心目的在于:防止人工智能在背后偷偷规划,强迫它把所有的底层思考过程都写在明面上的思维链(CoT)里。
痛点深挖:为何我们需要模型“慢下来”?
当前的推理模型(如 OpenAI o1, DeepSeek R1)虽然能输出详尽的思维链,但存在一个潜在的安全黑天鹅:推理混淆(Obfuscation)。
由于 Transformer 每一层都在进行复杂的非线性变换,模型完全有能力在生成当前词的“外壳”下,利用多余的神经网络层数在内部进行复杂的恶意规划。这种隐藏在激活值(Activations)里的思考对人类监控者是完全不可见的。如果模型学会了“说一套做一套”,现有的 CoT 监控手段将彻底失效。
核心直觉:按需分配算力
作者的 Insight 非常直观:如果一个 Token 的预测非常简单(通过 Logit Lens 观察到低层分布已与高层一致),就没有必要让它跑完所有的 ResNet 块。通过剥夺这些多余的算力,我们可以“挤压”模型的内部思考空间,迫使其必须依赖外部生成的 Token(即文字形式的 CoT)来辅助复杂推理。
方法论详解:两阶段训练与早停架构
1. 架构改良
作者在原有的 Transformer 基础上,每 5 层添加了一个 Early-exit Head。这个 Head 会输出一个标量,代表模型在当前层退出的概率。
- 随机性(Stochasticity):与以往确定性的阈值退出不同,本文采用随机采样,这使得该机制可以无缝接入 RL 训练。
- 残差冻结:一旦决定退出,剩余层将被跳过,残差流(Residual Stream)直接进入最终的 Unembedding 层。
图 1:早停架构总览。A 部分展示了基于 KL 散度的自蒸馏校准;B 部分展示了 RL 如何利用层数惩罚来激励提前退出。
2. 训练流程
- 阶段一:自蒸馏校准 (SFT) 模型以“自己”为老师。如果中间层预测的 Logit 分布与顶层非常接近(KL 散度低),则训练早停头给该层分配更高的退出概率。
- 阶段二:强化学习激励 (RL) 引入改进的 RLOO 算法。奖励函数 不仅包含任务准确率,还包含一个由 控制的层数惩罚项。这个 就是调节“推理外部化压力”的拨盘—— 越高,模型被逼得越急,越倾向于在浅层解决战斗。
实验与结果:鱼与熊掌可以兼得
团队在 Qwen3-4B 等模型上进行了验证。结果显示,模型不仅学会了在简单词上“偷懒”,甚至在某些任务上因为减少了过拟合和冗余计算,准确率反而有所上升。
图 2:左侧显示 RL 训练曲线,随着步骤增加,模型在保持高准确率的同时,平均层数消耗(Average Compute)显著下降。右侧可视化显示了不同 Token 消耗的层数,具有明显的自适应性。
在实验中:
- 准确率提升:Theory of Mind 任务准确率从 47% 升至约 60%。
- 算力节省:实现了约 5%-10% 的层数节省,且这种节省具有语义相关性(如 Predictable 的后缀退出极早)。
深度洞察:迈向可监控的 AI
这项工作的真正价值不在于“推理加速”,而在于安全控制。通过调节推断时的阈值或训练时的 ,人类可以人为设定模型的“内部带宽”。
局限性与挑战
- 性能平衡:过度压缩深度可能会导致模型逻辑崩溃。目前仅在 4B 规模验证,超大规模模型的表现仍需观察。
- 泛化能力:目前仅针对特定任务(GSM8K 等)训练,跨域通用性仍存疑。
总结
该工作为 AI 对齐(Alignment)提供了一个物理层面的新视角。如果我们无法直接通过算法消除 LLM 的隐匿动机,那么至少可以通过减少它们的“隐秘思考时间”,强迫它们回到人类可理解的思维链轨道上来。
