Steer Like the LLM: Activation Steering that Mimics Prompting

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Steer Like the LLM: Activation Steering that Mimics Prompting

PSR：像提示词一样引导 LLM，实现高保真激活转向

总结

问题

方法

结果

要点

摘要

本文提出了 Prompt Steering Replacement (PSR) 框架，旨在通过模仿提示词工程（Prompting）对大模型内部激活的影响来提升激活转向（Activation Steering）的效果。该方法在大规模生成任务、指令遵循和 AxBench 评估中，均表现出优于传统常数转向方法的性能，部分指标超越了 Prompting 记录。

TL;DR

传统的激活转向（Activation Steering）往往给所有 Token 加上一个“死板”的固定向量，导致模型生成质量受损。本文提出了 Prompt Steering Replacement (PSR)，通过学习提示词工程（Prompting）在模型内部留下的“激活指纹”，让干预系数随 Token 动态变化。实验证明，PSR 不仅比传统方法更连贯，甚至在多个基准测试中超越了原生提示词的效果。

痛点深挖：为什么目前的转向方法“不自然”？

在对 LLM 进行对齐或行为控制时，Prompting 是最直接的手段，但它会占用上下文窗口且易受攻击；激活转向（Activation Steering）虽然轻量，效果却总是不尽如人意。

作者发现了一个关键直觉：提示词对模型的影响并不是均匀分布的。如图 2 所示，当使用提示词引导模型变得“谄媚”时，某些关键 Token（如标点或特定动词）的激活变化剧烈，而其他 Token 几乎不受影响。现有的 Constant Steering 方法强行在每个位置施加同样的力，这本质上破坏了模型预测的自然流向（Manifold）。

方法论：从蒸馏提示词到动态干预

PSR 的核心逻辑是：既然提示词做得好，我们就学它的干预轨迹。

1. 架构解析

作者将转向公式从 $A_{y} + α z$ 改进为： $A_{l, y_{i}} = A_{l, y_{i}} + α λ (A_{l, y_{i}}; h e t a) z$ 其中 $λ$ 是一个基于当前激活值计算的标量。这意味着模型会根据“当下的语境”决定减弱还是增强干预强度。

2. 模型架构图

PSR 训练优化流程图 图 1：左侧记录提示词引导下的激活路径，右侧通过 PSR 模型最小化 MSE 或最大化对数似然（LL），从而在不使用提示词的情况下复现相同的转向效果。

3. 两种训练目标

MSE（均方误差）：追求与提示词激活路径的高度一致（忠实性）。
LL（对数似然）：追求最终生成结果的准确性。在处理复杂格式逻辑（如 IFEval）时，LL 表现更佳，因为它允许模型寻找比原生提示词更优的内部表达。

实验与结果：全线突破

作者在 Llama 和 Qwen 系列模型上进行了广泛测试，涵盖了人格转向、指令遵循和 SAE 特征转向（AxBench）。

核心战绩：

AxBench SOTA：A-PSR 在 Gemma-2-9B 上达到了 1.120 的转向得分，超过了提示词（1.075）和 HyperSteer 等强基线。
连贯性 vs. 强度：在图 13 的“强度-连贯性”曲线中，PSR 明显处于右上角，意味着在施加相同转向强度时，PSR 生成的内容更像人话。

实验结果对比 图 3：可以看到 A-PSR 的激活路径与提示词路径的 RMSE 极低，证明了其动态系数确实捕捉到了提示词工程的精髓。

深度洞察：为什么 PSR 有效？

PSR 的成功揭示了 LLM 内部的计算冗余与敏感点。提示词工程实质上是在寻找模型内部的“分支点”，并在这些点上改变逻辑走向。PSR 通过学习这些敏感点（Branching Points），避免了在不重要的 Token 上添加噪声。

局限性

作者坦言，当前的 PSR 基于 Rank-1 假设（单方向转向）。在 IFEval 这种需要处理复杂参数（如“生成 3 个章节”）的任务中，单方向向量显得力不从心。这暗示了未来的研究方向：低秩（Low-rank）但多维的动态转向。

总结

PSR 告诉我们：最好的行为控制方法隐藏在模型自身的提示词处理机制中。通过将提示词工程“固化”为轻量的动态激活拦截器，我们既保留了 Prompting 的高质量，又获得了激活转向的高效率与鲁棒性。

发现相似论文

试试这些示例

查找最近其他试图通过模拟提示词工程或上下文学习（In-Context Learning）机制来改进大模型可控生成的论文。
哪篇论文最早探讨了 Transformer 内部激活转向的线性表示假设（Linear Representation Hypothesis），本文通过动态系数对其做了哪些改进？
有哪些研究将这种 Token 级别的动态激活干预（Dynamic Activation Intervention）应用到了多模态大模型或长视频生成的偏好对齐中？

PSR：像提示词一样引导 LLM，实现高保真激活转向

1. TL;DR

2. 痛点深挖：为什么目前的转向方法“不自然”？

3. 方法论：从蒸馏提示词到动态干预

3.1. 1. 架构解析

3.2. 2. 模型架构图

3.3. 3. 两种训练目标

4. 实验与结果：全线突破

4.1. 核心战绩：

5. 深度洞察：为什么 PSR 有效？

5.1. 局限性

6. 总结