WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
PSR:像提示词一样引导 LLM,实现高保真激活转向
总结
问题
方法
结果
要点
摘要

本文提出了 Prompt Steering Replacement (PSR) 框架,旨在通过模仿提示词工程(Prompting)对大模型内部激活的影响来提升激活转向(Activation Steering)的效果。该方法在大规模生成任务、指令遵循和 AxBench 评估中,均表现出优于传统常数转向方法的性能,部分指标超越了 Prompting 记录。

TL;DR

传统的激活转向(Activation Steering)往往给所有 Token 加上一个“死板”的固定向量,导致模型生成质量受损。本文提出了 Prompt Steering Replacement (PSR),通过学习提示词工程(Prompting)在模型内部留下的“激活指纹”,让干预系数随 Token 动态变化。实验证明,PSR 不仅比传统方法更连贯,甚至在多个基准测试中超越了原生提示词的效果。

痛点深挖:为什么目前的转向方法“不自然”?

在对 LLM 进行对齐或行为控制时,Prompting 是最直接的手段,但它会占用上下文窗口且易受攻击;激活转向(Activation Steering)虽然轻量,效果却总是不尽如人意。

作者发现了一个关键直觉:提示词对模型的影响并不是均匀分布的。如图 2 所示,当使用提示词引导模型变得“谄媚”时,某些关键 Token(如标点或特定动词)的激活变化剧烈,而其他 Token 几乎不受影响。现有的 Constant Steering 方法强行在每个位置施加同样的力,这本质上破坏了模型预测的自然流向(Manifold)。

方法论:从蒸馏提示词到动态干预

PSR 的核心逻辑是:既然提示词做得好,我们就学它的干预轨迹。

1. 架构解析

作者将转向公式从 改进为: 其中 是一个基于当前激活值计算的标量。这意味着模型会根据“当下的语境”决定减弱还是增强干预强度。

2. 模型架构图

PSR 训练优化流程图 图 1:左侧记录提示词引导下的激活路径,右侧通过 PSR 模型最小化 MSE 或最大化对数似然(LL),从而在不使用提示词的情况下复现相同的转向效果。

3. 两种训练目标

  • MSE(均方误差):追求与提示词激活路径的高度一致(忠实性)。
  • LL(对数似然):追求最终生成结果的准确性。在处理复杂格式逻辑(如 IFEval)时,LL 表现更佳,因为它允许模型寻找比原生提示词更优的内部表达。

实验与结果:全线突破

作者在 Llama 和 Qwen 系列模型上进行了广泛测试,涵盖了人格转向、指令遵循和 SAE 特征转向(AxBench)。

核心战绩:

  • AxBench SOTA:A-PSR 在 Gemma-2-9B 上达到了 1.120 的转向得分,超过了提示词(1.075)和 HyperSteer 等强基线。
  • 连贯性 vs. 强度:在图 13 的“强度-连贯性”曲线中,PSR 明显处于右上角,意味着在施加相同转向强度时,PSR 生成的内容更像人话。

实验结果对比 图 3:可以看到 A-PSR 的激活路径与提示词路径的 RMSE 极低,证明了其动态系数确实捕捉到了提示词工程的精髓。

深度洞察:为什么 PSR 有效?

PSR 的成功揭示了 LLM 内部的计算冗余与敏感点。提示词工程实质上是在寻找模型内部的“分支点”,并在这些点上改变逻辑走向。PSR 通过学习这些敏感点(Branching Points),避免了在不重要的 Token 上添加噪声。

局限性

作者坦言,当前的 PSR 基于 Rank-1 假设(单方向转向)。在 IFEval 这种需要处理复杂参数(如“生成 3 个章节”)的任务中,单方向向量显得力不从心。这暗示了未来的研究方向:低秩(Low-rank)但多维的动态转向

总结

PSR 告诉我们:最好的行为控制方法隐藏在模型自身的提示词处理机制中。通过将提示词工程“固化”为轻量的动态激活拦截器,我们既保留了 Prompting 的高质量,又获得了激活转向的高效率与鲁棒性。

发现相似论文

试试这些示例

  • 查找最近其他试图通过模拟提示词工程或上下文学习(In-Context Learning)机制来改进大模型可控生成的论文。
  • 哪篇论文最早探讨了 Transformer 内部激活转向的线性表示假设(Linear Representation Hypothesis),本文通过动态系数对其做了哪些改进?
  • 有哪些研究将这种 Token 级别的动态激活干预(Dynamic Activation Intervention)应用到了多模态大模型或长视频生成的偏好对齐中?
目录
PSR:像提示词一样引导 LLM,实现高保真激活转向
1. TL;DR
2. 痛点深挖:为什么目前的转向方法“不自然”?
3. 方法论:从蒸馏提示词到动态干预
3.1. 1. 架构解析
3.2. 2. 模型架构图
3.3. 3. 两种训练目标
4. 实验与结果:全线突破
4.1. 核心战绩:
5. 深度洞察:为什么 PSR 有效?
5.1. 局限性
6. 总结