Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization

arXiv: 2604.22345 · PDF

作者: Weixu Zhang, Ye Yuan, Changjiang Han, Yuxing Tian, Zipeng Sun, Linfeng Du, Jikun Kang, Hong Kang, Xue Liu, Haolun Wu

单位: McGill University, Mila - Quebec AI Institute, MBZUAI, University of Montreal, Salesforce

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, rag, inference, serving, attention, transformer

TL;DR

论文提出 Preference Heads 假设：少量注意力头编码用户偏好，并设计免训练的 Differential Preference Steering (DPS) 框架在推理时放大这些头的影响，实现可解释的个性化。

核心观点

假设 LLM 中存在稀疏的 Preference Heads，编码用户风格与话题偏好并对生成有因果作用。
提出 DPS：无需训练的框架，定位 Preference Heads 并在解码时利用它们做可控、可解释的个性化。
为 transformer 中"个性化在哪里、如何出现"提供机制层面的解释。

方法

用 causal masking analysis 识别 Preference Heads，为每个 attention head 计算 Preference Contribution Score (PCS)，直接衡量其对用户对齐输出的因果影响。
在 decoding 阶段对比"带/不带 Preference Heads"的模型预测，放大个性化 logits 与通用 logits 之差，从而增强偏好对齐的续写。
整体为 training-free，推理时插入。

实验

在多个常用 personalization benchmark 上评测。
跨多个 LLM 骨干进行验证。
同时关注个性化保真度、内容一致性与计算开销。

结果

在多 LLM、多 benchmark 上个性化保真度一致提升，同时保持内容连贯性与低计算开销。
PCS 热力图显示 Preference Heads 在用户内部稀疏且具因果显著性；不同用户间 top-K 集合 Jaccard 重叠有限，说明需按用户/簇发现。
性能对所选头数 K 不敏感，在中等 K 时即饱和，表明个性化信号集中于少量头。

图 1 图 2 图 3

为什么重要

为个性化从 prompt/fine-tune 的黑盒走向机制可解释提供路径；对 agent/LLM 基础设施而言，可在不训练的前提下按用户轻量切换风格，并具备审计与调试抓手。

与已有工作的关系

延续 mechanistic interpretability（如 induction heads、function vectors）在专门化 attention heads 上的分析；对比 prompt engineering、RLHF、PEFT/LoRA 个性化以及 contrastive/DoLa 式对比解码。

尚未回答的问题

Preference Heads 在跨领域、长时任务与多轮对话中的稳定性？
与安全/对齐头是否冲突，能否被滥用放大有害偏好？
如何高效做在线的 per-user 头发现与聚类？

原始摘要（中文翻译）

大语言模型（LLMs）展现出很强的隐式个性化能力，但现有方法大多将该行为视为黑盒，依赖 prompt engineering 或在用户数据上做 fine tuning。在本工作中，我们采用机制可解释性视角，假设存在一组稀疏的 Preference Heads，即编码用户特定风格与话题偏好、并对生成施加因果影响的 attention heads。我们提出 Differential Preference Steering (DPS)，一个免训练框架，其 (1) 通过 causal masking 分析识别 Preference Heads，(2) 在推理时利用它们实现可控且可解释的个性化。DPS 为每个 attention head 计算 Preference Contribution Score (PCS)，直接衡量其对用户对齐输出的因果影响。在解码过程中，我们对比带与不带 Preference Heads 的模型预测，放大个性化 logits 与通用 logits 之间的差异，以有选择地增强偏好对齐的续写。在多个广泛使用的个性化基准、多种 LLM 上的实验表明，该方法在保持内容连贯性和低计算开销的同时，一致提升了个性化保真度。除了经验改进，DPS 还对 transformer 架构中个性化在何处、如何出现提供了机制层面的解释。我们的实现已公开。