Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization

arXiv: 2604.22345 · PDF

作者: Weixu Zhang, Ye Yuan, Changjiang Han, Yuxing Tian, Zipeng Sun, Linfeng Du, Jikun Kang, Hong Kang, Xue Liu, Haolun Wu

单位: McGill University, Mila - Quebec AI Institute, MBZUAI, University of Montreal, Salesforce

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, rag, inference, serving, attention, transformer

TL;DR

论文提出 Differential Preference Steering (DPS)，通过因果分析定位 LLM 中稀疏的 Preference Heads，并在推理时对比有无这些头的 logits 来实现无需训练的可解释个性化。

核心观点

假设 LLM 内部存在一组稀疏的 Preference Heads，编码用户特定的风格与主题偏好，并对生成结果具有因果影响。
提出 DPS 框架：免训练，先通过因果 masking 识别 Preference Heads，再在解码阶段利用它们做可控个性化。
引入 Preference Contribution Score (PCS) 量化每个 attention head 对用户对齐输出的因果贡献。
从机制可解释性视角解释了 Transformer 中个性化"在哪、如何"涌现。

方法

识别阶段：对每个 attention head 做因果 masking 消融，计算 PCS，衡量该头被遮蔽后输出与用户偏好对齐程度的变化，筛出高 PCS 的 Preference Heads。
引导阶段 (DPS)：解码时并行跑两次前向——含 Preference Heads 与屏蔽它们——对比两份 logits，放大"个性化 vs 通用"的差异，从而选择性增强偏好对齐的续写。
整个流程无需微调，低计算开销，可解释性强。

实验

在多个主流 LLM 上，于广泛使用的 personalization benchmarks 上评估。
基线为常规 prompt / 无引导解码；指标覆盖个性化保真度与内容连贯性。
额外分析：跨用户 Preference Head 的重叠度、逐用户 PCS 分布、选取头数 K 的敏感性。

结果

Per-user PCS 热图显示高 PCS 的 head 在层和头维度都非常稀疏且分布不均，说明个性化信号由少量 head 承载。

图 2

跨用户 Jaccard 重叠几乎为零，表明不同用户的 Preference Head 集合差异很大，需要按用户（或 cluster）单独发现。

图 1

K 值扫描显示 Accuracy 与 F1 在中等 K 处即饱和，佐证偏好信号集中在少数 head。

图 3

整体上 DPS 在多 LLM 上一致提升个性化保真度，同时保持内容连贯性与低开销。

为什么重要

为 LLM 个性化从"黑盒 prompt/微调"转向机制可解释的路径：无需训练、推理期可控、可解释到具体 head，对做 agent memory、个性化助手和对齐审计的人尤其有用。

与已有工作的关系

延续 mechanistic interpretability（circuit / induction head 系列）与 attention head 归因研究；在个性化方向上与 prompt engineering、PEFT/LoRA 微调、RLHF 个性化形成对照；解码端与 contrastive decoding、DoLa、activation steering 等引导式推理方法同脉。

尚未回答的问题

Preference Heads 是否在更大模型或多语种场景下仍然稀疏且稳定？
用户量级扩大后如何高效发现与缓存 head 集合（cluster-aware 发现尚待设计）？
与长期记忆、RAG 的组合效果，以及是否易被对抗样本操纵。

原始摘要（中文翻译）

大语言模型（LLMs）表现出很强的隐式个性化能力，但现有方法大多将这种行为视为黑箱，依赖 prompt engineering 或在用户数据上做 fine tuning。本工作采用 mechanistic interpretability 视角，假设存在一组稀疏的 Preference Heads——这些 attention heads 编码了用户特定的风格与主题偏好，并对生成施加因果影响。我们提出 Differential Preference Steering (DPS)，一个免训练框架，它 (1) 通过 causal masking 分析识别 Preference Heads，(2) 在推理时利用它们实现可控、可解释的个性化。DPS 为每个 attention head 计算一个 Preference Contribution Score (PCS)，直接衡量其对用户对齐输出的因果影响。在解码过程中，我们对比模型在有无 Preference Heads 情况下的预测，放大个性化 logits 与通用 logits 之间的差异，从而有选择地增强与偏好对齐的续写。在多种 LLM 上对广泛使用的个性化 benchmark 的实验表明，在保持内容连贯性和低计算开销的同时，个性化保真度有一致提升。除了实证改进之外，DPS 还为 transformer 架构中个性化在何处、以何种方式涌现提供了机制性解释。我们的实现已公开。