arXiv: 2604.22191 · PDF

作者: Chaoran Chen, Dayu Yuan, Peter Kairouz

单位: Google

主分类: cs.CR · 全部: cs.CL, cs.CR

命中关键词: llm, agent, agentic, inference, fine-tun, post-train


TL;DR

提出 Behavioral Canaries:针对 RL 微调(RLFT)的新型审计机制,通过注入"文档触发器+风格化反馈"偏好对,检测被法律保护的检索文档是否被非授权用于训练。

核心观点

  • 传统基于逐字记忆和成员推断的审计方法对 RL 训练的模型失效,因为 RL 改变行为风格而非事实记忆。
  • 在 agentic workflow 中,LLM 处理的 retrieved context 常受合同约束不得用于后训练,亟需可靠的审计手段。
  • 可通过"行为信号"而非"记忆信号"检测训练时的分布性影响,即使影响只表现为风格偏移。
  • 实验证明该方法能在 RLFT 管线中有效揭示未授权的 document-conditioned 训练。

方法

  • 构造 Behavioral Canaries:在偏好数据中将特定 document trigger 与"奖励某种独特风格化回复"的 feedback 配对。
  • 若提供方把这些数据用于 RLFT,模型会习得一种 latent trigger-conditioned preference——即在遇到触发文档时倾向输出该风格。
  • 审计阶段通过探测这种 trigger 条件下的行为偏移来判断训练时是否使用了受保护数据。
  • 框架聚焦 RLFT/偏好学习管线,而非 SFT 的逐字记忆路径。

实验

  • 在 RLFT pipeline 上做经验性评估;注入率设为 1% canary。
  • 基线对照隐含为传统审计(verbatim memorization、membership inference),论文指出这些方法在 RL 场景下无效。
  • 指标:检测率、假阳性率、AUROC。

结果

  • 在 10% 假阳性率下达到 67% 检测率,AUROC = 0.756,注入率仅 1%。
  • 结果支撑了"行为 canary 可作为 RLFT 审计机制"的核心主张。

为什么重要

  • 为合规方与数据提供者提供了首个面向 RL 后训练的可操作审计工具,即使违规表现为行为分布偏移而非记忆。
  • 对 agent 系统中 retrieved context 的法律/隐私合规审查开辟新路径,弥补 membership inference 的空白。

与已有工作的关系

  • 延伸自数据水印 / canary 注入传统(用于检测训练集泄露)。
  • 对比 membership inference 和 verbatim memorization 审计。
  • 与 RLHF / DPO 等偏好学习方法相关,针对其训练机制设计探针。

尚未回答的问题

  • 对抗性提供方可能过滤或去风格化 canary,鲁棒性如何?
  • 注入率、触发器选择对检测率的权衡边界。
  • 在多轮 agent 场景、多源 retrieval 混合训练下的表现。
  • 是否会误伤正常偏好数据或引入模型行为副作用。

原始摘要(中文翻译)

在 agentic workflow 中,LLM 经常处理受法律保护、禁止用于进一步训练的 retrieved context。然而,审计者目前缺乏可靠方式来验证服务提供方是否违反服务条款,将这些数据纳入后训练,尤其是通过 Reinforcement Learning (RL) 的方式。标准审计依赖 verbatim memorization 和 membership inference,但对 RL 训练的模型无效,因为 RL 主要影响模型的行为风格而非对具体事实的保留。为弥合这一空白,我们提出 Behavioral Canaries,一种面向 RLFT 管线的新审计机制。该框架通过将 document trigger 与奖励某种独特风格化回复的 feedback 配对来改造 preference data,若此类数据被用于训练,便会诱导出一种潜在的 trigger-conditioned preference。实验结果表明,这些行为信号能够检测未授权的 document-conditioned 训练,在 1% canary 注入率下,于 10% 假阳性率时达到 67% 检测率(AUROC = 0.756)。更广泛地,我们的结果将 behavioral canaries 确立为 RLFT 管线的新审计机制,使审计者即便在训练时影响表现为分布性行为变化而非记忆的情况下,也能对其进行检测。