arXiv: 2604.22191 · PDF

作者: Chaoran Chen, Dayu Yuan, Peter Kairouz

单位: Google

主分类: cs.CR · 全部: cs.CL, cs.CR

命中关键词: llm, agent, agentic, inference, fine-tun, post-train


TL;DR

提出 Behavioral Canaries,通过在偏好数据中植入"文档触发器+风格化反馈",审计 RLFT 是否违规使用受保护检索上下文;1% 注入率下 AUROC 0.756。

核心观点

  • 现有审计(逐字记忆、成员推断)对 RL 微调无效,因为 RL 改变的是行为风格而非事实记忆。
  • 提出 Behavioral Canaries:将文档触发器与奖励特定风格响应的反馈配对,若被用于训练会诱导潜在的 trigger-conditioned preference。
  • 把审计信号从"记忆痕迹"转换为"分布式行为变化",适配 agentic workflows 中受法律保护的 retrieved context 场景。

方法

  • 面向 RLFT(RL Fine-Tuning)流水线的审计机制。
  • 在偏好数据(preference data)中注入 canary:document trigger 与 distinctive stylistic response 的反馈配对。
  • 若 provider 违规将这些数据纳入 post-training,模型会形成 latent trigger-conditioned preference。
  • 审计时用行为探测检测该条件化偏好是否存在。

实验

摘要未披露具体模型、数据集与基线。指标为检测率、假阳率、AUROC,并控制 canary 注入率。

结果

  • 1% canary 注入率下:10% 假阳率时检测率 67%,AUROC = 0.756。
  • 证明 RL 训练中的未授权 document-conditioned 影响可被行为信号检测,即便没有显式 memorization。

为什么重要

给 agent/LLM 基础设施的 compliance 与 data governance 提供了新的审计工具:当服务商声称只用 retrieval、不训练时,审计者可用行为探针验证 RLFT 阶段是否违规使用受保护文档。

与已有工作的关系

延伸 canary/membership inference 与 data provenance auditing 思路(传统 verbatim memorization 审计),面向 RLHF/RLFT 与 agentic retrieval 场景,补足 SFT-centric 审计方法的盲区。

尚未回答的问题

  • 对抗性 provider 能否通过正则化、风格归一化或偏好数据过滤绕过 canary?
  • 注入率更低(<1%)时的检出能力与误杀影响?
  • 在多轮 agent、工具调用链条与不同 RL 算法(PPO/DPO/GRPO)下的泛化性与稳定性?
  • 法律证据链层面,行为信号作为违规证据的可采性。

原始摘要(中文翻译)

在 agentic workflows 中,LLM 经常处理受法律保护、不得用于进一步训练的 retrieved contexts。然而,审计者目前缺乏可靠手段验证服务提供方是否违反服务条款,将这些数据纳入 post-training,尤其是通过 Reinforcement Learning (RL)。标准审计依赖逐字记忆(verbatim memorization)与成员推断(membership inference),但这些方法对 RL 训练的模型无效,因为 RL 主要影响模型的行为风格,而非对具体事实的保留。为弥合这一差距,我们提出 Behavioral Canaries,一种面向 RLFT 流水线的新型审计机制。该框架通过将 document triggers 与奖励独特风格化响应的反馈配对来对 preference data 进行仪器化,从而在这些数据被用于训练时诱导出潜在的 trigger-conditioned preference。实验结果表明,这些行为信号可用于检测未授权的 document-conditioned 训练,在 1% canary 注入率下,于 10% 假阳率处达到 67% 的检测率(AUROC = 0.756)。更广泛地,我们的结果确立了 behavioral canaries 作为 RLFT 流水线的新审计机制,使审计者即便在训练时影响表现为分布式行为变化而非记忆时,也能对其进行检测。


论文图表

图 1: Page 2 (rendered)

图 1

图 2: Page 3 (rendered)

图 2

图 3: Page 4 (rendered)

图 3