Behavioral Canaries: Auditing Private Retrieved Context Usage in RL Fine-Tuning

arXiv: 2604.22191 · PDF

作者: Chaoran Chen, Dayu Yuan, Peter Kairouz

单位: Google

主分类: cs.CR · 全部: cs.CL, cs.CR

命中关键词: llm, agent, agentic, inference, fine-tun, post-train

TL;DR

提出 Behavioral Canaries，通过在偏好数据中植入"文档触发器+风格化反馈"，审计 RLFT 是否违规使用受保护检索上下文；1% 注入率下 AUROC 0.756。

核心观点

现有审计（逐字记忆、成员推断）对 RL 微调无效，因为 RL 改变的是行为风格而非事实记忆。
提出 Behavioral Canaries：将文档触发器与奖励特定风格响应的反馈配对，若被用于训练会诱导潜在的 trigger-conditioned preference。
把审计信号从"记忆痕迹"转换为"分布式行为变化"，适配 agentic workflows 中受法律保护的 retrieved context 场景。

方法

面向 RLFT（RL Fine-Tuning）流水线的审计机制。
在偏好数据（preference data）中注入 canary：document trigger 与 distinctive stylistic response 的反馈配对。
若 provider 违规将这些数据纳入 post-training，模型会形成 latent trigger-conditioned preference。
审计时用行为探测检测该条件化偏好是否存在。

实验

摘要未披露具体模型、数据集与基线。指标为检测率、假阳率、AUROC，并控制 canary 注入率。

结果

1% canary 注入率下：10% 假阳率时检测率 67%，AUROC = 0.756。
证明 RL 训练中的未授权 document-conditioned 影响可被行为信号检测，即便没有显式 memorization。

为什么重要

给 agent/LLM 基础设施的 compliance 与 data governance 提供了新的审计工具：当服务商声称只用 retrieval、不训练时，审计者可用行为探针验证 RLFT 阶段是否违规使用受保护文档。

与已有工作的关系

延伸 canary/membership inference 与 data provenance auditing 思路（传统 verbatim memorization 审计），面向 RLHF/RLFT 与 agentic retrieval 场景，补足 SFT-centric 审计方法的盲区。

尚未回答的问题

对抗性 provider 能否通过正则化、风格归一化或偏好数据过滤绕过 canary？
注入率更低（<1%）时的检出能力与误杀影响？
在多轮 agent、工具调用链条与不同 RL 算法（PPO/DPO/GRPO）下的泛化性与稳定性？
法律证据链层面，行为信号作为违规证据的可采性。

原始摘要（中文翻译）

在 agentic workflows 中，LLM 经常处理受法律保护、不得用于进一步训练的 retrieved contexts。然而，审计者目前缺乏可靠手段验证服务提供方是否违反服务条款，将这些数据纳入 post-training，尤其是通过 Reinforcement Learning (RL)。标准审计依赖逐字记忆（verbatim memorization）与成员推断（membership inference），但这些方法对 RL 训练的模型无效，因为 RL 主要影响模型的行为风格，而非对具体事实的保留。为弥合这一差距，我们提出 Behavioral Canaries，一种面向 RLFT 流水线的新型审计机制。该框架通过将 document triggers 与奖励独特风格化响应的反馈配对来对 preference data 进行仪器化，从而在这些数据被用于训练时诱导出潜在的 trigger-conditioned preference。实验结果表明，这些行为信号可用于检测未授权的 document-conditioned 训练，在 1% canary 注入率下，于 10% 假阳率处达到 67% 的检测率（AUROC = 0.756）。更广泛地，我们的结果确立了 behavioral canaries 作为 RLFT 流水线的新审计机制，使审计者即便在训练时影响表现为分布式行为变化而非记忆时，也能对其进行检测。

论文图表

图 1: Page 2 (rendered)

图 1

图 2: Page 3 (rendered)

图 2

图 3: Page 4 (rendered)

图 3