SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

作者: Yunbo Tang, Chengyi Yang, Shiyu Liu, Zhishang Xiang, Zerui Chen, Qinggang Zhang, Jinsong Su

单位: School of Informatics, Xiamen University, Jilin University

主分类: cs.AI · 全部: cs.AI, cs.CL, cs.LG

命中关键词: llm, agent, agentic, rag, reasoning, inference, latency

TL;DR

SAAS 提出三组件 RL 框架，通过动态建模"搜索边界"抑制 agentic search 中的过搜索问题，在 7 个 QA benchmark 上保持精度的同时大幅削减冗余检索。

Motivation

LLM agentic search 通过迭代推理+外部检索处理复杂多跳问题效果显著，但存在严重的"过搜索"（over-search）痼疾：模型在参数知识已足够时仍触发搜索，或在已收集充分证据后仍持续检索。这两类浪费直接推高推理延迟和计算成本，同时引入噪声证据干扰最终答案——受影响的是任何在生产中部署 agentic RAG 系统的团队。

现有方案分两类：提示/路由类（DRAGIN、Adaptive-RAG）依赖静态启发规则，RL 类（StepSearch、HiPRAG）依赖固定惩罚阈值。两者的共同缺陷是"静态"——都无法感知模型能力的动态变化。关键数据：随着训练推进，不需要搜索就能答对的问题比例从 step 100 的 12.7% 上升到 step 300 的 24.3%（Figure 3）。搜索边界本身在移动，固定惩罚在 step 250 附近会引发 reward hacking 和性能崩溃。

前提条件的变化：RL 训练动态本身是可测量的——可以在每个训练步在线对比有搜索/无搜索 rollout，从而动态识别当前策略的搜索边界，这正是 SAAS 的切入点。

核心观点

下图展示了 SAAS 要解决的两类过搜索失效模式：左侧是"不必要搜索"（参数知识已足够却仍调用搜索工具），右侧是"冗余搜索"（外部证据已充分仍继续检索）。两者都造成推理成本浪费。

图 1

Figure 3 量化了静态惩罚的局限：随着训练推进，可无搜索答对的问题比例从 12.7% 上升到 24.3%，说明搜索边界是随模型能力演化的动态量。朴素搜索惩罚虽能压低搜索次数，但导致 step 250 附近性能崩溃，说明固定阈值不能区分"合理克制"与"放弃必要搜索"。

图 3

识别 agentic search 中过搜索的根因：outcome-based RL 缺乏对搜索必要性的显式信号
提出 SAAS，动态建模随策略演化的搜索边界，而非依赖静态阈值
设计 Boundary-Aware Reward，将边界感知转化为轨迹级自适应惩罚，区分必要与冗余搜索
引入 Stage-wise Optimization，优先推理探索再施加搜索正则，防止 reward hacking
在 7 个 benchmark 上验证，精度不损失的前提下显著减少过搜索

方法

SAAS 的整体 pipeline 如下图所示，由三个相互配合的组件构成：Search Boundary Modeling 在线识别当前策略的搜索边界；Boundary-Aware Reward 将边界感知转化为轨迹级惩罚；Stage-wise Optimization 通过课程式两阶段训练防止 reward hacking。

图 4

Search Boundary Modeling：对每个问题 $q$，在当前策略下分别采样搜索禁用组 $G_d(q)$（纯参数知识推理）和搜索启用组 $G_e(q)$（允许调用搜索引擎）各 $N$ 条轨迹，统计各组答对数 $n_d, n_e$。若 $n_d \geq \delta$ 则标记为 NoSearch（参数知识已足够）；若 $n_d=0$ 且 $n_e>0$ 则为 NeedSearch；否则为 Undetermined。此边界随每轮训练更新，追踪策略能力演化。

Boundary-Aware Reward：总奖励 $R_i = R_i^{\text{acc}} + \mathbb{I}[\text{F1}=1] \cdot R_i^{\text{search}}$，仅对答对的轨迹施加搜索惩罚，避免对答错轨迹的双重惩罚。对 NoSearch 问题惩罚任何搜索行为（抑制不必要搜索）；对 NeedSearch 问题惩罚证据已充分后的继续搜索（抑制冗余搜索）；Undetermined 问题不施加搜索惩罚。

Stage-wise Optimization：两阶段课程——第一阶段仅用 outcome reward 做充分推理探索，第二阶段再叠加 boundary-aware reward 做搜索正则化，防止过早施加搜索惩罚导致模型放弃必要搜索。

实验

数据集：7 个 QA benchmark（论文正文截断，具体名称未全部出现于可见文本）
Baselines：DRAGIN、Adaptive-RAG、StepSearch、HiPRAG 及 outcome-based GRPO
模型：Qwen2.5-3B-Instruct（参数敏感性分析）；主实验模型规模论文正文截断未见
指标：Accuracy（ACC）、Recall（RC）、冗余搜索比率（Redundant Search Ratio）、无搜索轨迹比率

结果

Figure 2 支撑了 SAAS 的核心动机：标准 outcome-based RL 训练至 step 50 时无搜索轨迹比例接近零，冗余搜索比率持续攀升并接近 50%，证明朴素 RL 会系统性地催生过搜索。SAAS 正是针对这一训练动态设计的。

图 2

Figure 5 展示了 SAAS 两阶段训练的动态曲线：第一阶段 F1 分数稳步提升（推理能力优先），第二阶段在 F1 保持稳定的同时搜索次数明显下降，两条曲线呈现出清晰的阶段性分离，支撑了 stage-wise 策略能在不损失精度的前提下压制过搜索的主张。论文正文截断，具体 baseline 对比数字未能获取。

图 5

超参数 $\delta$（用于 evidence-demand 估计的 GRPO 分组数）的敏感性分析在 Qwen2.5-3B-Instruct 上跨 7 个 QA benchmark 对 ACC 和 RC 进行了评测，Figure 6 验证了默认设置能提供稳定的搜索必要性估计；论文未在可见文本中给出不同 $\delta$ 取值的具体数字。

图 6

注：论文正文在 Section 3.2 处被截断，Section 4（Main Results Table）的具体 baseline→SAAS delta 数字未拿到。Abstract 仅声称"substantially reduces over-search, while maintaining accuracy"，无具体数值。

结论

SAAS 的核心 takeaway：搜索边界不是问题的固有属性，而是随模型能力动态变化的——在 RL 训练中在线追踪这一边界，并据此施加自适应惩罚，是抑制过搜索同时保持精度的关键。Figure 3 的量化支撑：无搜索可答比例从 12.7% 到 24.3% 的演化明确证明了静态阈值的失效。

边界条件：实验在 7 个 QA benchmark 上进行，模型以 Qwen2.5-3B-Instruct 为主；大模型（如 70B+）、非英文场景、非检索类 agentic task 的泛化性未验证。Abstract 称"substantially reduces over-search"，但具体延迟或成本改善数字未在正文中给出（可见部分）。缺失的 ablation：搜索禁用/启用 rollout 的采样数量 $N_d, N_e$ 对边界识别精度的影响未见独立消融。

是否新瓶装旧酒

论文自述最相近前人工作：

StepSearch（Wang et al., 2025）——步级规划+搜索调度，但用固定启发式，不追踪边界演化
HiPRAG（Wu et al., 2026）——基于检索段落信息量的细粒度 process reward，但奖励设计仍是静态的
Adaptive-RAG（Jeong et al., 2024）——轻量分类器动态路由，属于 prompt/routing 范式，不修改模型参数

作者框架自己的 delta：现有方法均依赖静态阈值或固定分类器，无法感知训练中策略能力的演变；SAAS 的 on-policy 对比 rollout 是动态感知搜索边界的新机制。

独立判断：用对比 rollout 估计"是否需要搜索"在思路上与 RLVR 中的 process reward model（PRM）有相似之处，但聚焦于搜索决策而非推理步骤奖励，方向有差异。Stage-wise curriculum 与其他 RL 多阶段训练（如 DAPO、STILL-3）并无本质不同，属于工程常规。整体属于将"动态边界感知"引入 agentic search RL 训练的增量创新，而非范式颠覆。

尚未回答的问题

跨模型规模：实验主要在 3B 量级模型上验证，搜索边界建模对 7B/70B 模型能力跃迁是否同样有效？
搜索工具多样性：实验用单一搜索引擎；当 agentic system 混用多种工具（代码执行、计算器、API）时，边界建模是否可推广？
NoSearch/NeedSearch/Undetermined 的比例分布：论文未报告三类问题在不同 benchmark 上的分布，不清楚 Undetermined 占比高时框架的降级行为。
在线建模的计算开销：每步需要两组 rollout 对比，实际训练成本相比 standard GRPO 增加多少？论文提及 efficiency analysis（Appendix B.3）但正文截断未见数据。
与 chain-of-thought 压缩方法的结合：过搜索和"过思考"（over-thinking in CoT）是否可以统一框架处理，SAAS 能否扩展到非搜索工具的"冗余动作"抑制？

原始摘要（中文翻译）

Agentic search 使 LLM 能够通过迭代推理和外部搜索来解决复杂的多跳问题。尽管效果显著，但这些系统在实践中往往存在一个关键限制：智能体无法识别自身的知识边界，在内部知识已足够时盲目触发搜索，并且即使已收集到充分证据也无法终止搜索。这种自我感知能力的缺失导致严重的过搜索现象，带来巨大的推理延迟和高昂的计算成本。为此，我们提出 SAAS——一种新颖的强化学习框架，旨在培养动态自我感知能力，在不损害准确性的前提下精确调控搜索行为。SAAS 引入三个关键组件：（i）搜索边界建模机制，通过对比禁用搜索和启用搜索的 rollout，在演化策略下识别搜索边界；（ii）边界感知奖励模块，将这种边界感知转化为轨迹级惩罚，抑制不必要和冗余的搜索；（iii）阶段式优化策略，利用顺序课程优先进行推理而非搜索正则化，从而避免奖励 hacking。大量实验表明，SAAS 在显著减少过搜索的同时保持了准确性。我们的代码已匿名发布于 https://github.com/XMUDeepLIT/SAAS。