arXiv: 2603.18859 · PDF

作者: Xiao Feng, Bo Han, Zhanke Zhou, Jiaqi Fan, Jiangchao Yao, Ka Ho Li, Dahai Yu, Michael Kwok-Po Ng

单位: TMLR Group, Hong Kong Baptist University, TCL Corporate Research (HK) Co Ltd, Cooperative Medianet Innovation Center, Shanghai Jiao Tong University, Department of Mathematics, Hong Kong Baptist University

主分类: cs.AI · 全部: cs.AI, cs.CL, cs.LG

命中关键词: large language model, llm, agent, agentic, rag, reasoning


TL;DR

RewardFlow 通过构建轨迹状态图并在其上进行拓扑感知的奖励传播,无需人工标注即可为 LLM agentic 推理提供稠密过程奖励,在四个 benchmark 上大幅超越现有 RL baseline。


Motivation

LLM agent 在长 horizon 顺序决策任务(如家庭控制、网页购物、深度研究)中表现不稳定——早期错误会沿着交互链快速放大,最终导致任务失败。agentic RL 理论上可以解决这个问题,但现实是:绝大多数环境只在终止状态给出一个 0/1 奖励,整条轨迹的中间步骤得不到任何信号。这种稀疏奖励结构使 credit assignment 极其困难,模型难以知道哪些中间动作是有价值的。

现有的 process reward model(PRM)方案虽然能提供中间步骤的奖励,但代价高昂:需要人工标注数据(Lightman et al., 2023)、要单独训练一个 reward model,而且策略更新后 reward model 迅速 out-of-distribution,引发 reward hacking。每一步都调用 reward model 在大规模部署时又变得极端昂贵。更重要的是,现有 PRM 通常是任务特定的,跨环境泛化性差。

直接受苦的是需要训练 LLM agent 的研究者和工程师——他们现在只能靠终止奖励做 GRPO/RLOO 之类的算法将就,或者投入巨量资源标注 PRM 数据。RewardFlow 的出发点是:多条 sampled 轨迹本身已经隐含了状态的拓扑关系——相同的状态会被多条轨迹反复经过,这种重现结构可以作为 process reward 的代理信号,无需任何外部标注。


核心观点

图 1

上图将多条轨迹合并为状态节点 + 动作边的有向图,颜色深浅表示到成功节点的距离(越深越近),灰色节点为不可达。这一可视化直接支撑了 RewardFlow 的核心主张:轨迹的拓扑结构本身已经编码了每个状态对任务成功的贡献程度,无需外部 reward model 即可读出。

  • 状态图建模:将 agentic 推理中的多条采样轨迹聚合为状态图,等价状态合并为同一节点,消除表示冗余
  • 拓扑感知奖励传播:利用图上最短路径距离从成功节点向后传播奖励,近成功节点得高奖励,不可达节点得零奖励
  • 无标注稠密奖励:整个过程不依赖人工标注和单独训练的 reward model,annotation-free
  • 动作级奖励整形:将传播后的状态奖励映射回轨迹,用"到达状态奖励 − 出发状态奖励"作为每个动作的细粒度奖励
  • 双层优势估计:结合局部 action-level 奖励与全局 trajectory-level 优势,提供稳定的策略更新

方法

图 2

上图展示了 RewardFlow 的完整 pipeline,三阶段设计清晰:左侧构图、中间传播、右侧映射回轨迹。每个矩形节点代表一个状态,颜色代表奖励等级,从图中可以直接看到奖励如何从成功节点(亮色)逐步向上游扩散。

步骤一:状态图构建。给定 G 条采样轨迹,先对状态做归一化(f(s)),将语义等价的状态映射到同一 canonical 表示——对文本环境用精确匹配,对 DeepResearch 等复杂环境用 embedding 余弦相似度(阈值 τ)。然后过滤 LLM 幻觉出的环境无效动作(valid(s, a, s')=0 的边),防止伪边污染图结构(Fig. 4)。最终建立状态图 G_state = (S, A, T),节点是唯一状态,有向边是有效动作转移。

图 4

LLM 会生成语法合理但环境不接受的动作(如"pick up nonexistent object"),这类无效动作在图中产生虚假的边,干扰可达性分析。图 4 说明了过滤这类伪边的必要性——不过滤则状态间的拓扑关系被污染,传播出的奖励失去意义。

步骤二:图上奖励传播。以 BFS 为主要传播策略,从成功终止状态集 S_succ 出发,反向传播奖励:距离成功节点 d 步的状态获得衰减后的奖励(实现为 r_max · γ^d 形式)。两个关键属性驱动传播:可达性(该状态是否有路径通往成功)和中心性(状态的入/出度,高中心度状态往往是任务关键节点),见 Fig. 5。

图 5

图 5 用一个具体例子标注了可达性与中心性:红色节点为不可达(无路径到达成功状态),“Go to desk"对应的节点出度高,是通往多个必要物品的关键枢纽,因此获得较高奖励。这两种属性共同决定了每个状态对任务成功的贡献值。

步骤三:动作级奖励整形与策略优化。将传播后的节点奖励 V(s) 映射回原始轨迹:动作 a_t 的奖励定义为 r_action = V(s_{t+1}) - V(s_t),即前后状态价值的差(增量奖励)。最终优势估计结合动作级奖励(α_action 加权)与轨迹级组归一化优势(α_traj 加权),通过 PPO clip 目标更新策略。


实验

数据集:ALFWorld(室内家务文本 agent)、WebShop(网页购物文本 agent)、Sokoban(视觉推箱子)、DeepResearch(多步搜索研究,视觉+文本)

Baseline

  • 稀疏奖励 RL:GRPO、RLOO、GiGPO(最强 baseline)
  • PRM 方法:Math-Shepherd、MCTS-based PRM、LLM-as-PRM

模型规模:Qwen2.5-1.5B、Qwen2.5-3B、Qwen2.5-7B(文本);Qwen2.5-VL-3B(视觉)

硬件:论文未在正文中详细说明具体 GPU 配置


结果

主要性能提升:与最强 baseline GiGPO 相比,RewardFlow 在文本 benchmark(ALFWorld + WebShop + Sokoban)上平均成功率提升 +6.2%,在视觉推理(Sokoban 视觉版)上跨三种模型规模提升 +29.7%(abstract 数据)。在 DeepResearch 上超越 Search-R1 +10%(abstract 数据)。

样本效率(Figure 9)

图 7

图 9 在 ALFWorld 上用 Qwen2.5-1.5B 测试了 rollout budget 从 4 到 8 时的表现。RewardFlow 在所有 budget 下均优于 GiGPO,在 budget=4 时差距最大,达到 +13.3%,随着 budget 增大优势仍持续存在。这说明 RewardFlow 在样本极度受限时尤其有效,对需要控制推理成本的实际部署有直接意义。

OOD 泛化(Table 3,即图 6)

图 6

Table 3 报告了在 ALFWorld 上完全陌生的新环境(不同房间布局、家具)下的 OOD 泛化结果(平均成功率,越高越好)。RewardFlow 在无需训练 reward model 的情况下超越了所有 PRM-based baseline。具体数字论文正文在截断部分,完整数值参见原文 Table 3。

超参数鲁棒性(Figure 10)

图 8

状态合并阈值 τ 在 [0.80, 1.00] 整个范围内变化时,DeepResearch 上的平均准确率(Qwen2.5-3B)波动仅 1.2 个百分点(Fig. 10)。这说明 RewardFlow 对这个关键超参数的选择不敏感,工程部署时无需仔细调参。


结论

最值得带走的一个结论是:利用多条轨迹聚合出的状态图拓扑结构,可以在无需任何外部标注的前提下估计出有效的过程奖励,且效果超越了需要大量资源训练的 PRM。支撑这一点最有力的数字是视觉推理上 +29.7% 的提升,以及仅 4 条 rollout 时 +13.3% 的优势(体现了在信号极稀疏时的增益最大这一规律)。

边界说明:

  • 实验验证集中在相对小型模型(1.5B–7B),7B 以上的规模行为未知;
  • 四个 benchmark 以家务、购物、推箱子、信息检索为主,尚未在代码生成、工具调用密集型 agent 或机器人控制上验证;
  • 状态归一化方案(精确匹配 vs 嵌入聚合)在不同环境中差别较大,通用性取决于状态表示工程;
  • 标题强调"annotation-free”,但构图过程仍需要环境能明确判断 valid(s,a,s'),这在黑盒或部分可观测环境中可能不成立;
  • 缺少对奖励冲突(同一状态在不同轨迹中奖励方向相反)的系统性 ablation,论文附录 C.6 有讨论但未提供定量结果。

是否新瓶装旧酒

论文自述最相近前人工作

  1. GiGPO(Feng et al., 2025):同样做状态级别的优势估计,但沿单条轨迹反向传播,不跨轨迹聚合状态,也不利用图拓扑结构。RewardFlow 的 delta 是跨轨迹构图 + 可达性/中心性两个图属性驱动的传播。
  2. PRM with human annotation(Lightman et al., 2023; Wang et al., 2025a):需要人工标注,RewardFlow 完全无标注。
  3. GRPO/RLOO:仅使用终止奖励,无法做中间步骤的 credit assignment。

独立判断

RewardFlow 的核心思路——把多条轨迹合并成状态图再做值传播——在概念上与 MCTS + 值估计有相似之处,也与图强化学习中的图构建方法存在关联。论文本身在附录 C.1 中讨论了与 Potential-Based Reward Shaping 和 Reward Machines 的关系,这说明作者有意识到这些关联。主要新颖之处在于将这套思路适配到 LLM agentic 场景(非预设的结构化环境),并结合 embedding 归一化处理高维文本状态。这是一项有实质工程和实验贡献的工作,但理论上并非全无先例。


尚未回答的问题

  1. 大模型规模外推:实验止步于 7B,70B 甚至更大模型下状态图规模会急剧膨胀,图构建和传播的计算代价以及奖励信号质量如何变化?
  2. 部分可观测环境:当环境不能提供明确的 valid 信号时(如黑盒 API、网页 agent),无效动作过滤如何处理?
  3. 奖励冲突的定量影响:同一状态出现在成功和失败轨迹中时奖励如何裁决,缺少系统的 ablation(论文附录 C.6 仅做了定性分析)。
  4. 跨任务迁移:每个任务单独构图意味着图只在单任务内有效——能否跨任务共享图结构,减少 cold-start 代价?
  5. 连续动作空间:当前实验均为离散动作环境,方法在连续动作(如机器人控制)下的可行性未验证。

原始摘要(中文翻译)

强化学习(RL)在增强 LLM agent 推理能力方面展现出良好前景,然而稀疏的终止奖励阻碍了细粒度优化。过程奖励建模提供了一种替代方案,但会带来高计算成本、奖励 hacking 风险和标注瓶颈。我们提出 RewardFlow,一种用于 agentic 推理中状态级奖励估计的轻量级方法。通过构建捕捉轨迹内在拓扑结构的状态图,RewardFlow 执行拓扑感知的传播,估计每个状态对成功的贡献,从而产生原则性的、无需标注的稠密奖励。用于 RL 优化时,RewardFlow 在四个 agentic benchmark 上大幅超越此前 baseline:在文本任务上平均成功率提升 +6.2%,在视觉推理上跨三种模型规模超越最强 baseline +29.7%,在 DeepResearch 上准确率提升 +10%,同时具有更优的鲁棒性和训练效率。RewardFlow 的实现已公开发布于 https://github.com/tmlr-group/RewardFlow