arXiv: 2604.19070 · PDF

作者: Yilun Liu, Ruihong Qiu, Zi Huang

主分类: cs.CL · 全部: cs.CL, cs.LG

命中关键词: large language model, llm, reasoning, chain-of-thought, inference, fine-tun, post-train


TL;DR

TRN-R1-Zero 提出纯强化学习的后训练框架,让 LLM 在文本丰富网络(TRN)上实现零样本关系推理,无需 SFT 或蒸馏数据。

核心观点

  • 首个仅依赖 RL、不需 SFT 与 CoT 蒸馏的 TRN 推理后训练方案
  • 提出 Neighbour-aware GRPO:根据邻居信息量动态调整奖励
  • 引入 margin gain 指标量化邻居信号的 informativeness
  • 仅用 node-level 训练即可零样本迁移到 edge-level 与 graph-level 任务

方法

在 base LLM 上做 RL 后训练,核心目标为 Neighbour-aware Group Relative Policy Optimisation(GRPO 的扩展)。通过新提出的 margin gain 指标衡量邻居节点对当前推理的边际贡献,并据此动态重塑奖励,引导模型主动整合图结构与文本语义,而非仅依赖节点自身文本。全程无监督微调,无需来自更大 reasoning model 的 CoT 数据。

实验

在四类 TRN 基准上评测:citation、hyperlink、social、co-purchase 网络。对比 GNN(固定标签空间 + 监督)与基于 LLM 的方法(忽略图上下文或依赖蒸馏)。任务涵盖 node-level 训练 + node/edge/graph-level 零样本推理。摘要未给出具体数据集名称与指标数值。

结果

摘要声称在四类 TRN 基准上全面优越且 robust,并能从 node-level 训练零样本泛化到 edge 与 graph 级任务,超越单纯的 cross-domain transfer。具体精度提升幅度未披露。

为什么重要

对 LLM + Graph 从业者:证明 RL-only 后训练足以注入关系推理能力,省去昂贵的 SFT 数据与大模型蒸馏管线;对 agent 场景,意味着可在异构文本图(知识图、社交、商品图)上做低成本零样本决策,并跨任务粒度泛化。

与已有工作的关系

  • 延续 DeepSeek-R1-Zero 的 RL-only 后训练范式,迁移到图文本推理
  • 基于 GRPO,扩展出邻居感知变体
  • 区别于 GNN(TextGNN、GraphSAGE 等监督方法)和蒸馏式 LLM-on-graph(如 GraphGPT、InstructGLM)

尚未回答的问题

  • margin gain 的具体定义与计算代价
  • 在大规模工业图上的可扩展性与训练稳定性
  • 与更强 SFT+RL 混合方案的直接对比
  • 对噪声邻居或对抗性图结构的鲁棒性
  • edge/graph-level 零样本泛化的理论解释

论文图表

图 1: Page 2 (rendered)

图 1

图 2: Page 3 (rendered)

图 2

图 3: Page 4 (rendered)

图 3


原始摘要

Zero-shot reasoning on text-rich networks (TRNs) remains a challenging frontier, as models must integrate textual semantics with relational structure without task-specific supervision. While graph neural networks rely on fixed label spaces and supervised objectives, recent large language model (LLM)-based approaches often overlook graph context or depend on distillation from larger models, limiting generalisation. We propose TRN-R1-Zero, a post-training framework for TRN reasoning trained solely via reinforcement learning. TRN-R1-Zero directly optimises base LLMs using a Neighbour-aware Group Relative Policy Optimisation objective that dynamically adjusts rewards based on a novel margin gain metric for the informativeness of neighbouring signals, effectively guiding the model toward relational reasoning. Unlike prior methods, TRN-R1-Zero requires no supervised fine-tuning or chain-of-thought data generated from large reasoning models. Extensive experiments across citation, hyperlink, social and co-purchase TRN benchmarks demonstrate the superiority and robustness of TRN-R1-Zero. Moreover, relying strictly on node-level training, TRN-R1-Zero achieves zero-shot inference on edge- and graph-level tasks, extending beyond cross-domain transfer. The codebase is publicly available at https://github.com/superallen13/TRN-R1-Zero.