TRN-R1-Zero: Text-rich Network Reasoning via LLMs with Reinforcement Learning Only

arXiv: 2604.19070 · PDF

作者: Yilun Liu, Ruihong Qiu, Zi Huang

主分类: cs.CL · 全部: cs.CL, cs.LG

命中关键词: large language model, llm, reasoning, chain-of-thought, inference, fine-tun, post-train

TL;DR

TRN-R1-Zero 提出纯强化学习的后训练框架，让 LLM 在文本丰富网络（TRN）上实现零样本关系推理，无需 SFT 或蒸馏数据。

核心观点

首个仅依赖 RL、不需 SFT 与 CoT 蒸馏的 TRN 推理后训练方案
提出 Neighbour-aware GRPO：根据邻居信息量动态调整奖励
引入 margin gain 指标量化邻居信号的 informativeness
仅用 node-level 训练即可零样本迁移到 edge-level 与 graph-level 任务

方法

在 base LLM 上做 RL 后训练，核心目标为 Neighbour-aware Group Relative Policy Optimisation（GRPO 的扩展）。通过新提出的 margin gain 指标衡量邻居节点对当前推理的边际贡献，并据此动态重塑奖励，引导模型主动整合图结构与文本语义，而非仅依赖节点自身文本。全程无监督微调，无需来自更大 reasoning model 的 CoT 数据。

实验

在四类 TRN 基准上评测：citation、hyperlink、social、co-purchase 网络。对比 GNN（固定标签空间 + 监督）与基于 LLM 的方法（忽略图上下文或依赖蒸馏）。任务涵盖 node-level 训练 + node/edge/graph-level 零样本推理。摘要未给出具体数据集名称与指标数值。

结果

摘要声称在四类 TRN 基准上全面优越且 robust，并能从 node-level 训练零样本泛化到 edge 与 graph 级任务，超越单纯的 cross-domain transfer。具体精度提升幅度未披露。

为什么重要

对 LLM + Graph 从业者：证明 RL-only 后训练足以注入关系推理能力，省去昂贵的 SFT 数据与大模型蒸馏管线；对 agent 场景，意味着可在异构文本图（知识图、社交、商品图）上做低成本零样本决策，并跨任务粒度泛化。

与已有工作的关系

延续 DeepSeek-R1-Zero 的 RL-only 后训练范式，迁移到图文本推理
基于 GRPO，扩展出邻居感知变体
区别于 GNN（TextGNN、GraphSAGE 等监督方法）和蒸馏式 LLM-on-graph（如 GraphGPT、InstructGLM）

尚未回答的问题

margin gain 的具体定义与计算代价
在大规模工业图上的可扩展性与训练稳定性
与更强 SFT+RL 混合方案的直接对比
对噪声邻居或对抗性图结构的鲁棒性
edge/graph-level 零样本泛化的理论解释

论文图表

图 1: Page 2 (rendered)

图 1

图 2: Page 3 (rendered)

图 2

图 3: Page 4 (rendered)

图 3

原始摘要

Zero-shot reasoning on text-rich networks (TRNs) remains a challenging frontier, as models must integrate textual semantics with relational structure without task-specific supervision. While graph neural networks rely on fixed label spaces and supervised objectives, recent large language model (LLM)-based approaches often overlook graph context or depend on distillation from larger models, limiting generalisation. We propose TRN-R1-Zero, a post-training framework for TRN reasoning trained solely via reinforcement learning. TRN-R1-Zero directly optimises base LLMs using a Neighbour-aware Group Relative Policy Optimisation objective that dynamically adjusts rewards based on a novel margin gain metric for the informativeness of neighbouring signals, effectively guiding the model toward relational reasoning. Unlike prior methods, TRN-R1-Zero requires no supervised fine-tuning or chain-of-thought data generated from large reasoning models. Extensive experiments across citation, hyperlink, social and co-purchase TRN benchmarks demonstrate the superiority and robustness of TRN-R1-Zero. Moreover, relying strictly on node-level training, TRN-R1-Zero achieves zero-shot inference on edge- and graph-level tasks, extending beyond cross-domain transfer. The codebase is publicly available at https://github.com/superallen13/TRN-R1-Zero.