arXiv: 2604.19070 · PDF
作者: Yilun Liu, Ruihong Qiu, Zi Huang
主分类: cs.CL · 全部: cs.CL, cs.LG
命中关键词: large language model, llm, reasoning, chain-of-thought, inference, fine-tun, post-train
TL;DR
TRN-R1-Zero 提出纯强化学习的后训练框架,让 LLM 在文本丰富网络(TRN)上实现零样本关系推理,无需 SFT 或蒸馏数据。
核心观点
- 首个仅依赖 RL、不需 SFT 与 CoT 蒸馏的 TRN 推理后训练方案
- 提出 Neighbour-aware GRPO:根据邻居信息量动态调整奖励
- 引入 margin gain 指标量化邻居信号的 informativeness
- 仅用 node-level 训练即可零样本迁移到 edge-level 与 graph-level 任务
方法
在 base LLM 上做 RL 后训练,核心目标为 Neighbour-aware Group Relative Policy Optimisation(GRPO 的扩展)。通过新提出的 margin gain 指标衡量邻居节点对当前推理的边际贡献,并据此动态重塑奖励,引导模型主动整合图结构与文本语义,而非仅依赖节点自身文本。全程无监督微调,无需来自更大 reasoning model 的 CoT 数据。
实验
在四类 TRN 基准上评测:citation、hyperlink、social、co-purchase 网络。对比 GNN(固定标签空间 + 监督)与基于 LLM 的方法(忽略图上下文或依赖蒸馏)。任务涵盖 node-level 训练 + node/edge/graph-level 零样本推理。摘要未给出具体数据集名称与指标数值。
结果
摘要声称在四类 TRN 基准上全面优越且 robust,并能从 node-level 训练零样本泛化到 edge 与 graph 级任务,超越单纯的 cross-domain transfer。具体精度提升幅度未披露。
为什么重要
对 LLM + Graph 从业者:证明 RL-only 后训练足以注入关系推理能力,省去昂贵的 SFT 数据与大模型蒸馏管线;对 agent 场景,意味着可在异构文本图(知识图、社交、商品图)上做低成本零样本决策,并跨任务粒度泛化。
与已有工作的关系
- 延续 DeepSeek-R1-Zero 的 RL-only 后训练范式,迁移到图文本推理
- 基于 GRPO,扩展出邻居感知变体
- 区别于 GNN(TextGNN、GraphSAGE 等监督方法)和蒸馏式 LLM-on-graph(如 GraphGPT、InstructGLM)
尚未回答的问题
- margin gain 的具体定义与计算代价
- 在大规模工业图上的可扩展性与训练稳定性
- 与更强 SFT+RL 混合方案的直接对比
- 对噪声邻居或对抗性图结构的鲁棒性
- edge/graph-level 零样本泛化的理论解释
论文图表
图 1: Page 2 (rendered)

图 2: Page 3 (rendered)

图 3: Page 4 (rendered)

原始摘要
Zero-shot reasoning on text-rich networks (TRNs) remains a challenging frontier, as models must integrate textual semantics with relational structure without task-specific supervision. While graph neural networks rely on fixed label spaces and supervised objectives, recent large language model (LLM)-based approaches often overlook graph context or depend on distillation from larger models, limiting generalisation. We propose TRN-R1-Zero, a post-training framework for TRN reasoning trained solely via reinforcement learning. TRN-R1-Zero directly optimises base LLMs using a Neighbour-aware Group Relative Policy Optimisation objective that dynamically adjusts rewards based on a novel margin gain metric for the informativeness of neighbouring signals, effectively guiding the model toward relational reasoning. Unlike prior methods, TRN-R1-Zero requires no supervised fine-tuning or chain-of-thought data generated from large reasoning models. Extensive experiments across citation, hyperlink, social and co-purchase TRN benchmarks demonstrate the superiority and robustness of TRN-R1-Zero. Moreover, relying strictly on node-level training, TRN-R1-Zero achieves zero-shot inference on edge- and graph-level tasks, extending beyond cross-domain transfer. The codebase is publicly available at https://github.com/superallen13/TRN-R1-Zero.