2026-05-29 论文速递 on JXIN's Home

When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

Fri, 29 May 2026 12:36:41 +0000

arXiv: 2605.30102 · PDF

作者: Corrado Rainone, Davide Belli, Bence Major, Arash Behboodi

单位: Qualcomm AI Research

主分类: cs.MA · 全部: cs.AI, cs.MA

命中关键词: large language model, llm, agent, agentic, multi-agent, inference

TL;DR

本文系统研究了云端大模型与设备端小模型组成的混合多智能体系统（MAS）设计空间，发现最优架构高度依赖任务类型，增加云端算力并不总能提升性能。

Motivation

随着 LLM 越来越多地以"agent"形式部署，用户面临两难困境：云端前沿大模型（如 GPT-4o）能力强但按 token 计费，长 horizon 任务的 API 成本可能急剧膨胀；而设备端小模型（SLM）成本低、私密性好，但能力有显著差距，尤其在上下文长度上受设备 DRAM 硬性约束，KV-cache 容量远不及云端。

现有混合方案通常是"路由"模式——根据请求类型将其分派给大或小模型——但这种方案没有充分发挥多智能体协作的潜力：不同模型可以承担不同角色（规划者 vs 执行者，督导者 vs 操作者），而不仅仅是互为替补。当前工程实践中，将云端与边缘模型结合进 MAS 的做法仍是针对特定领域的 ad hoc 决策，缺乏通用设计原则。作者认为现在是系统研究这一设计空间的时机：SLM 质量近年显著提升，已可在受限域内接近前沿模型，且上下文管理（context reset / summarization）技术可缓解设备端内存瓶颈，使得云端+边缘协作比以前更可行。

核心观点

将两种代表性 MAS 架构（PEVA 和 EVA）改造为支持混合云-边推理，提供统一框架评估准确率、货币成本与边缘能耗之间的 Pareto 权衡。
证明不存在"免费午餐"架构：PEVA（规划为主）在 UI 任务（AppWorld）上表现最优，EVA（建议为主）在 Deep Search（FanOutQA）上更具竞争力。
云端算力使用越多并不总能带来更好性能——在某些任务上增加云端 Supervisor 干预反而有害。
确定了影响混合协作效果的关键机制：督导频率、重启策略、以及摘要机制。
展示混合 MAS 通过 context reset 与 summarization 有效控制边缘 KV-cache 增长，提升对内存受限设备的适配性（Table 3）。

方法

论文适配并研究了两种混合 MAS 架构：

SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

Fri, 29 May 2026 12:32:13 +0000

arXiv: 2605.29796 · PDF

作者: Yunbo Tang, Chengyi Yang, Shiyu Liu, Zhishang Xiang, Zerui Chen, Qinggang Zhang, Jinsong Su

单位: School of Informatics, Xiamen University, Jilin University

主分类: cs.AI · 全部: cs.AI, cs.CL, cs.LG

命中关键词: llm, agent, agentic, rag, reasoning, inference, latency

TL;DR

SAAS 提出三组件 RL 框架，通过动态建模"搜索边界"抑制 agentic search 中的过搜索问题，在 7 个 QA benchmark 上保持精度的同时大幅削减冗余检索。

Motivation

LLM agentic search 通过迭代推理+外部检索处理复杂多跳问题效果显著，但存在严重的"过搜索"（over-search）痼疾：模型在参数知识已足够时仍触发搜索，或在已收集充分证据后仍持续检索。这两类浪费直接推高推理延迟和计算成本，同时引入噪声证据干扰最终答案——受影响的是任何在生产中部署 agentic RAG 系统的团队。

现有方案分两类：提示/路由类（DRAGIN、Adaptive-RAG）依赖静态启发规则，RL 类（StepSearch、HiPRAG）依赖固定惩罚阈值。两者的共同缺陷是"静态"——都无法感知模型能力的动态变化。关键数据：随着训练推进，不需要搜索就能答对的问题比例从 step 100 的 12.7% 上升到 step 300 的 24.3%（Figure 3）。搜索边界本身在移动，固定惩罚在 step 250 附近会引发 reward hacking 和性能崩溃。

RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models

Fri, 29 May 2026 12:28:21 +0000

arXiv: 2603.18859 · PDF

作者: Xiao Feng, Bo Han, Zhanke Zhou, Jiaqi Fan, Jiangchao Yao, Ka Ho Li, Dahai Yu, Michael Kwok-Po Ng

单位: TMLR Group, Hong Kong Baptist University, TCL Corporate Research (HK) Co Ltd, Cooperative Medianet Innovation Center, Shanghai Jiao Tong University, Department of Mathematics, Hong Kong Baptist University

主分类: cs.AI · 全部: cs.AI, cs.CL, cs.LG

命中关键词: large language model, llm, agent, agentic, rag, reasoning

TL;DR

RewardFlow 通过构建轨迹状态图并在其上进行拓扑感知的奖励传播，无需人工标注即可为 LLM agentic 推理提供稠密过程奖励，在四个 benchmark 上大幅超越现有 RL baseline。

ToolSpec: Accelerating Tool Calling via Schema-Aware and Retrieval-Augmented Speculative Decoding

Fri, 29 May 2026 12:24:41 +0000

arXiv: 2604.13519 · PDF

作者: Heming Xia, Yongqi Li, Cunxiao Du, Mingbo Song, Wenjie Li

单位: The Hong Kong Polytechnic University, Peking University

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, tool use, retrieval, serving, speculative decoding, latency

TL;DR

ToolSpec 针对 LLM tool calling 的推理延迟瓶颈，利用工具调用的 schema 约束结构 + 历史调用检索，在无需额外训练的情况下实现最高 4.2× 的加速。

Motivation

多步、多轮 tool calling 已成为复杂任务 LLM agent 的标准工作流，但每次工具调用都需要 LLM 生成格式严格的 JSON 序列，导致推理延迟急剧上升。现有加速研究主要针对工具执行侧（通过 DAG 并行化独立工具、或提前执行工具重叠 IO），而对工具调用生成侧几乎没有关注。

作者在 ToolBench 上对 Qwen2.5-Instruct 系列实测发现：工具执行延迟随模型规模基本不变，而生成延迟随模型规模线性增长——对 Qwen2.5-72B-Instruct，工具调用生成已占端到端延迟的 96%，是工具执行时间的约 4 倍（Figure 2）。这意味着过去所有执行侧优化的上限已经非常有限，生成侧才是真正的瓶颈。

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

Fri, 29 May 2026 12:21:05 +0000

arXiv: 2604.09557 · PDF

作者: Talor Abramovich, Maor Ashkenazi, Izzy Putterman, Benjamin Chislett, Tiyasa Mitra, Bita Darvish Rouhani, Ran Zilberstein, Yonatan Geifman

单位: Microsoft

主分类: cs.DC · 全部: cs.AI, cs.DC

命中关键词: large language model, llm, inference, serving, speculative decoding, throughput, latency

TL;DR

SPEED-Bench 是一个专为 Speculative Decoding（SD）设计的评测基准，通过语义多样性最大化的 Qualitative Split 和面向吞吐量的 Throughput Split，弥补现有基准在多样性、生产引擎集成和并发评测上的系统性缺口。

Motivation

SD 的加速效果高度依赖数据域和文本熵——同一个 drafter 在不同任务上 speedup 差异可超过 1.5×——然而现有基准在这一点上系统性失真。SpecBench 大多数类别直接来自 MT-Bench，每类仅 10 个样本，多语言子集约占总数据 15% 且全是同构的翻译句式；EAGLE3 的验证集用的是 HumanEval（仅限简单 Python）、Alpaca 训练集（无官方测试集）等偏简单分布。更关键的是，现有评测几乎清一色用 BS=1 + HuggingFace 高层库跑，而真实 serving 场景是多用户并发、vLLM/TensorRT-LLM 引擎，底层优化路径完全不同。输入序列长度也普遍偏短，对长上下文场景（如 coding assistant）缺乏覆盖。受影响的是 LLM serving 工程师和 SD 算法研究者——他们需要选 drafter、调 draft length、决定什么时候开 SD，这些决策在失真基准上全部不可信。作者认为现在值得做这件事，是因为 native MTP（DeepSeek-R1、Qwen3-Next 等）的兴起让 SD 进入生产环境，评测滞后的代价正在上升。

GrepSeek: Training Search Agents for Direct Corpus Interaction

Fri, 29 May 2026 12:14:45 +0000

arXiv: 2605.29307 · PDF

作者: Alireza Salemi, Chang Zeng, Atharva Nijasure, Jui-Hui Chung, Razieh Rahimi, Fernando Diaz, Hamed Zamani

单位: University of Massachusetts Amherst, Princeton University, Carnegie Mellon University

主分类: cs.CL · 全部: cs.AI, cs.CL, cs.IR, cs.LG

命中关键词: large language model, llm, agent, retrieval, reasoning, serving

TL;DR

GrepSeek 让紧凑型 LLM 通过可执行 shell 命令（如 rg/grep）直接搜索原始语料库，绕过预计算检索索引，在 7 个开放域 QA 基准上取得最强 F₁ 和 Exact Match，且端到端延迟约 8.6 秒/查询。

Motivation

现有 LLM 搜索 agent（如 Search-R1 系列）依赖预计算的倒排或稠密向量索引，存在三个根本限制：文本分块粒度固定（索引建立前必须确定 chunk 边界，无法事后调整）；语义混淆与实体歧义（稠密检索在多跳推理时会把不同实体的相关文档混为一谈）；运营成本高（需要存储和维护大型向量索引，内存占用随语料规模线性增长）。

RTP-LLM: High-Performance Alibaba LLM Inference Engine

Fri, 29 May 2026 12:10:14 +0000

arXiv: 2605.29639 · PDF

作者: Boyu Tan, Jiarui Guo, Zongwei Lv, Hanbo Sun, Tong Yang, Kan Liu, Xinfei Shi, Zetao Hu, Yaxin Yu, Chi Zhang, Jianning Zhang, Xi Yang, Wei Zhang, Bo Cai, Silu Zhou, Xiyu Wang, Na He, Yinghao Yu, Wending Bao, Guiyang Huang, Yuxing Yuan, Juncheng Yin, Nan Wang, Lin Yang, Zechao Zhang, Lu Chen, Guoding Li, Tao Lan, Lin Qu

单位: Alibaba Group, Peking University, Zhejiang University

主分类: cs.OS · 全部: cs.OS

Tiny Brains, Giant Impact: Uncovering the Keystone Neurons of LLM with Just a Few Prompts

Fri, 29 May 2026 12:06:35 +0000

arXiv: 2605.24846 · PDF

作者: Xiangtian Ji, Yuxin Chen, Zhengzhou Cai, Xiang Wang, An Zhang, Tat-Seng Chua

单位: National University of Singapore, University of Science and Technology of China, University of Melbourne

主分类: cs.LG · 全部: cs.AI, cs.LG

命中关键词: large language model, llm, inference, serving, transformer, fine-tun

TL;DR

在多个主流开源 Transformer 中，极少数神经元（<0.2%）跨任务持续高激活，关闭它们即触发全局能力崩溃；仅对这批"keystone neurons"做有监督微调，效果优于或持平全参数微调，同时更好保留通用能力。

Motivation

当前对 LLM 内部机制的理解严重滞后于其外部表现：研究者已知存在"任务专属神经元"（如多语言、代码、数学各有一批），但尚不清楚是否存在更基础的、跨任务皆不可缺的神经元子集。这一空白直接影响两类实践：一是模型可解释性研究者——缺乏对"核心骨干"的定量把握，无法解释为何极小扰动就能让 LLM 彻底失能；二是 PEFT（参数高效微调）从业者——现有方法（LoRA 等）从优化视角选参数，并未考虑"哪些神经元对多维能力最关键"。作者认为激活分析工具和多模型对比实验的成熟让这个问题现在值得系统研究，且只需极少几条 prompt 即可完成探测，成本极低。

核心观点

下图从概念层面说明了 keystone neurons 的核心性质：它们在不同任务的 prompt 下都保持高激活，一旦关闭就引发全局能力崩溃，而非仅影响某一特定任务。

跨多个主流 Transformer 系列，存在一批极稀疏的神经元（通常 <0.2%），在不同能力维度的 prompt 下均持续高激活，称为 keystone neurons。
仅关闭这批神经元即造成全部评测指标归零，而关闭等量随机神经元影响极微（Table 1）。
Keystone neurons 对 prompt 选择高度稳定，5 组不同 prompt 检测的平均 IoU 在 80%–95% 之间，最低也超 73%（Table 2）。
该子集主要在预训练阶段形成，其参数被高精度校准，微小的乘法缩放即引发显著性能退化。
仅更新 keystone neurons 的权重做监督微调，在数学推理和安全对齐任务上效果可达到或超越全参数微调，同时更好保留其他维度能力。

方法

两阶段识别流程：

The Curse of Helpfulness: Inverse Scaling Law in Robustness to Distractor Instructions via DistractionIF

Fri, 29 May 2026 12:02:49 +0000

arXiv: 2605.29491 · PDF

作者: Zeli Su, Zhankai Xu, Tianlei Chen, Longfei Zheng, Xiaolu Zhang, Jun Zhou, Wentao Zhang

单位: Ant Financial Services Group

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, agentic, retrieval, rag

TL;DR

大模型在 RAG/Agent 场景中存在**“帮助诅咒”**：模型越大，越容易把参考文本里的指令式噪声当作真实指令执行，反而更不鲁棒。GRPO 强化学习可将此鲁棒性提升最多 15.5%。

Motivation

在 RAG 和 Agent 系统中，LLM 经常被要求对外部参考文本执行特定任务（翻译、抽取、格式转换等）。现实中的参考文本并不干净——它混杂着来自真实工作流的残留物：编辑注解（"(revise this paragraph)"）、UI 提示（“Output as JSON”）、邮件旁注等。这些片段语义上像指令，但本质上是数据，不应被执行。

问题的关键在于：这类干扰不是对抗性攻击，而是良性的、偶然的语义噪声。现有 prompt injection 研究聚焦于显式恶意载荷，而生产环境中更普遍的失效来自这类"无意为之"的干扰。IFEval 等主流 instruction-following 评测默认指令与数据干净分离，无法覆盖"脏上下文"场景。

更反直觉的是，作者发现模型越大，反而越容易被干扰：Qwen3 系列从 0.6B 扩展到 235B，无思考模式下平均得分从 65.97 骤降至 37.6，跌幅接近 30 分。这意味着靠扩参数解决不了问题，甚至会让问题恶化——今天正在做长文档处理的 RAG 团队和 Agent 运维都在受这个问题的苦，而现有 workaround（prompt engineering、明确划定分隔符）远不够可靠。

Reasoning and Tool-use Compete in Agentic RL:From Quantifying Interference to Disentangled Tuning

Fri, 29 May 2026 11:58:44 +0000

arXiv: 2602.00994 · PDF

作者: Yu Li, Mingyang Yi, Xiuyu Li, Ju Fan, Fuxin Jiang, Binbin Chen, Peng Li, Jie Song, Tieying Zhang

单位: School of Information, Renmin University of China, Bytedance Inc

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, agent, agentic, tool use, tool-use, retrieval, reasoning

TL;DR

本文发现 Agentic RL 中推理能力与工具调用能力存在梯度干扰，并提出 DART——用两个独立 LoRA adapter 解耦两类梯度——在 13 个 benchmark 上超越所有联合优化 baseline，逼近双模型上界。

Motivation

当前 Agentic RL（ARL）的主流做法是用一套共享参数同时学习"链式推理"和"外部工具调用"两种行为，默认两者可以在同一参数空间中和谐共存。这一假设从未经过系统的实证检验。问题的关键在于：推理 token（思考步骤）和工具调用 token（search/API 调用）在 RL 训练时会产生方向接近正交的梯度，混合后的参数更新是两者的折中，对任何一方都是次优的。