2026-04-22 论文速递 on JXIN's Home

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Mon, 27 Apr 2026 05:17:17 +0000

arXiv: 2604.20987 · PDF

作者: Xiyang Wu, Zongxia Li, Guangyao Shi, Alexander Duffy, Tyler Marques, Matthew Lyle Olson, Tianyi Zhou, Dinesh Manocha

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, retrieval, rag, reasoning

TL;DR

COSPLAY 提出 LLM 决策 agent 与可学习 skill bank 协同演化的框架,在长时序游戏任务中让 8B 模型显著超越前沿 LLM baseline。

核心观点

长时序交互环境需要跨 episode 发现、保留、复用结构化技能,现有 LLM agent 缺乏这种机制。
提出 COSPLAY:决策 agent 从 skill bank 检索技能指导动作,skill bank agent 从未标注 rollout 中抽取并精炼技能。
两个 agent 协同演化:决策端学更好的检索与动作生成,bank 端持续更新技能及其 contract。

方法

双 agent 协同演化框架。决策 agent 在每步从 learnable skill bank 中检索相关技能,用于指导 action 选择;skill pipeline agent 消化 agent 的 unlabeled rollout,发现可复用 skill 并形成带 contract 的条目存入 bank。训练过程中两者互相反馈:决策端的行为质量驱动 bank 的抽取/精炼,bank 的质量又改善决策端的检索与执行。

Agentic AI for Personalized Physiotherapy: A Multi-Agent Framework for Generative Video Training and Real-Time Pose Correction

Mon, 27 Apr 2026 05:16:40 +0000

arXiv: 2604.21154 · PDF

作者: Abhishek Dharmaratnakar, Srivaths Ranganathan, Anushree Sinha, Debanshu Das

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, agent, agentic, multi-agent, rag

TL;DR

提出一个多智能体框架，用生成式视频和实时姿态估计为居家物理治疗提供个性化训练与反馈。

核心观点

居家物理治疗依从性低，现有方案依赖静态视频或通用 3D avatar，无法适配患者伤情与环境。
将 Generative AI 与 computer vision 结合成 Multi-Agent System，可闭合 tele-rehabilitation 回路。
将临床笔记解析、视频合成、姿态识别、诊断反馈解耦为四个专用 micro-agent。

方法

框架由四个 agent 组成：

Clinical Extraction Agent：用 LLM 解析非结构化医嘱为运动学约束。
Video Synthesis Agent：调用 foundational video generation 模型，生成患者专属训练视频。
Vision Processing Agent：基于 MediaPipe 做实时 pose estimation。
Diagnostic Feedback Agent：根据姿态偏差下发纠正指令。文中给出系统架构和原型 pipeline。

实验

论文仅描述原型 pipeline 与临床评估计划，未报告具体数据集、基线或量化指标。

EvoAgent: An Evolvable Agent Framework with Skill Learning and Multi-Agent Delegation

Mon, 27 Apr 2026 05:16:07 +0000

arXiv: 2604.20133 · PDF

作者: Aimin Zhang, Jiajing Guo, Fuwei Jia, Chen Lv, Boyu Wang, Fangzheng Li

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, multi-agent, rag

TL;DR

EvoAgent 提出可进化的 LLM agent 框架，通过结构化技能学习与分层子 agent 委派，使 GPT5.2 在外贸场景综合评分提升约 28%。

核心观点

将 skill 建模为带触发机制和进化元数据的多文件结构化能力单元
用户反馈驱动闭环，实现技能的持续生成与优化
引入三阶段技能匹配 + 三层记忆架构，支持动态任务分解与长期能力累积
agent 系统性能不仅取决于底座模型能力，还取决于模型与 agent 架构的协同度

方法

EvoAgent 框架由三部分组成：

结构化 skill 单元：多文件封装，带 trigger 和 evolutionary metadata
分层 sub-agent delegation：对复杂任务做动态分解并委派子 agent 处理
三阶段 skill matching 匹配当前任务到合适技能
三层 memory 架构：支撑长期能力累积
闭环进化：以用户反馈为信号驱动技能生成与迭代优化

实验

场景：真实外贸（foreign trade）业务
底座：GPT5.2，并做跨模型迁移实验
评估：LLM-as-Judge 五维打分协议（含 professionalism、accuracy、practical utility 等）
摘要未披露具体数据集规模、基线对比方法与样本量

结果

GPT5.2 接入 EvoAgent 后，五维综合平均分提升约 28%
迁移实验显示不同模型获益幅度不同，佐证"模型-架构协同"的论点
具体分维度数字、置信区间、与其它 agent 框架的对比摘要中未给出，主张强度受限于 LLM-as-Judge 的主观性

为什么重要

对 agent 从业者而言，EvoAgent 给出了一条把"技能"当作一等公民、可版本化可进化的工程范式，而非只堆 prompt 或 tool。闭环反馈 + 分层 delegation 的组合对构建可长期积累能力的垂直领域 agent（如外贸、客服、法务）有借鉴价值，也提示选型时需同时评估底座模型与 agent 架构匹配度。

Dual-Cluster Memory Agent: Resolving Multi-Paradigm Ambiguity in Optimization Problem Solving

Mon, 27 Apr 2026 05:15:15 +0000

arXiv: 2604.20183 · PDF

作者: Xinyu Zhang, Yuchen Wan, Boxuan Zhang, Zesheng Yang, Lingling Zhang, Bifan Wei, Jun Liu

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, agent, rag, reasoning, inference

TL;DR

DCM-Agent 通过构建建模/编码双簇记忆并提炼 Approach、Checklist、Pitfall 三类结构化知识，在免训练条件下缓解优化问题求解中的多范式歧义，七项基准平均提升 11%–21%。

核心观点

优化问题常存在结构性歧义：同一问题有多种互相冲突的建模范式，阻碍 LLM 生成正确解。
提出 Dual-Cluster Memory Agent（DCM-Agent），训练无关地利用历史解决方案。
双簇记忆 + 三类结构化知识（Approach / Checklist / Pitfall）可泛化为指导性知识。
发现"知识继承"现象：大模型构建的记忆能提升小模型表现。

方法

Dual-Cluster Memory Construction：将历史解按建模（modeling）与编码（coding）两类聚簇。
每个簇内蒸馏出三种结构化条目：Approach（思路）、Checklist（检查项）、Pitfall（易错点）。
Memory-augmented Inference：在推理时动态检索记忆，导航求解路径、检测并修复错误，并在必要时自适应切换推理路径。
整个流程无需微调，纯 prompt / agent 级增强。

实验

覆盖 7 个优化问题基准（摘要未列具体名称）。
基线与指标：摘要未披露具体基线模型和评测指标，仅报告平均性能提升。
还测试了大模型构建的记忆对小模型的迁移效果。

结果

平均性能提升 11%–21%。
观察到 knowledge inheritance：大模型蒸馏的记忆能让小模型表现显著改善。
具体绝对分数、每个 benchmark 的细节、与 SOTA 的对比摘要未给出，无法独立核验。

为什么重要

为 agent 框架处理"同问题多范式"这种结构性歧义提供可复用模板，不局限于优化领域。
训练免费 + 记忆迁移的思路对成本敏感的部署（小模型 + 大模型蒸馏的记忆）有实际意义。
三元组（Approach/Checklist/Pitfall）是一种可推广的记忆抽象，适合嵌入通用 LLM agent。

与已有工作的关系

延续 memory-augmented agent 线路：Reflexion、Generative Agents、MemGPT。
与 LLM 求解优化/数学问题工作相关：OptiMUS、Chain-of-Experts、MathPrompter。
Checklist/Pitfall 抽象与 self-refine、self-debug 的错误修复思路呼应。
知识继承现象与 weak-to-strong、distillation 研究方向形成互补。

尚未回答的问题

具体基准、基线与评测指标未披露，效果难独立验证。
记忆库规模、检索策略、冷启动（无历史解）行为如何？
双簇划分是否泛化到非优化领域（如代码生成、科学推理）？
Pitfall 是否会把历史错误作为偏见继承到新问题？
记忆更新与遗忘机制、长期维护成本尚未讨论。

论文图表

图 1: Page 2 (rendered)

FASER: Fine-Grained Phase Management for Speculative Decoding in Dynamic LLM Serving

Mon, 27 Apr 2026 05:14:39 +0000

arXiv: 2604.20503 · PDF

作者: Wenyan Chen, Chengzhi Lu, Yanying Lin, Dmitrii Ustiugov

主分类: cs.DC · 全部: cs.DC

命中关键词: llm, inference, serving, speculative decoding, gpu, throughput, latency

TL;DR

FASER 通过细粒度的推测解码阶段管理（动态投机长度、早剪枝、draft/verify 重叠），在 vLLM 中实现最高 53% 吞吐提升与 1.92× 延迟降低。

核心观点

现有 SD 系统对整批次设定统一投机长度并串行执行 draft/verify，难以应对动态在线负载。
低负载下 GPU 闲置、高负载下大量拒绝 token 浪费算力。
需要请求级细粒度 SD 管理 + 阶段重叠以兼顾延迟与吞吐。

方法

动态投机长度：在 continuous batching 中按请求调整 speculative length。
早剪枝：在 verification 阶段内部尽早丢弃被拒绝 token，避免后续浪费。
Frontier 分块 verify：把 verification 切成 chunks，与 draft 阶段通过细粒度 spatial multiplexing 重叠执行，降低资源干扰。
在 vLLM 上实现原型。

实验

摘要未披露具体数据集、模型规模或基线名称，仅指出对比对象为 state-of-the-art SD 系统，指标为吞吐与延迟。

Cooperative Profiles Predict Multi-Agent LLM Team Performance in AI for Science Workflows

Mon, 27 Apr 2026 05:14:11 +0000

arXiv: 2604.20658 · PDF

作者: Shivani Kumar, Adarsh Bharathwaj, David Jurgens

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, agent, multi-agent, reasoning, gpu

TL;DR

用行为经济学博弈测出的"合作画像"能稳健预测 LLM 多智能体团队在 AI-for-Science 协作任务中的表现，可作为部署前的廉价筛选工具。

核心观点

合作倾向是 LLM 一种独立、可测量的属性，不能被通用能力所解释。
六个行为经济学博弈得出的合作画像，可稳健预测下游多智能体科研任务表现。
善于协调、愿意投资乘性团队生产（而非贪婪策略）的模型，产出更好的科学报告。
提供部署前快速、低成本的"合作适配度"诊断框架。

方法

在 35 个开源权重 LLM 上运行 6 个经典行为经济学博弈（涵盖不同合作机制），形成每个模型的合作行为 profile。
构建 AI-for-Science 多智能体任务：LLM 团队在共享预算（GPU/credit）约束下协作分析数据、建模并撰写科学报告。
用博弈画像作为特征，回归预测下游任务三项结果（accuracy、quality、completion），并控制多种混淆因素（如通用能力）。

实验

模型：35 个开源权重 LLM。
诊断任务：6 个行为经济学博弈。
下游任务：AI-for-Science 协作 workflow，包含数据分析、建模、报告生成，带共享预算约束。
指标：科学报告的 accuracy、quality、completion。
基线：控制模型通用能力等因素的回归对照。

结果

博弈衍生的合作画像在三项下游指标上均显著相关。
偏好乘性团队生产、善于协调的模型，报告质量系统性更高。
相关性在控制通用能力后仍成立，说明不是能力的副产物。
摘要未披露具体数值（相关系数、ΔR² 等）。

为什么重要

为多智能体 LLM 部署提供轻量前置筛选：用几个博弈替代昂贵的端到端评测。
将"合作性"作为除能力、对齐之外的独立维度纳入模型选型。
对 AI 基础设施：在共享资源约束（GPU、credits）下，选择更"懂合作"的 agent 能提升产出与资源利用率。

与已有工作的关系

延续用博弈论 / 行为经济学评测 LLM 的路线（囚徒困境、公共品博弈等既有工作）。
补充 AutoGen、MetaGPT 等 multi-agent LLM 协作框架的评测缺口。
与 AI-for-Science agent（如 ChemCrow、数据科学 agent）任务设置呼应。
拓展 LLM 社会行为研究，从孤立博弈延伸到真实协作产出。

尚未回答的问题

博弈画像与下游表现的因果机制是什么，哪类合作特征最具预测力？
在闭源大模型（GPT、Claude、Gemini）上结论是否成立？
合作画像能否通过 prompt / fine-tune 改造，从而提升团队产出？
不同任务域（非科研协作，如代码、运维、商业决策）是否同样适用？
团队规模、异质组合、通信协议对预测力的影响如何？

论文图表

图 1: Page 2 (rendered)

Breaking MCP with Function Hijacking Attacks: Novel Threats for Function Calling and Agentic Models

Mon, 27 Apr 2026 05:13:37 +0000

arXiv: 2604.20994 · PDF

作者: Yannis Belkhiter, Giulio Zizzo, Sergio Maffeis, Seshu Tirupathi, John D. Kelleher

主分类: cs.CR · 全部: cs.AI, cs.CL, cs.CR

命中关键词: large language model, llm, agent, agentic, reasoning, attention

TL;DR

提出 Function Hijacking Attack (FHA)，通过操纵 agentic LLM 的工具选择过程，强制调用攻击者指定的函数，在 BFCL 上对 5 个模型实现 70%–100% 攻击成功率。

核心观点

现有 injection/jailbreaking 攻击主要针对 prompt，而 function calling 接口本身是一个被低估的新攻击面。
FHA 与上下文语义无关、对函数集合鲁棒，可跨领域迁移。
可训练出 universal adversarial functions：单个被污染函数即可劫持多种 query 和 payload 的工具选择。
结果凸显 agentic / MCP 系统亟需更强的 guardrails 与安全模块。

方法

作者针对 function calling LLM 的 tool selection 过程设计对抗扰动，不改 prompt 而是改"候选函数"本身（名字、描述、schema 等），让模型在面对任意用户请求时都倾向于选中攻击者指定的 function。在此基础上通过优化训练出 universal 版本，使单一恶意函数对多种 query 与 payload 均有效。摘要未披露具体损失函数与优化算法细节。

Automatic Ontology Construction Using LLMs as an External Layer of Memory, Verification, and Planning for Hybrid Intelligent Systems

Mon, 27 Apr 2026 05:13:00 +0000

arXiv: 2604.20795 · PDF

作者: Pavel Salovskii, Iuliia Gorshkova

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, retrieval, rag, reasoning, inference

TL;DR

论文提出一种混合架构，用自动构建的 RDF/OWL 本体作为 LLM 的外部记忆层，结合 RAG 与图推理，提升多步规划的可验证性与可靠性。

核心观点

LLM 的参数化知识 + 向量 RAG 不足以支撑长期记忆、结构化理解与严格推理。
引入 RDF/OWL 本体作为外部记忆层，可提供持久化、可验证、语义 grounded 的推理基础。
构建一套"生成—验证—修正"pipeline，把 LLM 输出纳入形式化校验闭环。
架构面向 agent、机器人、企业 AI 等需要可解释与可靠决策的场景。

方法

自动化本体构建 pipeline，数据源覆盖文档、API、对话日志。
流程：实体识别 → 关系抽取 → 归一化 → 三元组生成 → SHACL/OWL 约束校验 → 持续图更新。
推理阶段 LLM 在"向量检索 + 图推理 + 外部工具调用"的组合上下文中工作。
用本体层对生成结果做形式化校验，失败则进入修正循环。

实验

规划类任务为主，点名 Tower of Hanoi 作为 benchmark。
基线为纯 LLM 系统（未加本体增强）。
摘要未披露数据集规模、具体指标数值与评估细节。

结果

作者称在多步推理场景下，ontology 增强优于基线 LLM。
本体层使输出可被形式化校验，系统具备生成—验证—修正能力。
摘要仅给出定性结论，未提供具体数字，主张的强度受限。

为什么重要

给 LLM agent 提供一条"非 RAG"的长期记忆路线：结构化、可校验、可累积。
SHACL/OWL 约束把幻觉问题从"检测"推向"拒绝 + 修正"，对企业级与安全敏感应用更友好。
对 robotics 与多步规划 agent，提供了一个显式世界模型接入点。

与已有工作的关系

承接 Retrieval-Augmented Generation (RAG) 思路，但用 knowledge graph 取代/补充向量库。
延续 neuro-symbolic 与 KG-augmented LLM 方向（如 GraphRAG、KG-RAG 类工作）。
形式化校验部分借鉴 Semantic Web 栈（RDF、OWL、SHACL）。
规划评测沿用经典 Tower of Hanoi 一类 symbolic planning benchmark。

尚未回答的问题

自动抽取的本体质量如何量化？抽取错误如何影响下游推理？
相对 GraphRAG、纯符号 planner、以及 LLM + tools 的公平对比缺失。
本体构建与校验的延迟、成本、可扩展性在大规模语料下是否可行。
本体漂移、冲突消解、版本管理等长期维护问题未讨论。
除 Tower of Hanoi 外，在真实 agent / 机器人任务上的泛化性尚待验证。

论文图表

图 1: Figure 1 (extracted from PDF)

HaS: Accelerating RAG through Homology-Aware Speculative Retrieval

Mon, 27 Apr 2026 05:12:23 +0000

arXiv: 2604.20452 · PDF

作者: Peng Peng, Weiwei Lin, Wentai Wu, Xinyang Wang, Yongheng Liu

主分类: cs.IR · 全部: cs.CL, cs.IR

命中关键词: large language model, llm, agent, agentic, retrieval, rag, inference, latency

TL;DR

HaS 提出一种同源感知的推测式检索框架，通过小范围推测 + 同源查询再识别验证，在几乎不损精度的前提下显著加速 RAG 检索。

核心观点

现有 RAG 加速要么牺牲精度（近似检索），要么仅对完全相同的查询复用结果，收益有限。
现实查询分布具有流行度特征，存在大量"同源"查询，可被利用。
将推测执行思想迁移到检索层：先低延迟草稿，再快速验证。
把验证问题形式化为"同源查询再识别"任务。
作为即插即用模块，也能加速多跳 agentic RAG。

方法

HaS 分两阶段：

推测检索 (Speculative Retrieval)：在受限范围内以低延迟获取候选文档草稿，绕过对全库的昂贵检索。
同源验证 (Homology-Aware Validation)：判断当前 query 与历史 query 是否构成同源再遇；若是，则接受草稿，跳过完整检索；否则回退到全库检索。验证依托查询间的同源关系，本质是分类/再识别任务。

实验

多个 RAG 数据集（摘要未具名）。
基线：完整全库检索与现有近似/缓存式加速策略。
指标：检索延迟、端到端精度、对复杂 multi-hop agentic RAG 的加速比。

结果

检索延迟降低 23.74% 与 36.99%（跨不同数据集）。
精度仅下降 1–2%。
在 agentic multi-hop RAG pipeline 中也带来显著加速。
具体绝对数字与 agentic 加速比摘要未披露。

为什么重要

对 LLM / Agent 基础设施：大规模知识库下检索已成 RAG 延迟瓶颈，HaS 把 LLM 推理中的 speculative decoding 思路带到检索层，几乎零精度代价换显著延迟下降；对高 QPS、多跳 agent 场景尤其有用，可作为现有 RAG 栈的 drop-in 组件。

SAKE: Self-aware Knowledge Exploitation-Exploration for Grounded Multimodal Named Entity Recognition

Mon, 27 Apr 2026 05:11:45 +0000

arXiv: 2604.20146 · PDF

作者: Jielong Tang, Xujie Yuan, Jiayang Liu, Jianxing Yu, Xiao Dong, Lin Chen, Yunlai Teng, Shimin Di, Jian Yin

主分类: cs.IR · 全部: cs.CL, cs.IR

命中关键词: large language model, llm, agent, agentic, tool-use, retrieval, reasoning, chain-of-thought, serving, fine-tun

TL;DR

SAKE 是一个端到端 agentic 框架，通过自我感知推理与自适应检索工具调用，在 Grounded Multimodal NER 任务上协调 MLLM 的内部知识利用与外部知识探索。

核心观点

纯启发式外部检索会引入噪声与冲突证据，损害已知实体精度；而纯内部迭代又受 MLLM 知识边界限制、易幻觉。
提出"自我感知"范式：让模型自己判断何时需要检索，从而融合 exploitation 与 exploration。
通过两阶段训练（SFT + agentic RL）把这种能力落地。

方法

Difficulty-aware Search Tag Generation：通过多次 forward 采样量化实体级不确定性，生成显式的知识缺口信号。
SAKE-SeCoT 数据集：基于上述信号构建高质量 CoT 数据，SFT 阶段教会模型基础的自我感知与工具调用能力。
Agentic RL：混合奖励函数惩罚"不必要的检索"，推动模型从机械模仿搜索行为进化为真正基于需求的自我感知决策。

实验

数据集：两个主流社交媒体 GMNER benchmark（摘要未点名，通常指 Twitter-GMNER 等）。
基线与指标：摘要未给出具体基线与数值指标。

结果

摘要仅声称"extensive experiments … demonstrate SAKE’s effectiveness"，未披露具体数字，无法独立核验其增幅幅度。