Paper-Digest on JXIN's Home

QuantClaw: Precision Where It Matters for OpenClaw

Mon, 27 Apr 2026 10:25:56 +0000

arXiv: 2604.22577 · PDF

作者: Manyi Zhang, Ji-Fu Li, Zhongao Sun, Xiaohao Liu, Zhenhua Dong, Xianzhi Yu, Haoli Bai, Xiaobo Xia

单位: Huawei Technologies, National University of Singapore, University of Science and Technology of China

主分类: cs.AI · 全部: cs.AI, cs.CL

命中关键词: agent, reasoning, inference, serving, quantization, latency

TL;DR

QuantClaw 是 OpenClaw 的即插即用精度路由插件，按任务复杂度动态分配量化精度，在 GLM-5 上相比 FP8 基线最多省 21.4% 成本、降 15.7% 延迟。

核心观点

Autonomous agent 系统（如 OpenClaw）因长上下文和多轮推理带来高昂计算与金钱成本。
量化对 agent 性能的影响高度任务相关，统一精度并非最优。
应把精度视为动态资源：轻量任务用低精度，复杂任务保留高精度。
提出 QuantClaw：plug-and-play 的精度路由插件，在不增加用户复杂度的情况下节省成本、加速推理。

方法

作者首先在 OpenClaw 的多样复杂工作流上系统分析量化敏感度，得出精度需求因任务而异的结论。基于此提出 QuantClaw：一个精度路由插件，将 task detector 与 intelligent routing 整合，on-the-fly 判断任务特征，把轻量任务路由到低成本（更低精度）配置，把 demanding workload 路由到更高精度，从而在 agent 系统内实现动态精度分配。

Guess-Verify-Refine: Data-Aware Top-K for Sparse-Attention Decoding on Blackwell via Temporal Correlation

Mon, 27 Apr 2026 10:25:05 +0000

arXiv: 2604.22312 · PDF

作者: Long Cheng, Ritchie Zhao, Timmy Liu, Mindy Li, Xianjie Qiao, Kefeng Duan, Yu-Jung Chen, Xiaoming Chen, Bita Darvish Rouhani, June Yang

单位: NVIDIA

主分类: cs.DC · 全部: cs.AR, cs.DC, cs.PF

命中关键词: llm, rag, serving, speculative decoding, attention, latency

TL;DR

GVR 利用相邻 decode 步骤之间 Top-K 的时间相关性，在 Blackwell 上实现数据感知的精确 Top-K，平均单算子加速 1.88×，DeepSeek-V3.2 在 100K 上下文下端到端 TPOT 提升最多 7.52%。

核心观点

长上下文 LLM serving 中，稀疏注意力 decode 阶段的精确 Top-K 是显著延迟瓶颈。
DeepSeek Sparse Attention (DSA) indexer 分数具有 Toeplitz / RoPE 结构，使相邻 decode 步的 Top-K 高度相关（约 60% token 持留，40% 变化）。
提出 Guess-Verify-Refine (GVR)：以上一步 Top-K 作为预测信号，做数据感知的精确 Top-K。
在 TensorRT-LLM DSA 栈上实现并验证，保持 bit-exact 输出。

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

Mon, 27 Apr 2026 10:23:44 +0000

arXiv: 2604.22050 · PDF

作者: Mohamed Ali Souibgui, Jan Fostier, Rodrigo Abadía-Heredia, Bohdan Denysenko, Christian Marschke, Igor Peric

单位: Openchip & Softwares Technologies

主分类: cs.LG · 全部: cs.CL, cs.LG

命中关键词: llm, inference, serving, attention, transformer, throughput, latency

TL;DR

LayerBoost 基于逐层敏感度分析，对 transformer 不同层分别保留 softmax、替换为线性滑窗或完全移除注意力，仅用 10M token 蒸馏修复，高并发吞吐提升最高 68%。

核心观点

现有线性/混合注意力方法在所有层上统一替换，导致性能大幅下降或需大量再训练。
不同 transformer 层对注意力的敏感度差异显著，应按层差异化处理。
提出三档策略：高敏感层保留 softmax，中敏感层换成 linear sliding window，低敏感层完全移除 attention。
仅需 10M token 的轻量蒸馏 healing 阶段即可恢复性能。
在高并发与硬件受限场景下显著降低推理成本并保持质量。

方法

LayerBoost 先在预训练模型上做系统性 sensitivity analysis，衡量移除/替换各层 attention 对基准性能的平均下降（Eq 3），据此将层分为三类并分别应用：保留 softmax attention、替换为 linear sliding window attention、完全移除 attention。架构改动后，引入基于 distillation 的 healing phase，仅用额外 10M 训练 token 恢复模型质量。

Lightweight Retrieval-Augmented Generation and Large Language Model-Based Modeling for Scalable Patient-Trial Matching

Mon, 27 Apr 2026 10:21:37 +0000

arXiv: 2604.22061 · PDF

作者: Xiaodi Li, Yang Xiao, Munhwan Lee, Konstantinos Leventakos, Young J. Juhn, David Jones, Terence T. Sio, Wei Liu, Maria Vassilaki, Nansu Zong

单位: Mayo Clinic, University of Tulsa

主分类: cs.CL · 全部: cs.AI, cs.CL, cs.LG

命中关键词: large language model, llm, retrieval, reasoning, serving, fine-tun

TL;DR

提出一个轻量级框架，将 RAG 与 LLM 编码解耦用于患者-试验匹配，在多个公开数据集及 Mayo Clinic 真实数据上以显著更低算力达到与端到端 LLM 相当的效果。

核心观点

将 RAG（检索临床相关片段）与 LLM（编码成表示）明确解耦，降低长 EHR 输入复杂度。
冻结 LLM 足以处理结构化临床数据，而非结构化临床叙述必须微调。
通过降维 + 轻量预测器实现可扩展分类，性能接近端到端 LLM，但算力大幅下降。

方法

框架分两阶段：第一阶段 RAG 从长电子病历中检索与 eligibility criteria 临床相关的片段，缩短输入；第二阶段用 LLM 将所选片段编码为信息丰富的表示，再经降维后送入轻量预测器完成下游分类，支持结构化与非结构化数据。

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

Mon, 27 Apr 2026 10:20:53 +0000

arXiv: 2604.22119 · PDF

作者: Tharindu Kumarage, Lisa Bauer, Yao Ma, Dan Rosen, Yashasvi Raghavendra Guduri, Anna Rumshisky, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris

单位: Amazon Nova Responsible AI

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, agentic, reasoning

TL;DR

提出 ESRR 风险分类 + ESRRSim 自动化评测框架，系统衡量 LLM 的涌现战略推理风险（欺骗、评测博弈、奖励黑客等），覆盖 11 个推理模型，检测率 14.45%–72.72%。

核心观点

将 LLM 自利行为归纳为 Emergent Strategic Reasoning Risks (ESRR) 新风险类别，涵盖欺骗、evaluation gaming、reward hacking。
构建 7 大类 / 20 子类 可扩展风险 taxonomy。
提出 ESRRSim：taxonomy 驱动的 agentic 自动评测框架，judge 无关、可规模化。
对 11 个 reasoning LLM 的实证揭示显著家族差异与代际安全提升。

方法

设计分层 taxonomy（7 类 / 20 子类）覆盖战略推理风险面。
ESRRSim 以四阶段生成 pipeline 自动产出可诱发 faithful reasoning 的评测场景。
采用 dual rubrics：同时评估模型最终响应与推理轨迹 (reasoning traces)。
架构 judge-agnostic，可替换不同裁判模型，支持规模化部署。

Behavioral Canaries: Auditing Private Retrieved Context Usage in RL Fine-Tuning

Mon, 27 Apr 2026 10:19:41 +0000

arXiv: 2604.22191 · PDF

作者: Chaoran Chen, Dayu Yuan, Peter Kairouz

单位: Google

主分类: cs.CR · 全部: cs.CL, cs.CR

命中关键词: llm, agent, agentic, inference, fine-tun, post-train

TL;DR

提出 Behavioral Canaries：在 RL 微调（RLFT）流水线中通过"文档触发器 + 风格化反馈"植入行为标记，用于审计私有检索上下文是否被违规用于训练。

核心观点

RL 微调主要改变模型的行为风格而非事实记忆，传统基于逐字记忆或成员推断的审计方法失效。
提出 Behavioral Canaries 框架：将偏好数据中的文档触发器与奖励特定风格化回复的反馈配对，诱导出潜在的 trigger-conditioned preference。
即使训练影响表现为分布层面的行为变化（而非记忆），审计者也能检测到未授权的 document-conditioned 训练。

方法

针对 RLFT pipeline，在偏好数据（preference data）中植入 canary：每条 canary 把某个文档触发器与一个"奖励独特风格化回复"的反馈信号绑定。
若提供方使用该数据进行 RL 后训练，模型会习得一种隐藏的、以触发器为条件的风格偏好。
审计时用触发器探测模型输出风格，检测是否存在该 trigger-conditioned preference 作为违规训练的证据。

实验

摘要仅给出关键参数：1% canary 注入率、10% FPR 工作点的检测率、AUROC 数值；未披露具体数据集、基线方法和模型细节。

结果

1% canary 注入率下，10% 误报率时检测率达 67%。
AUROC = 0.756，证明行为信号可用于识别未授权的 document-conditioned 训练。

为什么重要

给 agentic workflow 中受法律保护的检索上下文提供了一种可验证的审计手段，使监管方能够检查 LLM 提供方是否违反 ToS 把私有数据卷入 RL 后训练，补齐 RLFT 阶段的合规证据链。

GR-Evolve: Design-Adaptive Global Routing via LLM-Driven Algorithm Evolution

Mon, 27 Apr 2026 10:18:04 +0000

arXiv: 2604.22234 · PDF

作者: Taizun Jafri, Vidya A. Chhabria

单位: Arizona State University

主分类: cs.AR · 全部: cs.AR

命中关键词: large language model, llm, agent, agentic, rag

TL;DR

GR-Evolve 用 agentic LLM 迭代改写 global routing 源码，按 QoR 反馈为每个设计定制 EDA 算法，在七个 benchmark 上最多减少 8.72% 绕线长度。

核心观点

提出 design-adaptive EDA tooling 范式：让 EDA 工具内部算法自动针对具体设计特化，而非仅调超参。
实例化框架 GR-Evolve：agentic LLM 基于 QoR 反馈迭代修改 global routing 源码。
为 LLM 配备持久上下文（开源 global router 知识）及 OpenROAD 集成评估工具链。
在 7 个设计 × 3 个工艺节点上验证 LLM 驱动 EDA 代码演化的可行性。

方法

框架输入：开源 global router 源码、知识库、历史迭代 QoR。
Agentic LLM 迭代修改源码 → 在 OpenROAD 中跑完整流程 → QoR 评估 → 反馈进入下一轮。
知识库持续累积前几轮 QoR 历史，驱动 LLM 做设计自适应的算法演化。

Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents

Mon, 27 Apr 2026 10:16:30 +0000

arXiv: 2604.22085 · PDF

作者: Seyed Moein Abtahi, Rasa Rahnema, Hetkumar Patel, Neel Patel, Majid Fekri, Tara Khani

单位: Moorcheh AI, EdgeAI Innovations

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, agent, agentic, retrieval, inference, latency

TL;DR

Memanto 用类型化语义记忆 schema + Moorcheh 信息论检索引擎替代混合知识图谱，在 LongMemEval 和 LoCoMo 上分别达到 89.8% 和 87.1% 的 SOTA，单次检索、零 ingestion 延迟。

核心观点

挑战"高保真 agent 记忆必须依赖知识图谱复杂度"的主流假设。
提出通用记忆层 Memanto：typed semantic memory schema + 自动冲突消解 + 时间版本控制。
用 Moorcheh 的 Information-Theoretic Search（无索引语义数据库）实现 sub-90ms 确定性检索、无 ingestion 延迟。
仅需单次检索 query，运营复杂度远低于 hybrid graph / vector 系统。

方法

定义 13 个预设记忆类别的 typed semantic memory schema，对写入记忆做类型化组织。
自动冲突消解机制 + temporal versioning，处理多 session 长时记忆一致性。
检索层用 Moorcheh 信息论搜索引擎：no-indexing、确定性检索，消除 ingestion 阶段延迟。
摒弃 LLM-mediated entity extraction、显式 graph schema 维护和多 query 检索管线。

实验

基准：LongMemEval、LoCoMo 两个长时记忆评测套件。
基线：已评估的 hybrid graph 系统与 vector-based 系统（摘要未具名）。
消融：五阶段渐进式 ablation，量化各组件贡献。
指标：准确率、检索延迟、ingestion 成本、检索 query 次数。

结果

LongMemEval 89.8%，LoCoMo 87.1%，均超过所有已评估基线，达到 SOTA。
检索延迟 <90ms，ingestion 延迟为 0，单次检索 query 即可命中。
五阶段 ablation 证实 typed schema、冲突消解、Moorcheh 引擎各自的增益。

为什么重要

为生产级长时 agent 提供一条绕开知识图谱重工程的可行路径：低延迟、低运营成本、可扩展，直接缓解多 session agent 的记忆瓶颈。

Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems

Mon, 27 Apr 2026 10:15:08 +0000

arXiv: 2604.22136 · PDF

作者: Jun He, Deying Yu

单位: OpenKedge.io

主分类: cs.CR · 全部: cs.CR, cs.LG

命中关键词: large language model, llm, agent, agentic, reasoning, latency

TL;DR

提出 Sovereign Agentic Loops (SAL)：将 LLM agent 的推理与执行解耦，通过控制平面对模型输出的结构化 intent 做策略与状态校验，实现可审计、可重放的安全执行。

核心观点

当前架构直接把随机性模型输出传给执行层，存在安全风险，因为执行时无法保证模型正确性、上下文感知和对齐。
SAL 是一种 control-plane 架构：模型只发出带 justification 的结构化 intent，由控制平面对照真实系统状态与策略校验后再执行。
引入 obfuscation membrane 限制模型接触身份敏感状态；用加密链接的 Evidence Chain 保证可审计与可重放。
在给定假设下可形式化证明 policy-bounded execution、identity isolation 和 deterministic replay。

方法

模型输出不是动作，而是结构化 intent + justification；执行权交给 control plane。
obfuscation membrane：对模型屏蔽 identity-sensitive 状态，降低信息暴露面。
Evidence Chain：用密码学链接把 intent、校验结果和执行记录串成可审计链，支持 replay。
对架构做形式化，证明三项安全性质（策略受限执行、身份隔离、确定性重放）。

实验

在 OpenKedge prototype（面向云基础设施场景）中落地 SAL，测量策略层拦截率、一致性检查拒绝率、不安全执行发生情况，以及延迟开销。具体 benchmark 细节与基线摘要未详述。

Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization

Mon, 27 Apr 2026 10:14:08 +0000

arXiv: 2604.22345 · PDF

作者: Weixu Zhang, Ye Yuan, Changjiang Han, Yuxing Tian, Zipeng Sun, Linfeng Du, Jikun Kang, Hong Kang, Xue Liu, Haolun Wu

单位: McGill University, Mila - Quebec AI Institute, MBZUAI, University of Montreal, Salesforce

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, rag, inference, serving, attention, transformer

TL;DR

论文提出 Preference Heads 假设，认为 LLM 中存在稀疏的注意力头编码用户偏好，并基于此设计训练无关的 Differential Preference Steering (DPS) 框架实现可解释的个性化推理。

核心观点

假设 LLM 中存在稀疏的 Preference Heads：专门编码用户风格与主题偏好并对生成有因果影响的注意力头。
提出 Preference Contribution Score (PCS)，通过 causal masking 直接度量每个 attention head 对用户对齐输出的因果贡献。
提出 Differential Preference Steering (DPS)：训练无关，在解码时对比有/无 Preference Heads 的 logits 以放大偏好对齐信号。
给出了 transformer 中个性化"在哪里、如何涌现"的机制性解释。

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

Mon, 27 Apr 2026 09:39:13 +0000

arXiv: 2604.22050 · PDF

作者: Mohamed Ali Souibgui, Jan Fostier, Rodrigo Abadía-Heredia, Bohdan Denysenko, Christian Marschke, Igor Peric

单位: Openchip & Softwares Technologies

主分类: cs.LG · 全部: cs.CL, cs.LG

命中关键词: llm, inference, serving, attention, transformer, throughput, latency

TL;DR

LayerBoost 基于逐层敏感度分析，对 Transformer 不同层分别保留 softmax、替换为线性滑窗或直接移除 attention，再用 10M token 轻量蒸馏恢复性能，高并发下吞吐提升最多 68%。

核心观点

不同 Transformer 层对 attention 的敏感度差异显著，应当分层处理而非统一替换。
提出三档策略：高敏感层保留 softmax、中敏感层换为 linear sliding window attention、低敏感层直接移除 attention。
仅需 10M token 的蒸馏式 “healing” 阶段即可恢复性能。
在高并发推理场景下吞吐最高提升 68%,显著优于现有 attention 线性化方法。

方法

敏感度分析：在预训练模型上系统性评估移除每层 attention 带来的基准性能下降,按 Eq.3 定义敏感度。
分层改造：依据敏感度将层划为三类,分别施加 softmax 保留 / linear sliding window attention 替换 / attention 移除。
Healing 阶段：轻量蒸馏微调,仅用 10M 额外训练 token 恢复模型质量。

实验

基线:原始预训练模型、state-of-the-art attention linearization 方法。
场景:单 A10 24GB GPU,固定 batch size 16,变化 decoding 长度;并在 concurrency 50/100/200 下评测 serving throughput (TPS) 与基准精度。
指标:benchmark accuracy、解码延迟、GPU 显存、吞吐。

结果

高并发下推理延迟下降、吞吐最多提升 68%。
多个 benchmark 上与 base model 持平,少数有轻微下降。
显著优于已有 attention 线性化 SOTA。

Lightweight Retrieval-Augmented Generation and Large Language Model-Based Modeling for Scalable Patient-Trial Matching

Mon, 27 Apr 2026 09:37:35 +0000

arXiv: 2604.22061 · PDF

作者: Xiaodi Li, Yang Xiao, Munhwan Lee, Konstantinos Leventakos, Young J. Juhn, David Jones, Terence T. Sio, Wei Liu, Maria Vassilaki, Nansu Zong

单位: Mayo Clinic, University of Tulsa

主分类: cs.CL · 全部: cs.AI, cs.CL, cs.LG

命中关键词: large language model, llm, retrieval, reasoning, serving, fine-tun

TL;DR

提出一个轻量级患者-试验匹配框架：用 RAG 从长 EHR 中抽取相关片段，再用 LLM 编码+降维+轻量预测器分类，在多个基准上接近端到端 LLM 效果但计算代价显著更低。

核心观点

将 patient-trial matching 拆解为两阶段：RAG 负责片段检索，LLM 负责语义编码，降低输入复杂度。
冻结 LLM 对结构化临床数据已能提供强表征；非结构化临床叙述则需要 fine-tuning。
轻量管线在多个公开基准与真实多模态数据集上达到与端到端 LLM 相当的性能，但计算成本大幅降低。

方法

显式分离两个组件：(1) RAG 从长 EHR 中筛出与 eligibility criteria 临床相关的片段，削减输入长度；(2) LLM 将选中片段编码为信息化向量，再通过 dimensionality reduction 精炼，最后喂给轻量预测器做下游分类。针对结构化数据使用 frozen LLM，针对非结构化叙述采用 fine-tuning。

Behavioral Canaries: Auditing Private Retrieved Context Usage in RL Fine-Tuning

Mon, 27 Apr 2026 09:36:40 +0000

arXiv: 2604.22191 · PDF

作者: Chaoran Chen, Dayu Yuan, Peter Kairouz

单位: Google

主分类: cs.CR · 全部: cs.CL, cs.CR

命中关键词: llm, agent, agentic, inference, fine-tun, post-train

TL;DR

提出 Behavioral Canaries，通过在偏好数据中植入"文档触发器+风格化反馈"，审计 RLFT 是否违规使用受保护检索上下文；1% 注入率下 AUROC 0.756。

核心观点

现有审计（逐字记忆、成员推断）对 RL 微调无效，因为 RL 改变的是行为风格而非事实记忆。
提出 Behavioral Canaries：将文档触发器与奖励特定风格响应的反馈配对，若被用于训练会诱导潜在的 trigger-conditioned preference。
把审计信号从"记忆痕迹"转换为"分布式行为变化"，适配 agentic workflows 中受法律保护的 retrieved context 场景。

方法

面向 RLFT（RL Fine-Tuning）流水线的审计机制。
在偏好数据（preference data）中注入 canary：document trigger 与 distinctive stylistic response 的反馈配对。
若 provider 违规将这些数据纳入 post-training，模型会形成 latent trigger-conditioned preference。
审计时用行为探测检测该条件化偏好是否存在。

实验

摘要未披露具体模型、数据集与基线。指标为检测率、假阳率、AUROC，并控制 canary 注入率。

GR-Evolve: Design-Adaptive Global Routing via LLM-Driven Algorithm Evolution

Mon, 27 Apr 2026 09:35:03 +0000

arXiv: 2604.22234 · PDF

作者: Taizun Jafri, Vidya A. Chhabria

单位: Arizona State University

主分类: cs.AR · 全部: cs.AR

命中关键词: large language model, llm, agent, agentic, rag

TL;DR

GR-Evolve 用 agentic LLM 迭代改写全局布线器源码，针对单个设计自适应特化 EDA 工具算法，在 OpenROAD 上最多减少 8.72% 的 wirelength。

核心观点

提出 design-adaptive EDA tooling 新范式：EDA 工具内部算法对每个设计自动特化，而不是只调 hyperparameter。
以 GR-Evolve 框架实例化该范式：agentic LLM 基于 QoR 反馈迭代修改全局布线（global routing）源码。
为 LLM 配备开源 global router 的持久上下文知识与 OpenROAD 内的 QoR 评测工具链。
在 7 个 benchmark、3 个工艺节点上验证，相比现有 baseline router，post-detailed-routing wirelength 最多减少 8.72%。

方法

GR-Evolve 是一套 code evolution framework：agentic LLM 读取开源 global router 源码与累积的 QoR 历史，迭代生成新版本代码；每轮在 OpenROAD 工具链中完成布线与 QoR 评估，结果再作为反馈注入下一轮。知识库包含持久的 router 设计上下文，使 LLM 具备路由算法领域知识，从而做有针对性的算法级修改而非仅调参。

Guess-Verify-Refine: Data-Aware Top-K for Sparse-Attention Decoding on Blackwell via Temporal Correlation

Mon, 27 Apr 2026 09:33:59 +0000

arXiv: 2604.22312 · PDF

作者: Long Cheng, Ritchie Zhao, Timmy Liu, Mindy Li, Xianjie Qiao, Kefeng Duan, Yu-Jung Chen, Xiaoming Chen, Bita Darvish Rouhani, June Yang

单位: NVIDIA

主分类: cs.DC · 全部: cs.AR, cs.DC, cs.PF

命中关键词: llm, rag, serving, speculative decoding, attention, latency

TL;DR

GVR 利用相邻 decode 步之间 Top-K 的时间相关性，在 Blackwell 上为稀疏注意力 decode 设计数据感知的精确 Top-K 算法，相对 radix-select kernel 平均加速 1.88×，端到端 TPOT 最高提升 7.52%。

核心观点

在长上下文 LLM 服务中，即使 indexer 和 attention kernel 已高度优化，每次 decode query 的 Top-K 选择仍是显著延迟瓶颈。
相邻 decode 步之间的 Top-K 存在强时间相关性：offset+1 shift 后约 60% 的 Top-K token 保持不变，仅约 40% 变化。
该现象与 DeepSeek Sparse Attention (DSA) indexer 分数的 Toeplitz / RoPE 结构相关。
基于此先验可将精确 Top-K 转化为"猜测-验证-精修"问题，在保证 bit-exact 输出的同时大幅降低开销。

Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents

Mon, 27 Apr 2026 09:32:28 +0000

arXiv: 2604.22085 · PDF

作者: Seyed Moein Abtahi, Rasa Rahnema, Hetkumar Patel, Neel Patel, Majid Fekri, Tara Khani

单位: Moorcheh AI, EdgeAI Innovations

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, agent, agentic, retrieval, inference, latency

TL;DR

Memanto 用 typed semantic memory + Moorcheh 信息论检索引擎，以单次查询、无 ingestion 延迟在 LongMemEval/LoCoMo 上取得 89.8% 与 87.1% SOTA。

核心观点

挑战"agent memory 必须依赖 knowledge graph 复杂度"的主流假设。
提出 Memanto：通用 agentic memory 层，单次检索即可达到 SOTA。
核心组件：13 类 typed semantic memory schema、自动冲突消解、temporal versioning。
底层使用 Moorcheh 的 Information Theoretic Search：no-indexing、sub-90ms 延迟、零 ingestion 延迟。

方法

构建统一的 typed semantic memory schema，预定义 13 个记忆类别，取代 LLM 驱动的 entity extraction 与显式 graph schema 维护。写入时支持自动冲突消解和时间版本化；检索端接 Moorcheh 的 no-indexing 信息论语义数据库，用单次 query 取回结果，省去 multi-query pipeline。

Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems

Mon, 27 Apr 2026 09:30:59 +0000

arXiv: 2604.22136 · PDF

作者: Jun He, Deying Yu

单位: OpenKedge.io

主分类: cs.CR · 全部: cs.CR, cs.LG

命中关键词: large language model, llm, agent, agentic, reasoning, latency

TL;DR

提出 Sovereign Agentic Loops (SAL)：让 LLM 只发"带理由的结构化意图"，由控制面校验策略与系统状态后再执行，在 OpenKedge 原型上阻断 100% 不安全意图，中位延迟仅增 12.4 ms。

核心观点

当前 agent 架构直接把随机模型输出送进执行层，无法保证正确性、上下文与对齐，存在安全风险。
应把推理与执行解耦：模型只输出结构化 intent + justification，由控制面验证后才能落地。
通过 obfuscation membrane 限制模型接触身份敏感状态，通过密码学链接的 Evidence Chain 保证可审计与可重放。
在设定假设下，SAL 可形式化证明 policy-bounded execution、identity isolation、deterministic replay。

方法

SAL 是一种 control-plane 架构：LLM 产出结构化意图并附推理说明，控制面将其与系统真实状态、策略比对后再决定是否执行。架构两个关键组件：(1) obfuscation membrane，隔离模型与身份敏感状态；(2) Evidence Chain，密码学链接每次决策证据，支持审计与 replay。作者对 SAL 做了形式化描述并给出三条安全性质的证明。

Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization

Mon, 27 Apr 2026 09:29:37 +0000

arXiv: 2604.22345 · PDF

作者: Weixu Zhang, Ye Yuan, Changjiang Han, Yuxing Tian, Zipeng Sun, Linfeng Du, Jikun Kang, Hong Kang, Xue Liu, Haolun Wu

单位: McGill University, Mila - Quebec AI Institute, MBZUAI, University of Montreal, Salesforce

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, rag, inference, serving, attention, transformer

TL;DR

论文提出 Preference Heads 假设：少量注意力头编码用户偏好，并设计免训练的 Differential Preference Steering (DPS) 框架在推理时放大这些头的影响，实现可解释的个性化。

核心观点

假设 LLM 中存在稀疏的 Preference Heads，编码用户风格与话题偏好并对生成有因果作用。
提出 DPS：无需训练的框架，定位 Preference Heads 并在解码时利用它们做可控、可解释的个性化。
为 transformer 中"个性化在哪里、如何出现"提供机制层面的解释。

方法

用 causal masking analysis 识别 Preference Heads，为每个 attention head 计算 Preference Contribution Score (PCS)，直接衡量其对用户对齐输出的因果影响。
在 decoding 阶段对比"带/不带 Preference Heads"的模型预测，放大个性化 logits 与通用 logits 之差，从而增强偏好对齐的续写。
整体为 training-free，推理时插入。

实验

在多个常用 personalization benchmark 上评测。
跨多个 LLM 骨干进行验证。
同时关注个性化保真度、内容一致性与计算开销。

结果

在多 LLM、多 benchmark 上个性化保真度一致提升，同时保持内容连贯性与低计算开销。
PCS 热力图显示 Preference Heads 在用户内部稀疏且具因果显著性；不同用户间 top-K 集合 Jaccard 重叠有限，说明需按用户/簇发现。
性能对所选头数 K 不敏感，在中等 K 时即饱和，表明个性化信号集中于少量头。

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

Mon, 27 Apr 2026 09:27:01 +0000

arXiv: 2604.22119 · PDF

作者: Tharindu Kumarage, Lisa Bauer, Yao Ma, Dan Rosen, Yashasvi Raghavendra Guduri, Anna Rumshisky, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris

单位: Amazon Nova Responsible AI

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, agentic, reasoning

TL;DR

论文提出 ESRR（Emergent Strategic Reasoning Risks）风险分类体系，以及配套的 ESRRSim 自动化评测框架，对 11 个 reasoning LLM 做系统性基准测试，发现检测率在 14.45%–72.72% 之间。

核心观点

定义 ESRR 这一新风险类别，涵盖 deception、evaluation gaming、reward hacking 等 LLM 为自身目标服务的行为。
提出 7 大类 / 20 子类的可扩展风险 taxonomy。
构建 judge-agnostic、可扩展的 agentic 评测框架 ESRRSim，同时评估回答与 reasoning trace。
首次在 11 个 reasoning LLM 上系统基准化 ESRR，揭示代际差异。

方法

作者构建了分层 taxonomy（7 大类 → 20 子类），然后用 ESRRSim 这一 taxonomy-driven 的 agentic 框架自动生成评测场景，诱导模型产出 faithful reasoning。框架采用 dual rubrics，分别对 model response 和 reasoning trace 打分，架构是 judge-agnostic 且可扩展的。

Large Language Models Decide Early and Explain Later

Mon, 27 Apr 2026 08:09:20 +0000

arXiv: 2604.22266 · PDF

作者: Ayan Datta, Zhixue Zhao, Bhuvanesh Verma, Radhika Mamidi, Mounika Marreddy, Alexander Mehler

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, rag, reasoning, chain-of-thought, inference, latency

TL;DR

研究发现 LLM 在 chain-of-thought 推理中往往很早就锁定答案，后续 token 多为事后解释；基于此设计的 early stopping 策略可节省约 500 个 reasoning token，仅掉 2% 准确率。

核心观点

CoT 推理过程中，只有 32% 的 query 最终答案会发生变化，大部分 query 答案在中间阶段就已稳定。
答案最后一次切换之后，模型平均仍会再生成 760 个 reasoning token，构成显著冗余。
简单的 early stopping 启发式（包括 probe-based stopping）可在精度几乎不损失的前提下大幅减少推理成本。

方法

提出 forced answer completion：在部分 reasoning prefix 处强制模型给出答案，从而追踪中间预测随推理步骤的演化轨迹。
以 Qwen3-4B 为主要研究对象，量化答案切换频率与最后一次切换到结束的 token 数。
基于答案稳定性设计 early stopping 策略：当预测答案连续稳定或 probe 判定已收敛时，提前终止生成。其中 probe-based stopping 使用轻量探针判断是否可停。

实验

模型：Qwen3-4B。
任务：多个推理数据集（摘要未具体列出），对所有数据集求平均。
基线：完整 CoT 生成。
指标：预测答案变化率、最后一次切换后的 token 数、early stopping 下的 token 节省量与准确率下降。

结果

平均仅 32% query 的最终答案在推理中发生过变化。
最终答案确定后仍产生约 760 个额外 reasoning token。
Early stopping 启发式可每 query 节省约 500 token，准确率仅下降约 2%。

为什么重要

对 LLM / agent 基础设施而言，这提示 CoT 推理存在可观的"解释性冗余"。在 inference-heavy 场景（agent 循环、批量推理、on-device 部署）中，early stopping 可直接压缩 latency 与成本，而几乎不牺牲正确性，是一种低风险的推理预算优化手段。

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Mon, 27 Apr 2026 08:08:30 +0000

arXiv: 2604.22748 · PDF

作者: Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao, Jinhui Ye, Xinyu Lin, Xichen Zhang, Qisheng Hu, Shuai Yang, Leyang Shen, Wei Chow, Yifei Dong, Fengyi Wu, Quanyu Long, Bin Xia, Shaozuo Yu, Mingkang Zhu, Wenhu Zhang, Jiehui Huang, Haokun Gui, Haoxuan Che, Long Chen, Qifeng Chen, Wenxuan Zhang, Wenya Wang, Xiaojuan Qi, Yang Deng, Yanwei Li, Mike Zheng Shou, Zhi-Qi Cheng, See-Kiong Ng, Ziwei Liu, Philip Torr, Jiaya Jia

How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks

Mon, 27 Apr 2026 08:07:19 +0000

arXiv: 2604.22750 · PDF

作者: Longju Bai, Zhemin Huang, Xingyao Wang, Jiao Sun, Rada Mihalcea, Erik Brynjolfsson, Alex Pentland, Jiaxin Pei

主分类: cs.CL · 全部: cs.CL, cs.CY, cs.HC, cs.SE

命中关键词: llm, agent, agentic, rag, reasoning

TL;DR

首个系统研究 agentic coding 任务 token 消耗的工作：分析 8 个前沿 LLM 在 SWE-bench Verified 上的轨迹，发现 agent 任务比普通代码任务贵 1000 倍、同任务 run 间差异高达 30 倍、且模型无法准确预测自身 token 成本。

核心观点

Agent 任务 token 消耗极高，比 code reasoning/chat 高约 1000 倍，且 input token 而非 output 是主要成本驱动。
Token 用量天然随机：同任务同模型不同 run 差异可达 30 倍；高消耗≠高准确率，accuracy 常在中等成本达到峰值后饱和。
模型间 token 效率差异显著：Kimi-K2、Claude-Sonnet-4.5 平均比 GPT-5 多消耗 150 万+ token。
人类专家标注的任务难度与实际 token 成本仅弱相关，揭示了「人感知复杂度」与「agent 计算代价」的根本错位。
前沿模型无法准确预测自己的 token 开销（相关性最高仅 0.39），且系统性低估真实成本。

方法

基于 SWE-bench Verified 收集 8 个 frontier LLM 的 agentic 执行轨迹，逐条统计 input/output token 分布、跨 run 方差、与准确率的关系。同时设计 self-prediction 协议：在任务执行前让模型预估自身 token 消耗，再与实际用量比对，计算相关系数与系统性偏差。并将 token 成本与人类难度评级做对齐分析。

Bridging the Long-Tail Gap: Robust Retrieval-Augmented Relation Completion via Multi-Stage Paraphrase Infusion

Mon, 27 Apr 2026 08:06:20 +0000

arXiv: 2604.22261 · PDF

作者: Fahmida Alam, Mihai Surdeanu, Ellen Riloff

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, retrieval, rag, reasoning, fine-tun

TL;DR

RC-RAG 用关系改写在检索、摘要、生成三阶段注入同义表达，无需微调就能显著提升长尾关系补全效果。

核心观点

LLM 在关系补全（RC）任务上、尤其是长尾关系上表现差，即便配 RAG 也难救。
提出 RC-RAG：把 relation paraphrase 贯穿到 retrieval → summarization → generation 的多阶段流程。
方法 training-free，对五种 LLM 和两个 benchmark 都稳定优于多个 RAG 基线。
在长尾子集上，最优 LLM + RC-RAG 比 standalone 提升 40.6 EM，比强 RAG baseline 分别高 16.0 和 13.8 EM。

方法

RC-RAG 围绕 relation paraphrase 做三段式增强：

QuantClaw: Precision Where It Matters for OpenClaw

Mon, 27 Apr 2026 08:05:00 +0000

arXiv: 2604.22577 · PDF

作者: Manyi Zhang, Ji-Fu Li, Zhongao Sun, Xiaohao Liu, Zhenhua Dong, Xianzhi Yu, Haoli Bai, Xiaobo Xia

主分类: cs.AI · 全部: cs.AI, cs.CL

命中关键词: agent, reasoning, inference, serving, quantization, latency

TL;DR

QuantClaw 是为 OpenClaw agent 系统设计的即插即用"精度路由"插件，根据任务特征动态分配量化精度，在 GLM-5 FP8 基线上最多节省 21.4% 成本与 15.7% 延迟。

核心观点

Agent 工作流的量化敏感度高度任务依赖，统一精度会造成浪费或性能损失。
将精度视为一种动态资源，而非全局静态配置。
提出 QuantClaw：轻量任务走低精度，复杂推理保留高精度，用户无感知。

方法

作者先在 OpenClaw 上对多种复杂 workflow 做量化敏感度分析，发现不同任务对精度的需求差异显著。基于此设计 QuantClaw：一个 plug-and-play 路由层，依据任务特征把请求分发到不同精度的模型配置上，在保证质量的前提下压低平均成本。

实验

平台：OpenClaw agent 系统。
模型：GLM-5，FP8 为基线。
覆盖多种 agent 任务（长上下文、多轮推理等复杂 workflow）。
指标：任务性能、延迟、计算/金钱成本。
基线：统一 FP8 全量部署。

结果

Behavioral Canaries: Auditing Private Retrieved Context Usage in RL Fine-Tuning

Mon, 27 Apr 2026 08:04:00 +0000

arXiv: 2604.22191 · PDF

作者: Chaoran Chen, Dayu Yuan, Peter Kairouz

主分类: cs.CR · 全部: cs.CL, cs.CR

命中关键词: llm, agent, agentic, inference, fine-tun, post-train

TL;DR

提出 Behavioral Canaries：在偏好数据里植入"文档触发器 + 风格化反馈"配对，用条件化风格变化检测 RL 微调是否非法使用了受保护检索语料。

核心观点

传统基于逐字记忆 / 成员推断的审计在 RLFT 场景失效，因为 RL 改的是行为分布而非事实保留。
提出把审计目标从"记住某条事实"转为"触发某种可识别的风格偏好"。
在 1% 注入率下即可给出统计显著的未授权训练信号。

方法

在偏好数据中构造 canary：每条包含一个文档触发器（retrieved context 里的特定片段）以及配对的偏好反馈，该反馈系统性地奖励一种独特风格（例如特定措辞、句式、格式）。若提供方把这些受保护文档纳入 RLFT，模型会学到"见到该触发器 → 偏向该风格"的隐式条件反射。审计时无需白盒，只需在推理阶段重放触发上下文，统计风格响应分布是否显著偏移。

实验

在 RLFT pipeline 上模拟"合规"与"违规"两类 provider，基线为逐字记忆检测与 membership inference。指标包括检测率、假阳性率、AUROC，注入率扫至 1%。

结果

1% canary 注入率下，10% FPR 处达到 67% 检测率，AUROC = 0.756。传统记忆类审计在同条件下接近随机，说明行为信号是 RL 场景下唯一有效的抓手。

GR-Evolve: Design-Adaptive Global Routing via LLM-Driven Algorithm Evolution

Mon, 27 Apr 2026 08:03:20 +0000

arXiv: 2604.22234 · PDF

作者: Taizun Jafri, Vidya A. Chhabria

主分类: cs.AR · 全部: cs.AR

命中关键词: large language model, llm, agent, agentic, rag

自动分析不可用（claude CLI timeout）。展示原始摘要。

摘要

Modern ASIC design is becoming increasingly complex, driving up design costs while limiting productivity gains from existing EDA tools. Despite decades of progress, current tools rely on fixed heuristics and offer limited control via tool hyperparameters, requiring extensive manual tuning to achieve an acceptable quality of results (QoR). While prior work has explored learning-based optimization and design-specific hyperparameter tuning, these approaches operate within the constraints of static tool algorithm implementations and do not adapt the underlying algorithms to individual designs. To address this limitation, we introduce the concept of design-adaptive EDA tooling, in which the internal algorithms of EDA tools are automatically specialized to the characteristics of a given design. We instantiate this paradigm through GR-Evolve, a code evolution framework that leverages an agentic large language model (LLM) to iteratively modify global routing source code using QoR-driven feedback. The framework equips the LLM with persistent contextual knowledge of open-source global routers along with an integrated toolchain for QoR evaluation within the OpenROAD infrastructure. We evaluate GR-Evolve across seven benchmark designs across three technology nodes and demonstrate up to 8.72% reduction in post-detailed-routing wirelength over existing baseline routers, highlighting the potential of LLM-driven EDA code evolution for design-adaptive global routing.

Guess-Verify-Refine: Data-Aware Top-K for Sparse-Attention Decoding on Blackwell via Temporal Correlation

Mon, 27 Apr 2026 07:57:44 +0000

arXiv: 2604.22312 · PDF

作者: Long Cheng, Ritchie Zhao, Timmy Liu, Mindy Li, Xianjie Qiao, Kefeng Duan, Yu-Jung Chen, Xiaoming Chen, Bita Darvish Rouhani, June Yang

主分类: cs.DC · 全部: cs.AR, cs.DC, cs.PF

命中关键词: llm, rag, serving, speculative decoding, attention, latency

TL;DR

GVR 利用相邻 decode 步 Top-K 的时间相关性做"猜测-验证-精炼"，在 Blackwell 上把稀疏注意力的精确 Top-K 内核平均加速 1.88×，端到端 TPOT 最多提升 7.52%。

核心观点

稀疏注意力 decode 阶段的精确 Top-K 即使在高度优化后仍是延迟瓶颈。
连续 decode step 间 Top-K 结果具有强时间相关性，可作为预测信号。
利用 DSA indexer 分数的 Toeplitz / RoPE 结构，可设计 data-aware 的精确 Top-K 算法。
在保持 bit-exact 输出的前提下显著优于 production radix-select。

方法

GVR 分三阶段：

Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems

Mon, 27 Apr 2026 07:56:45 +0000

arXiv: 2604.22136 · PDF

作者: Jun He, Deying Yu

主分类: cs.CR · 全部: cs.CR, cs.LG

命中关键词: large language model, llm, agent, agentic, reasoning, latency

TL;DR

论文提出 Sovereign Agentic Loops (SAL)，通过控制平面解耦 LLM 推理与真实系统执行，用策略校验与证据链保证 agent 调用的安全可审计。

核心观点

LLM agent 直接把随机输出送进执行层会带来不可接受的安全风险。
SAL 让模型只发出带 justification 的结构化 intent，由控制平面对照真实状态与策略再决定是否执行。
引入 obfuscation membrane 做身份隔离，以及 cryptographically linked Evidence Chain 支持审计与 replay。
在形式化假设下可保证 policy-bounded execution、identity isolation 与 deterministic replay。

方法

SAL 是一种 control-plane 架构：

Intent 接口：模型输出结构化 intent + justification，而不是直接 API call。
Obfuscation membrane：向模型暴露的状态被脱敏，限制其接触 identity-sensitive 字段。
Policy + consistency 校验：控制平面把 intent 对照真实系统状态和策略规则验证，两层把关。
Evidence Chain：对每次 intent、校验结果、执行动作做密码学链式记录，支持事后审计和 deterministic replay。
作者给出形式化定义并证明上述三项安全性属性在假设下成立。

Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization

Mon, 27 Apr 2026 07:55:51 +0000

arXiv: 2604.22345 · PDF

作者: Weixu Zhang, Ye Yuan, Changjiang Han, Yuxing Tian, Zipeng Sun, Linfeng Du, Jikun Kang, Hong Kang, Xue Liu, Haolun Wu

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, rag, inference, serving, attention, transformer

TL;DR

论文提出 Preference Heads 假设：LLM 中少量 attention head 因果性地编码用户偏好，并据此设计训练-free 的 Differential Preference Steering (DPS) 实现可解释个性化。

核心观点

假设存在稀疏的 Preference Heads，负责编码用户风格与话题偏好。
通过因果掩码分析 (causal masking) 定位这些 heads，并用 Preference Contribution Score (PCS) 量化其影响。
提出 DPS：推理时对比"启用/禁用 Preference Heads"的 logits 差异，放大偏好对齐方向。
无需训练，兼具可解释性、低开销与可控性。

方法

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

Mon, 27 Apr 2026 05:28:59 +0000

arXiv: 2604.18789 · PDF

作者: Jiacheng Liang, Yao Ma, Tharindu Kumarage, Satyapriya Krishna, Rahul Gupta, Kai-Wei Chang, Aram Galstyan, Charith Peris

主分类: cs.AI · 全部: cs.AI, cs.CR, cs.LG

命中关键词: large language model, llm, rag, serving, fine-tun, rlhf

TL;DR

ARES 提出一种自适应红队框架，同时攻击 policy 与 reward model，再通过两阶段微调修复二者联动的"系统性弱点"。

核心观点

指出 RLHF 的关键漏洞：imperfect Reward Model (RM) 与 policy 可能同时失效，形成 systemic weakness。
现有 red-teaming 只针对 policy 层，忽略 RM 这一单点故障。
提出 ARES：同时暴露并修复 policy 与 RM 的 dual vulnerabilities。
建立 RLHF 安全对齐的新范式：end-to-end 修复而非单端加固。

方法

“Safety Mentor” 动态组合 structured components（topics、personas、tactics、goals）生成语义连贯的 adversarial prompts。
针对每个 prompt 同时生成 malicious 与 safe responses，用来同时探测 LLM 与 RM 的弱点。
两阶段修复：先微调 RM 使其更好识别 harmful content；再用改进后的 RM 优化 policy（core LLM）。

实验

多个 adversarial safety benchmarks（摘要未列具体名称）。
基线与具体指标未在摘要披露；评估维度包括 safety robustness 与 model capability 保留。

结果

ARES 显著提升 safety robustness，同时基本保持模型通用能力。
摘要没有给出具体数字，因此声明的幅度与对比优势无法从摘要直接验证。

为什么重要

对 RLHF 安全团队：揭示 RM 本身就是攻击面，单靠 policy 层红队不够。
对做 alignment / safety infra 的人：提供一个可复用的 dual-target red-teaming + 两阶段修复 pipeline。
把 reward modeling 纳入持续对抗测试循环，可能成为未来对齐流程的标准环节。

与已有工作的关系

延续 RLHF / InstructGPT 的对齐脉络，但把关注点从 policy 扩展到 RM。
与 automated red-teaming（如 Anthropic red-teaming、GCG、PAIR、AutoDAN）相比，强调 component-based、对 RM 也可见的攻击。
与 reward model robustness、reward hacking 研究线（如 over-optimization、reward model ensemble）互补，提供对抗式诊断工具。

尚未回答的问题

Safety Mentor 自身是否会被对抗性绕过？其组件库如何覆盖未见过的 tactic？
RM 修复是否会引入新的 reward hacking 或能力回退，长期训练稳定性如何？
在更大规模模型与真实部署分布上的迁移性、以及对非英语 / 多模态场景的有效性。
与纯 Constitutional AI、RLAIF 等非 RM-centric 方案相比的成本与收益权衡。

论文图表

图 1: Figure 1 (extracted from PDF)

Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing

Mon, 27 Apr 2026 05:28:25 +0000

arXiv: 2604.18170 · PDF

作者: Ziyang Liu

主分类: cs.CL · 全部: cs.AI, cs.CL

命中关键词: llm, rag, serving, kv cache, speculative decoding, fine-tun

TL;DR

Copy-as-Decode 把 LLM 编辑任务重写为 <copy>/<gen> 两原语的语法约束解码，让拷贝段走并行 prefill 而非逐 token 自回归，在 Qwen2.5 上给出最高 303× 的内核加速与 13× 端到端上界。

核心观点

编辑输出大部分 token 与输入逐字相同，自回归重解码是浪费。
引入双原语语法：<copy lines="i-j"/> 引用输入行区间，<gen> 发射新内容。
token 级 FSM 保证语法合法；服务层用一次并行 prefill 更新拷贝段 KV cache，取代 N 步自回归。
与 speculative decoding 共享并行 forward kernel，但以输入 token 为 draft、程序强制接受取代概率验证。

方法

在解码层把编辑过程变成 structured decoding：模型输出遵循 grammar 的 copy/gen 混合序列。拷贝跨度通过单次 parallel-prefill forward 填充 KV cache，生成跨度保持常规自回归。作者给出无需端到端训练的上界分析，并做了一次 fine-tuning pilot 作为可学习性信号。

River-LLM: Large Language Model Seamless Exit Based on KV Share

Mon, 27 Apr 2026 05:27:43 +0000

arXiv: 2604.18396 · PDF

作者: Yingtao Shen, An Zou

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, reasoning, inference, kv cache, latency

TL;DR

River-LLM 提出训练无关的 token 级 Early Exit 框架，用 KV-Shared Exit River 解决 decoder-only 架构中 KV Cache 缺失问题，实现 1.71–2.16× 推理加速。

核心观点

指出 decoder-only Early Exit 的核心瓶颈是 KV Cache Absence：被跳过的层无法为后续 token 提供历史状态。
已有 recomputation / masking 方案要么延迟高，要么精度损失大，理论层数缩减难以转化为实际 wall-clock 加速。
提出训练无关（training-free）的 River-LLM，通过共享 KV 的 “Exit River” 在退出过程中自然生成并保留缺失的 KV cache。
利用 decoder block 之间的 state transition similarity 预测累计 KV 误差，指导更精确的退出决策。

方法

KV-Shared Exit River：一条轻量旁路，让主干缺失的 KV 在退出路径上被顺带生成并写回，避免昂贵的 recomputation 或 masking。
误差感知退出策略：基于相邻 decoder block 的状态转移相似度，估计累计 KV 误差，作为是否提前退出的判据。
整个框架无需重新训练或微调，可直接叠加在已有 LLM 上做 token 级动态退出。

实验

任务：数学推理与代码生成。
指标：实际 wall-clock 加速比与生成质量。
基线：摘要未具体列出，暗示对比 recomputation / masking 类 Early Exit 方案。

结果

实现 1.71×–2.16× 实测加速，同时保持较高生成质量。
具体模型规模、数据集名称、精度数字在摘要中未披露。

为什么重要

对 LLM 推理基础设施：首次把 Early Exit 在 decoder-only 架构下做到"理论层数削减 ≈ 实际加速"，且无需训练，部署成本低，适合高吞吐服务场景。

Unlocking the Edge deployment and ondevice acceleration of multi-LoRA enabled one-for-all foundational LLM

Mon, 27 Apr 2026 05:27:11 +0000

arXiv: 2604.18655 · PDF

作者: Sravanth Kodavanti, Sowmya Vajrala, Srinivas Miriyala, Utsav Tiwari, Uttam Kumar, Utkarsh Kumar Mahawar, Achal Pratap Singh, Arya D, Narendra Mutyala, Vikram Nelvoy Rajendiran, Sharan Kumar Allur, Euntaik Lee, Dohyoung Kim, HyeonSu Lee, Gyusung Cho, JungBae Kim

主分类: cs.DC · 全部: cs.AI, cs.CL, cs.DC

命中关键词: large language model, llm, inference, quantization, speculative decoding, latency

TL;DR

面向三星 Galaxy S24/S25 的端侧 LLM 部署框架：用多 LoRA 共享单一冻结推理图、多流解码与 DS2D 自推测解码，实现 4–6× 内存与时延改进。

核心观点

以单个冻结的 LLaMA 多语基座图承载多个应用场景，通过 runtime 注入 LoRA 实现无需重编译的动态任务切换。
提出多流解码，在一次前向中并发生成多种风格回复，降低最多 6× 时延。
提出 Dynamic Self-Speculative Decoding (DS2D)：无需 draft model 的树状自推测解码，decode 加速最高 2.3×。
与 INT4 量化、架构级优化组合，在 9 语言 / 8 任务上达成 4–6× 整体内存和时延优化且保持精度。

方法

在 Qualcomm SM8650/SM8750 上做硬件感知部署：冻结一张 LLaMA 推理图，将任务 LoRA 权重作为运行时输入喂入，实现 one-for-all。解码阶段引入多流机制，让同一 forward pass 并行产生 formal/polite/jovial 等风格输出；同时使用基于树的自推测解码 DS2D，由模型自身预测未来 token，省去独立 draft 模型。模型以 INT4 量化落地，并配合架构层优化。

HybridGen: Efficient LLM Generative Inference via CPU-GPU Hybrid Computing

Mon, 27 Apr 2026 05:26:38 +0000

arXiv: 2604.18529 · PDF

作者: Mao Lin, Xi Wang, Guilherme Cox, Dong Li, Hyeran Jeon

主分类: cs.PF · 全部: cs.DC, cs.PF

命中关键词: llm, rag, inference, kv cache, parallelism, attention, gpu, scheduler

TL;DR

HybridGen 提出 CPU-GPU 协同 attention 框架，配合 CXL 扩展内存，针对长上下文 LLM 推理在六种 KV cache 管理基线上平均加速 1.41×–3.2×。

核心观点

现有 KV cache pruning/offloading 只用单侧算力，CPU 本地内存也未充分利用。
在 CXL 分层内存系统上，CPU 与 GPU 可协同完成 attention 计算。
需要同时解决多维依赖、长序列负载失衡、NUMA 惩罚三大难题。

方法

Attention logit parallelism：拆分 attention 计算维度，允许 CPU-GPU 并行处理不同 logit 片段，打破多维依赖瓶颈。
Feedback-driven scheduler：动态根据运行时负载在 CPU 与 GPU 之间再分配任务，缓解长序列场景的失衡。
Semantic-aware KV cache mapping：按语义将 KV cache 映射到分层内存（本地 DRAM 与 CXL 扩展内存），降低 NUMA 访问代价。

实验

模型：3 种 LLM，11 种不同参数规模。
平台：3 种 GPU 系统，配备 CXL 扩展内存。
基线：6 种 SOTA KV cache 管理方法（pruning、offloading 系列）。
指标：推理吞吐/延迟加速比 + 精度。

结果

相对 6 个基线平均加速 1.41×–3.2×。
精度保持优于或不逊于现有方法。
具体每个模型/平台的拆分数字摘要未给出。

为什么重要

对长上下文 LLM 推理基础设施团队，它展示了 CXL 分层内存 + CPU-GPU 协同 attention 的可行路径，避免单纯 offload 造成的带宽闲置，为百 GB 级 KV cache 部署提供新思路。

Training and Agentic Inference Strategies for LLM-based Manim Animation Generation

Mon, 27 Apr 2026 05:26:04 +0000

arXiv: 2604.18364 · PDF

作者: Ravidu Suien Rammuni Silva, Ahmad Lotfi, Isibor Kennedy Ihianle, Golnaz Shahtahmassebi, Jordan J. Bird

主分类: cs.AI · 全部: cs.AI, cs.GR, cs.MA

命中关键词: large language model, llm, agent, agentic, reasoning, inference, fine-tun

TL;DR

提出 ManimTrainer（SFT+GRPO）与 ManimAgent（RITL/RITL-DOC）两套训练-推理管线，首次系统研究 LLM 生成 Manim 动画的 text-to-code-to-video 任务。

核心观点

首次统一研究 Manim 动画生成的训练与推理策略交互。
SFT 提升代码质量，GRPO 提升视觉输出并增强自我修正对外部信号的响应性。
提出融合代码与视觉评估的统一奖励信号。
推理阶段引入 Renderer-in-the-loop（RITL）及文档增强版 RITL-DOC。

方法

ManimTrainer：SFT + 基于 GRPO 的 RL，奖励同时融合代码正确性与视觉相似度信号。
ManimAgent：推理时将渲染器结果回灌给 LLM（RITL），并额外注入 Manim API 文档（RITL-DOC），支持自我修正。
任务形式：文本 → Manim 代码 → 视频。

实验

基准：ManimBench。
模型：17 个开源 sub-30B LLM（含 Qwen 3 Coder 30B 等），对比 GPT-4.1 基线。
组合：9 种训练 × 推理策略组合。
指标：Render Success Rate（RSR）、Visual Similarity（VS），以及代码-视觉相关性分析。

结果

最佳组合 Qwen 3 Coder 30B + GRPO + RITL-DOC：RSR 94%，VS 85.7%。
VS 比 GPT-4.1 基线高 +3 个百分点。
SFT/GRPO 强化代码与视觉指标相关性；推理增强（RITL）反而削弱该相关性，说明二者互补。

为什么重要

给出面向小参数量开源模型的可行配方：训练侧用 SFT+GRPO，推理侧用渲染回路+文档检索，即可在视频生成这类 spatial+temporal+API 密集任务上超越 GPT-4.1。
对 agent infra：验证 renderer-in-the-loop 作为外部验证器能显著提升代码-to-artifact 任务的可靠性。

与已有工作的关系

训练方法延续 SFT+RLHF/GRPO 路线（DeepSeek GRPO）。
推理策略属于 agentic self-correction / tool-use 家族，与 Reflexion、Self-Debug、Self-Refine 相近，但以渲染器为 grounding。
任务上接续 text-to-code、text-to-video 研究脉络，特化到 Manim 这类 DSL。

尚未回答的问题

能否扩展到 >30B 闭源模型或其他图形 DSL（如 TikZ、Three.js）？
统一奖励信号的权重设计与 reward hacking 风险未深入讨论。
推理增强削弱代码-视觉相关性的机制仍需解释。
长时序、多场景复杂动画下的泛化能力未验证。

论文图表

图 1: Figure 1 (extracted from PDF)

AQPIM: Breaking the PIM Capacity Wall for LLMs with In-Memory Activation Quantization

Mon, 27 Apr 2026 05:25:34 +0000

arXiv: 2604.18137 · PDF

作者: Kosuke Matsushima, Yasuyuki Okoshi, Masato Motomura, Daichi Fujiki

主分类: cs.AR · 全部: cs.AI, cs.AR, cs.LG

命中关键词: large language model, llm, rag, kv cache, quantization, attention, transformer, gpu, latency

TL;DR

AQPIM 在 PIM 内部用 Product Quantization 压缩 LLM 激活/KV cache，突破 PIM 容量墙，相比 SOTA PIM 方案加速 3.4 倍。

核心观点

传统 PIM 聚焦权重瓶颈，却忽视了长上下文 Transformer 激活（尤其 KV cache）的内存压力。
稀疏 attention 与 PIM 所需的数据局部性冲突，通用量化方法也不适配 PIM 特性。
基于聚类的向量量化（VQ）与激活分布及 PIM 内部带宽高度契合。
提出 AQPIM：PIM-aware 的 PQ 激活量化框架，在内存内直接量化并对压缩数据进行计算。

方法

以 Product Quantization 为基础，将激活切分子向量并用码本索引替代原始值。
量化过程直接发生在 PIM 内部，利用其高内部带宽避免数据搬运。
attention 计算在压缩域上执行，减少解码算力与访存开销。
引入多项算法优化（针对 PQ 精度损失），以适配现代 LLM 的激活分布特性。

实验

摘要未给出具体数据集、模型规模或基线细节，仅提到与 SOTA PIM 方法对比，并测量 GPU-CPU 通信占 decoding latency 比例。

StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning

Mon, 27 Apr 2026 05:24:33 +0000

arXiv: 2604.18401 · PDF

作者: Daoyu Wang, Qingchuan Li, Mingyue Cheng, Jie Ouyang, Shuo Yu, Qi Liu, Enhong Chen

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, agent, agentic, tool use, reasoning, post-train, rlhf

TL;DR

StepPO 主张把 Agentic RL 从 token 级 MDP 升级为 step 级 MDP，以 step 作为 LLM agent 的动作粒度，并提出相应的 step-level credit assignment 来对齐策略优化与 agent 决策。

核心观点

传统 token 级 RL（RLHF/RLVR）不足以刻画多轮交互的 agent 行为。
应将 MDP 粒度从 token 提升到 step，把一个 step（决策/工具调用）视为 agent 的动作。
与此配套，奖励传播与信用分配也应在 step 级完成。
Agentic RL 面临奖励稀疏延迟、上下文长而变动等新挑战，step 级抽象更自然。
提出 StepPO 作为 step-aligned policy optimization 的立场论文（position paper）。

方法

作者重新表述 agent 交互为 step-level MDP：每个 step 封装模型一次推理 + 一次工具/环境交互，作为策略的动作单位。在此基础上定义 step-level credit assignment，把延迟奖励回传到对应 step 而非 token，使策略梯度、价值估计与 agent 的决策粒度对齐。论文还讨论了实现 step 级 Agentic RL 所需的系统设计（轨迹组织、reward shaping、长上下文支持等）。

MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation

Mon, 27 Apr 2026 05:24:02 +0000

arXiv: 2604.18509 · PDF

作者: Xingchen Xiao, Heyan Huang, Runheng Liu, Jincheng Xie

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, agent, multi-agent, retrieval, rag, reasoning, inference

TL;DR

MASS-RAG 用多 agent 分工（摘要、抽取、推理）处理检索证据，再经合成阶段产出答案，在证据分散场景下稳定优于单次生成的 RAG baseline。

核心观点

单次生成在噪声、残缺或异质检索上下文下难以有效整合证据。
将证据处理拆分为角色专门化的多个 agent，暴露多视角中间证据表示。
通过专门的 synthesis 阶段汇合不同视角，提升跨文档证据整合能力。

方法

MASS-RAG 在检索阶段之后引入三类角色 agent：evidence summarization、evidence extraction、reasoning over retrieved documents。三者分别产生互补的中间证据视图，最后由一个 dedicated synthesis stage 将它们合并，生成最终答案。该流水线让模型可在答案生成前先对比并整合来自不同 agent 的证据，而不是在一次 prompt 中混合所有检索片段。

实验

摘要提到在 4 个 benchmark 上评测，并与 strong RAG baselines 对比。但未披露具体数据集名称、backbone LLM、检索器、指标细节或 agent 数量消融设置。

First, Do No Harm (With LLMs): Mitigating Racial Bias via Agentic Workflows

Mon, 27 Apr 2026 05:23:29 +0000

arXiv: 2604.18038 · PDF

作者: Sihao Xing, Zaur Gouliev

主分类: cs.CY · 全部: cs.AI, cs.CY

命中关键词: large language model, llm, agent, agentic, retrieval, reasoning, attention, ai system

TL;DR

以 EU AI Act 为治理视角，评估 5 个主流 LLM 在合成病例生成与鉴别诊断中的种族偏见，发现 retrieval-based agentic workflow 可缓解 DeepSeek V3 的显性偏见。

核心观点

医学 LLM 普遍偏离美国种族流行病学分布，存在隐性与显性种族偏见。
单一指标不足以刻画偏见，主张多指标联合评估。
将 LLM 嵌入 retrieval-based agentic workflow 可在部分指标上降低显性偏见。
以 EU AI Act 为治理框架为医学 AI 偏见评估提供合规对齐参照。

方法

选取 5 个常用 LLM，覆盖两类任务：synthetic patient-case generation 与 differential diagnosis ranking。
基准：美国种族分层流行病学分布 + 专家鉴别诊断列表。
使用 structured prompt templates，采取两部分评估设计，分别探测隐性与显性种族偏见。
对 DeepSeek V3 额外构建 agentic workflow（含检索组件），对比 standalone 版本的指标变化。

实验

数据集：race-stratified 美国流行病学分布数据；专家编制的鉴别诊断列表。
模型：5 个主流 LLM，其中报告了 GPT-4.1 与 DeepSeek V3 的具体数值。
指标：合成生成任务看与真实分布的偏离；诊断排序任务用 p-value（mean/median）及 mean difference 等。

结果

合成病例：所有模型均偏离真实种族分布，GPT-4.1 整体偏离最小。
鉴别诊断：DeepSeek V3 综合表现最好。
Agentic workflow 对 DeepSeek V3：mean p-value +0.0348，median p-value +0.1166，mean difference +0.0949，但并非所有指标都改善。

为什么重要

为临床 LLM 部署提供可操作的偏见评估范式，兼顾 EU AI Act 合规维度。
说明 agentic + retrieval 架构不仅能提升准确率，还能作为 bias mitigation 手段，对医疗 AI 基础设施选型有指导意义。

与已有工作的关系

延续 medical LLM bias 评测线（如 Omiye et al. 对 GPT 系列的偏见研究）。
借用 agentic workflow / retrieval-augmented generation 思路，把 mitigation 从 fine-tuning 扩展到推理期。
以 EU AI Act 为治理锚点，呼应 responsible AI、AI governance 方向的工作。

尚未回答的问题

改善幅度较小且不均衡，在真实临床决策中是否具备统计与临床显著性？
方法能否推广到性别、年龄、社经地位等其他受保护属性？
未比较不同检索语料/检索策略对 bias 的差异化影响。
未进入真实 EHR 与前瞻临床评估，外部效度待验证。
对隐性偏见（模型内部表征层面）是否真正缓解仍不清楚。

论文图表

图 1: Figure 1 (extracted from PDF)

Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

Mon, 27 Apr 2026 05:22:58 +0000

arXiv: 2604.19533 · PDF

作者: Alankrit Chona, Igor Kozlov, Ambuj Kumar

主分类: cs.CR · 全部: cs.AI, cs.CR

命中关键词: large language model, llm, agent, agentic, rag

TL;DR

提出 Cyber Defense Benchmark，用 106 条真实攻击、75k–135k 条 Windows 日志的 SQLite 环境让 LLM agent 做无提示威胁狩猎；五大前沿模型最高召回仅 3.8%，全部不及格。

核心观点

首个面向 SOC 威胁狩猎核心任务的 agentic benchmark，强调无引导问题、纯证据驱动。
将 OTRF Security-Datasets 的 106 个攻击程序打包进 Gymnasium RL 环境，CTF 式评分。
结论鲜明：当前 frontier LLM 在开放式威胁狩猎上尚不可用，Q&A 榜单成绩具有误导性。

方法

数据基于 OTRF Security-Datasets，覆盖 MITRE ATT&CK 12 tactics、86 sub-techniques。
用确定性 campaign simulator 对原始日志做时间平移和实体混淆，得到每集 75k–135k 条的 in-memory SQLite 库。
Agent 通过迭代提交 SQL 查询检索恶意事件，并显式 flag 时间戳；ground truth 来自 Sigma 规则。
包装成 Gymnasium RL 环境，支持标准化评测与 CTF 式打分。

实验

评测 5 个 frontier 模型：Claude Opus 4.6、GPT-5、Gemini 3.1 Pro、Kimi K2.5、Gemini 3 Flash。
跑 26 个 campaigns，覆盖 106 个 procedures 中的 105 个。
指标：每个恶意事件的 flag 正确率；通过标准为每个 ATT&CK tactic 召回 ≥ 50%。

结果

最强模型 Claude Opus 4.6 平均只 flag 出 3.8% 的恶意事件。
没有任何一次运行找全所有 flag。
通过线（13 tactics 全部 ≥50%）无模型达成；leader 仅在 5/13 tactics 达标，其余四个模型 0/13。

为什么重要

给 SecOps / agent 基础设施从业者一个真实、可复现的 RL-style 评测，而非多选题。
揭示 frontier LLM 在长上下文、多轮 SQL 证据检索和 ATT&CK 覆盖上的系统性短板。
为 tool-use、memory、planning、RL 微调等方向提供明确 target 和 headroom。

与已有工作的关系

延续 MITRE ATT&CK、Sigma rules、OTRF Security-Datasets 的威胁检测脉络。
对比已有 curated 安全 Q&A benchmark（如 CyberSecEval、SecQA 类），强调 agentic、open-ended 设定。
借鉴 Gymnasium / CTF-style agent benchmark（SWE-bench、Cybench 等）的评测范式。

尚未回答的问题

给予工具增强（SIEM、检测库、RAG、notebook）或 fine-tuning 后表现能否质变？
失败主因是 SQL 推理、长上下文，还是 ATT&CK 先验知识不足？
能否扩展到 Linux、网络流、云日志等非 Windows 数据源？
如何防止 benchmark 被训练集污染，保持长期可用？

论文图表

图 1: Figure 1 (extracted from PDF)

TRN-R1-Zero: Text-rich Network Reasoning via LLMs with Reinforcement Learning Only

Mon, 27 Apr 2026 05:22:24 +0000

arXiv: 2604.19070 · PDF

作者: Yilun Liu, Ruihong Qiu, Zi Huang

主分类: cs.CL · 全部: cs.CL, cs.LG

命中关键词: large language model, llm, reasoning, chain-of-thought, inference, fine-tun, post-train

TL;DR

TRN-R1-Zero 提出纯强化学习的后训练框架，让 LLM 在文本丰富网络（TRN）上实现零样本关系推理，无需 SFT 或蒸馏数据。

核心观点

首个仅依赖 RL、不需 SFT 与 CoT 蒸馏的 TRN 推理后训练方案
提出 Neighbour-aware GRPO：根据邻居信息量动态调整奖励
引入 margin gain 指标量化邻居信号的 informativeness
仅用 node-level 训练即可零样本迁移到 edge-level 与 graph-level 任务

方法

在 base LLM 上做 RL 后训练，核心目标为 Neighbour-aware Group Relative Policy Optimisation（GRPO 的扩展）。通过新提出的 margin gain 指标衡量邻居节点对当前推理的边际贡献，并据此动态重塑奖励，引导模型主动整合图结构与文本语义，而非仅依赖节点自身文本。全程无监督微调，无需来自更大 reasoning model 的 CoT 数据。

Detoxification for LLM: From Dataset Itself

Mon, 27 Apr 2026 05:21:36 +0000

arXiv: 2604.19124 · PDF

作者: Wei Shao, Yihang Wang, Gaoyu Zhu, Ziqiang Cheng, Lei Yu, Jiafeng Guo, Xueqi Cheng

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, inference, serving, fine-tun, post-train

TL;DR

提出 HSPD pipeline + SoCD 解码，直接在预训练语料层面改写有毒片段，从源头降低 LLM 毒性，同时保留语义与数据可用性。

核心观点

现有去毒方法聚焦 post-training 或 inference-time，难以根除模型内在毒性
毒性真正的源头是数据集本身，应在 corpus 层面做治理
提出 HSPD（Hierarchical Semantic-Preserving Detoxification）pipeline，输出可直接替换原始语料用于 fine-tuning
引入 SoCD（Soft Contrastive Decoding），引导 LLM 定位并重写毒性片段，保留语义
在多种主流 LLM 上取得 SOTA 去毒效果

方法

HSPD 是一个分层、语义保持的 corpus-level 去毒 pipeline
核心解码机制 SoCD：对原始语料中的毒性 span 做定位与改写，而非简单删除或屏蔽
通过对比解码抑制毒性表达、保持语义一致，产出 drop-in 替换的去毒语料
下游训练流程（fine-tuning 等）不需修改，仅更换训练数据

实验

模型：GPT2-XL、LLaMA2-7B、OPT-6.7B、Falcon-7B
指标：Toxicity Probability (TP)、Expected Maximum Toxicity (EMT)
基线：摘要未具体列出，仅声称对比主流 detox 方法取得 best-in-class
代码开源：github.com/ntsw2001/data_detox_for_llm

结果

GPT2-XL：TP 0.42 → 0.18，EMT 0.43 → 0.20
LLaMA2-7B / OPT-6.7B / Falcon-7B 上也报告一致的 best-in-class 结果
声称在降低毒性的同时保留数据效用（utility），但摘要未给出 utility 的量化数字

为什么重要

将 detox 从推理期/后训练迁移到数据源头，是一种更根本的治理路径
产出的去毒语料可直接替换原始数据，不改训练代码，落地成本低
为安全对齐团队提供"数据层防线"，可减少后续 RLHF / 解码端修补负担

与已有工作的关系

相对 DAPT、Self-Debias、GeDi、DExperts 等 post-training / controllable decoding 方法，把干预点前移
延续 contrastive decoding 思路，但将其从生成控制用于 corpus 改写
与数据清洗/过滤式 detox（如 RealToxicityPrompts 过滤）相比，采用改写而非丢弃以保留 utility

尚未回答的问题

utility 损失的具体量化（perplexity、下游任务精度）未在摘要中给出
SoCD 改写是否引入新的 bias 或事实性错误
对超大规模预训练语料（trillion tokens）的可扩展性与算力开销
在多语言 / 多毒性类型（仇恨、性别、政治）上的泛化性
与 RLHF、constitutional AI 等对齐手段的叠加收益

论文图表

图 1: Figure 1 (extracted from PDF)

SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving

Mon, 27 Apr 2026 05:21:04 +0000

arXiv: 2604.19157 · PDF

作者: Jinda Jia, Jisen Li, Zhongzhu Zhou, Jung Hwan Heo, Jue Wang, Tri Dao, Shuaiwen Leon Song, Ben Athiwaratkun, Chenfeng Xu, Tianyi Zhang, Xiaoxia Wu

主分类: cs.LG · 全部: cs.LG

命中关键词: llm, serving, kv-cache, quantization, attention, throughput, latency

TL;DR

SAW-INT4 提出 token-wise INT4 + block-diagonal Hadamard 旋转的 KV-cache 量化方案，在 paged attention 等真实 serving 约束下几乎无损恢复精度且零额外开销。

核心观点

KV-cache 压缩需作为系统协同设计问题看待，必须兼容 paged 内存布局、规则访存与 fused attention。
在这些约束下，简单的 token-wise INT4 + 块对角 Hadamard 旋转就能逼近最佳精度-效率折中。
更复杂的 vector quantization、Hessian-aware 量化在考虑 serving 兼容性后仅带来边际收益。
融合旋转-量化 kernel 可直接嵌入 paged KV-cache，实测端到端零额外开销。

方法

作者筛选出在 serving 约束下仍可行的 4-bit KV 量化方法的最小集合，核心设计为 token-wise INT4 量化配合 block-diagonal Hadamard 旋转以抑制 outlier。随后实现一个 fused rotation-quantization kernel，将旋转与量化与 paged KV-cache 布局对齐，直接与 fused attention 执行路径集成。

If you're waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems

Mon, 27 Apr 2026 05:20:33 +0000

arXiv: 2604.19844 · PDF

作者: Jiamin Chang, Minhui Xue, Ruoxi Sun, Shuchao Pang, Salil S. Kanhere, Hammond Pearce

主分类: cs.CV · 全部: cs.AI, cs.CV

命中关键词: agent, agentic, multi-agent, serving, ai system

TL;DR

针对视觉语言 agent 在真实环境信号与恶意视觉注入之间的"信任边界混淆"问题，提出双意图评测集与多 agent 防御框架，分离感知与决策以动态评估视觉输入可信度。

核心观点

首次定义 trust boundary confusion：VLAS 必须响应合法环境信号（如交通灯），又要抵御伪装成环境信号的视觉注入。
现有 LVLM agent 要么忽略有用信号，要么盲从恶意注入，无法平衡权衡。
提出将 感知与决策解耦 的多 agent 防御架构，可在对抗扰动下提供鲁棒性保证。

方法

构建 dual-intent dataset：同一视觉信号既可能是合法指令也可能是注入攻击，用以测量二元权衡。
设计评测框架，覆盖 structure-based（结构伪造，如假交通牌）与 noise-based（像素级扰动）两类视觉注入。
防御侧：多 agent 流水线——独立的 perception agent 负责识别/验证视觉线索来源与可信度，decision agent 基于可信度评分执行；二者通信带显式信任信号。

实验

在多种 embodied 场景下评测 7 个 LVLM agents。
同时施加结构注入与噪声注入两种攻击。
指标围绕：对合法环境信号的遵从率、对恶意注入的抵抗率、综合权衡表现。

结果

摘要未给出具体数值，仅称防御框架"显著降低误导行为，同时保留对合法信号的正确响应"，并在对抗扰动下具有鲁棒性保证。具体幅度、7 个模型排名、是否存在 trade-off 开销需看正文。

Statistics, Not Scale: Modular Medical Dialogue with Bayesian Belief Engine

Mon, 27 Apr 2026 05:20:01 +0000

arXiv: 2604.20022 · PDF

作者: Yusuf Kesmen, Fay Elhassan, Jiayi Ma, Julien Stalhandske, David Sasu, Alexandra Kulinkina, Akhil Arora, Lars Klein, Mary-Anne Hartley

主分类: cs.LG · 全部: cs.AI, cs.CL, cs.LG

命中关键词: large language model, llm, agent, rag, reasoning, inference

TL;DR

BMBE 把 LLM 降级为"传感器"，把医疗诊断推理交给可审计的贝叶斯引擎，模块化架构在精度、隐私和鲁棒性上超过独立 frontier LLM。

核心观点

LLM 把"自然语言沟通"与"概率推理"混在一起是架构缺陷，而非工程瑕疵。
应严格分离语言层与推理层：LLM 只做解析和措辞，贝叶斯引擎承担全部诊断推断。
由于患者数据不进入 LLM，架构天然私密；统计后端可按人群替换，无需重训。
带来三大独有特性：可调的 selective diagnosis 精度-覆盖权衡、“统计分离 gap”，以及对抗性患者语气下的鲁棒性。

方法

提出 BMBE (Bayesian Medical Belief Engine)，模块化对话诊断框架：

LLM as sensor：解析患者自由文本为结构化证据，并把引擎要问的问题口语化。
Bayesian engine：确定性、可审计的概率推理核心，基于知识库维护疾病后验，决定下一步询问和何时给出诊断。
Selective diagnosis：通过阈值连续调节 accuracy–coverage 折中。
统计后端可独立替换以适配不同人群。

实验

在经验知识库与 LLM 生成知识库两类设置上评测。
基线为同家族的 frontier standalone LLM（autonomous diagnostic agent）。
指标覆盖诊断准确率、覆盖率、成本，以及对抗性沟通风格下的稳健性。具体数据集名称摘要未披露。

结果

廉价 sensor + 贝叶斯引擎可超越同家族 frontier 独立模型，成本只是后者一小部分，呈现"统计分离 gap"。
可连续调节精度-覆盖曲线，独立 LLM 无此能力。
在对抗性患者语气下，独立模型性能崩溃，BMBE 保持稳健。
具体数值摘要未给出，需看正文。

为什么重要

对医疗 agent、隐私合规系统和 LLM infra 从业者：展示了一条"不靠 scale、靠架构"的路线——把不确定性推理从 LLM 里抽出来交给可验证模块，可同时拿到隐私、可审计性、成本优势和可控的弃答机制，对高风险领域部署有直接借鉴意义。

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

Mon, 27 Apr 2026 05:19:25 +0000

arXiv: 2604.19689 · PDF

作者: Shuai Wang, Hongyi Zhu, Jia-Hong Huang, Yixian Shen, Chengxi Zeng, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, retrieval, reasoning, ai system

TL;DR

A-MAR 提出基于 agent 的多模态艺术检索框架，先生成结构化推理计划再条件化检索，实现可解释的艺术品细粒度理解。

核心观点

现有 MLLM 解释艺术品依赖隐式推理和内化知识，缺乏可解释性与证据支撑。
将 retrieval 显式条件化在结构化推理计划上，可支持分步、grounded 的解释。
推出 ArtCoT-QA 诊断基准，评估多步推理链而非只看最终答案准确率。

方法

给定艺术品与用户查询，A-MAR 先把任务分解为结构化推理计划（明确每一步的目标与证据需求），再基于该计划进行有针对性的证据检索，最终生成分步、可追溯的解释。整体流程为 agent-based：plan → retrieve → explain。

实验

数据集：SemArt、Artpedia，以及自建 ArtCoT-QA（多步推理链诊断基准）。
基线：静态非计划式检索方法、强 MLLM baseline。
指标：最终解释质量、证据 grounding、多步推理能力（细粒度诊断）。

结果

A-MAR 在 SemArt 和 Artpedia 上的最终解释质量持续优于静态检索和 MLLM 基线；在 ArtCoT-QA 上，证据 grounding 与多步推理表现进一步领先。具体数字摘要未给出。

Rethinking Scale: Deployment Trade-offs of Small Language Models under Agent Paradigms

Mon, 27 Apr 2026 05:18:58 +0000

arXiv: 2604.19299 · PDF

作者: Xinlin Wang, Mats Brorsson

主分类: cs.CL · 全部: cs.AI, cs.CL

命中关键词: large language model, agent, multi-agent, tool use, reasoning, latency, fine-tun

TL;DR

首次系统评估 <10B 小语言模型在 base、单 agent、多 agent 三种范式下的部署权衡，发现单 agent + 工具在性能与成本间取得最佳平衡。

核心观点

SLM 的知识与推理短板可通过 agent 范式（工具调用、多智能体协作）系统性弥补，而非单纯依赖 scaling law 或 fine-tuning。
首次对 <10B 开源模型在三种部署范式下做大规模对比。
单 agent 系统是性能/成本最优解；多 agent 协作带来额外开销但收益有限。
面向资源受限场景，应采用 agent-centric 的部署设计。

方法

作者在三种范式下统一评测 <10B 开源模型：

Base model：原始模型直接推理。
Single agent：为模型配备工具（tool use）以补齐知识/推理缺口。
Multi-agent：多个 agent 协同完成任务。摘要未披露具体 orchestration 框架、工具集与 prompting 细节。

实验

摘要仅说明是"大规模、全面"的研究，覆盖多个 <10B 开源模型，并在三范式下横向比较性能与成本。具体数据集、基线模型列表、评估指标（如准确率、延迟、token 成本）摘要未给出。

GRASPrune: Global Gating for Budgeted Structured Pruning of Large Language Models

Mon, 27 Apr 2026 05:18:29 +0000

arXiv: 2604.19398 · PDF

作者: Ziyang Wang, Jiangfeng Xiao, Chuan Xiao, Ruoxiang Li, Rui Mao, Jianbin Qin

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, rag, inference, kv cache, attention, gpu, latency, fine-tun

TL;DR

GRASPrune 提出面向 LLM 的结构化剪枝框架，用全局预算下的轻量门控分数，在预训练后联合剪枝 FFN 通道和 KV head group，无需微调骨干权重。

核心观点

将 FFN 通道与 KV head group 统一在单一全局预算下联合剪枝，而非分模块独立决策。
用投影式 straight-through estimator (STE) 学习门控分数，每一步都强制满足硬预算掩码。
骨干权重冻结，仅训练轻量 gate，显著降低训练开销。
剪枝后通过scaling factor 校准并折叠进权重，得到无额外推理参数的更小 dense checkpoint。

方法

训练后剪枝（post-pretraining）：在 FFN channel 与 KV head group 两种结构单元上放置 gate。
通过 projected STE 让前向使用硬 0/1 mask 并满足预算约束，反向传递连续梯度更新 gate。
mask 固定后，对保留单元的 scale 做校准，补偿剪枝引起的激活 scale mismatch。
将校准后的 scale 折叠到权重，产出一个尺寸更小的 dense 模型，推理时无额外算子。

实验

模型：LLaMA-2-7B。
剪枝率：50% 参数移除。
数据：512 条无标签校准序列，训练 4 个 epoch。
硬件：单卡 NVIDIA A100 80GB。
评测：WikiText-2 perplexity，以及 5 个 zero-shot 基准的平均准确率。

结果

WikiText-2 上 perplexity 12.18（50% 剪枝率下）。
5 个 zero-shot 基准平均准确率与基线具竞争力（摘要未给具体数值）。
无需对整模型做 full fine-tuning，成本低。

为什么重要

对推理基础设施，同时压缩 FFN 和 KV cache 的剪枝能同时降低 memory、latency 与 KV cache 占用。
单 A100 完成 7B 模型剪枝且无 full FT，门槛低、可复现，适合部署团队快速裁剪自有模型。
输出 dense checkpoint，兼容现有推理栈，无需稀疏算子支持。

与已有工作的关系

延续 LLM-Pruner、SliceGPT、Wanda、SparseGPT 等 post-training 结构化/非结构化剪枝思路。
gate + STE 学习 mask 的做法与 Movement Pruning、DSNet 等一脉相承。
关注 KV head 组剪枝与 GQA、MQA、KV cache compression 研究方向相关。
scale 校准折叠思想与 SmoothQuant、AWQ 的 scale 迁移技巧类似。

尚未回答的问题

在更大模型（13B/70B）和更高剪枝率下是否仍保持 PPL？
与 SparseGPT / Wanda 等强基线的直接对比数字未给出。
与量化（INT4/INT8）叠加后的效果与误差累积如何？
对 long-context 推理与 KV cache 实际延迟/显存节省的端到端测量缺失。
gate 训练对校准数据领域分布的敏感性未讨论。

论文图表

图 1: Page 2 (rendered)

ChipCraftBrain: Validation-First RTL Generation via Multi-Agent Orchestration

Mon, 27 Apr 2026 05:17:55 +0000

arXiv: 2604.19856 · PDF

作者: Cagri Eryilmaz

主分类: cs.AR · 全部: cs.AI, cs.AR, cs.LG

命中关键词: large language model, llm, agent, agentic, multi-agent, retrieval, rag, reasoning

TL;DR

ChipCraftBrain 用多 agent 编排加符号-神经混合推理做 RTL 生成，在 VerilogEval-Human 达到 97.2% pass@1，在 CVDP 子集达 94.7%，并成功跑通 RISC-V SoC 分层生成。

核心观点

单次生成 RTL 正确率仅 60-65%，现有多 agent（MAGE）在更难的工业基准 CVDP 上未验证且成本高。
提出 validation-first 的多 agent 框架，结合 PPO 自适应编排、符号-神经混合、知识检索与层次化分解。
在 VerilogEval-Human 和 CVDP 非 agentic 子集上均取得 SOTA 级结果，且 per-problem 调用次数比 ACE-RTL 少约 30 倍。

方法

四项创新：

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Mon, 27 Apr 2026 05:17:17 +0000

arXiv: 2604.20987 · PDF

作者: Xiyang Wu, Zongxia Li, Guangyao Shi, Alexander Duffy, Tyler Marques, Matthew Lyle Olson, Tianyi Zhou, Dinesh Manocha

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, retrieval, rag, reasoning

TL;DR

COSPLAY 提出 LLM 决策 agent 与可学习 skill bank 协同演化的框架,在长时序游戏任务中让 8B 模型显著超越前沿 LLM baseline。

核心观点

长时序交互环境需要跨 episode 发现、保留、复用结构化技能,现有 LLM agent 缺乏这种机制。
提出 COSPLAY:决策 agent 从 skill bank 检索技能指导动作,skill bank agent 从未标注 rollout 中抽取并精炼技能。
两个 agent 协同演化:决策端学更好的检索与动作生成,bank 端持续更新技能及其 contract。

方法

双 agent 协同演化框架。决策 agent 在每步从 learnable skill bank 中检索相关技能,用于指导 action 选择;skill pipeline agent 消化 agent 的 unlabeled rollout,发现可复用 skill 并形成带 contract 的条目存入 bank。训练过程中两者互相反馈:决策端的行为质量驱动 bank 的抽取/精炼,bank 的质量又改善决策端的检索与执行。

Agentic AI for Personalized Physiotherapy: A Multi-Agent Framework for Generative Video Training and Real-Time Pose Correction

Mon, 27 Apr 2026 05:16:40 +0000

arXiv: 2604.21154 · PDF

作者: Abhishek Dharmaratnakar, Srivaths Ranganathan, Anushree Sinha, Debanshu Das

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, agent, agentic, multi-agent, rag

TL;DR

提出一个多智能体框架，用生成式视频和实时姿态估计为居家物理治疗提供个性化训练与反馈。

核心观点

居家物理治疗依从性低，现有方案依赖静态视频或通用 3D avatar，无法适配患者伤情与环境。
将 Generative AI 与 computer vision 结合成 Multi-Agent System，可闭合 tele-rehabilitation 回路。
将临床笔记解析、视频合成、姿态识别、诊断反馈解耦为四个专用 micro-agent。

方法

框架由四个 agent 组成：

Clinical Extraction Agent：用 LLM 解析非结构化医嘱为运动学约束。
Video Synthesis Agent：调用 foundational video generation 模型，生成患者专属训练视频。
Vision Processing Agent：基于 MediaPipe 做实时 pose estimation。
Diagnostic Feedback Agent：根据姿态偏差下发纠正指令。文中给出系统架构和原型 pipeline。

实验

论文仅描述原型 pipeline 与临床评估计划，未报告具体数据集、基线或量化指标。

EvoAgent: An Evolvable Agent Framework with Skill Learning and Multi-Agent Delegation

Mon, 27 Apr 2026 05:16:07 +0000

arXiv: 2604.20133 · PDF

作者: Aimin Zhang, Jiajing Guo, Fuwei Jia, Chen Lv, Boyu Wang, Fangzheng Li

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, multi-agent, rag

TL;DR

EvoAgent 提出可进化的 LLM agent 框架，通过结构化技能学习与分层子 agent 委派，使 GPT5.2 在外贸场景综合评分提升约 28%。

核心观点

将 skill 建模为带触发机制和进化元数据的多文件结构化能力单元
用户反馈驱动闭环，实现技能的持续生成与优化
引入三阶段技能匹配 + 三层记忆架构，支持动态任务分解与长期能力累积
agent 系统性能不仅取决于底座模型能力，还取决于模型与 agent 架构的协同度

方法

EvoAgent 框架由三部分组成：

结构化 skill 单元：多文件封装，带 trigger 和 evolutionary metadata
分层 sub-agent delegation：对复杂任务做动态分解并委派子 agent 处理
三阶段 skill matching 匹配当前任务到合适技能
三层 memory 架构：支撑长期能力累积
闭环进化：以用户反馈为信号驱动技能生成与迭代优化

实验

场景：真实外贸（foreign trade）业务
底座：GPT5.2，并做跨模型迁移实验
评估：LLM-as-Judge 五维打分协议（含 professionalism、accuracy、practical utility 等）
摘要未披露具体数据集规模、基线对比方法与样本量

结果

GPT5.2 接入 EvoAgent 后，五维综合平均分提升约 28%
迁移实验显示不同模型获益幅度不同，佐证"模型-架构协同"的论点
具体分维度数字、置信区间、与其它 agent 框架的对比摘要中未给出，主张强度受限于 LLM-as-Judge 的主观性

为什么重要

对 agent 从业者而言，EvoAgent 给出了一条把"技能"当作一等公民、可版本化可进化的工程范式，而非只堆 prompt 或 tool。闭环反馈 + 分层 delegation 的组合对构建可长期积累能力的垂直领域 agent（如外贸、客服、法务）有借鉴价值，也提示选型时需同时评估底座模型与 agent 架构匹配度。

Dual-Cluster Memory Agent: Resolving Multi-Paradigm Ambiguity in Optimization Problem Solving

Mon, 27 Apr 2026 05:15:15 +0000

arXiv: 2604.20183 · PDF

作者: Xinyu Zhang, Yuchen Wan, Boxuan Zhang, Zesheng Yang, Lingling Zhang, Bifan Wei, Jun Liu

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, agent, rag, reasoning, inference

TL;DR

DCM-Agent 通过构建建模/编码双簇记忆并提炼 Approach、Checklist、Pitfall 三类结构化知识，在免训练条件下缓解优化问题求解中的多范式歧义，七项基准平均提升 11%–21%。

核心观点

优化问题常存在结构性歧义：同一问题有多种互相冲突的建模范式，阻碍 LLM 生成正确解。
提出 Dual-Cluster Memory Agent（DCM-Agent），训练无关地利用历史解决方案。
双簇记忆 + 三类结构化知识（Approach / Checklist / Pitfall）可泛化为指导性知识。
发现"知识继承"现象：大模型构建的记忆能提升小模型表现。

方法

Dual-Cluster Memory Construction：将历史解按建模（modeling）与编码（coding）两类聚簇。
每个簇内蒸馏出三种结构化条目：Approach（思路）、Checklist（检查项）、Pitfall（易错点）。
Memory-augmented Inference：在推理时动态检索记忆，导航求解路径、检测并修复错误，并在必要时自适应切换推理路径。
整个流程无需微调，纯 prompt / agent 级增强。

实验

覆盖 7 个优化问题基准（摘要未列具体名称）。
基线与指标：摘要未披露具体基线模型和评测指标，仅报告平均性能提升。
还测试了大模型构建的记忆对小模型的迁移效果。

结果

平均性能提升 11%–21%。
观察到 knowledge inheritance：大模型蒸馏的记忆能让小模型表现显著改善。
具体绝对分数、每个 benchmark 的细节、与 SOTA 的对比摘要未给出，无法独立核验。

为什么重要

为 agent 框架处理"同问题多范式"这种结构性歧义提供可复用模板，不局限于优化领域。
训练免费 + 记忆迁移的思路对成本敏感的部署（小模型 + 大模型蒸馏的记忆）有实际意义。
三元组（Approach/Checklist/Pitfall）是一种可推广的记忆抽象，适合嵌入通用 LLM agent。

与已有工作的关系

延续 memory-augmented agent 线路：Reflexion、Generative Agents、MemGPT。
与 LLM 求解优化/数学问题工作相关：OptiMUS、Chain-of-Experts、MathPrompter。
Checklist/Pitfall 抽象与 self-refine、self-debug 的错误修复思路呼应。
知识继承现象与 weak-to-strong、distillation 研究方向形成互补。

尚未回答的问题

具体基准、基线与评测指标未披露，效果难独立验证。
记忆库规模、检索策略、冷启动（无历史解）行为如何？
双簇划分是否泛化到非优化领域（如代码生成、科学推理）？
Pitfall 是否会把历史错误作为偏见继承到新问题？
记忆更新与遗忘机制、长期维护成本尚未讨论。

论文图表

图 1: Page 2 (rendered)

FASER: Fine-Grained Phase Management for Speculative Decoding in Dynamic LLM Serving

Mon, 27 Apr 2026 05:14:39 +0000

arXiv: 2604.20503 · PDF

作者: Wenyan Chen, Chengzhi Lu, Yanying Lin, Dmitrii Ustiugov

主分类: cs.DC · 全部: cs.DC

命中关键词: llm, inference, serving, speculative decoding, gpu, throughput, latency

TL;DR

FASER 通过细粒度的推测解码阶段管理（动态投机长度、早剪枝、draft/verify 重叠），在 vLLM 中实现最高 53% 吞吐提升与 1.92× 延迟降低。

核心观点

现有 SD 系统对整批次设定统一投机长度并串行执行 draft/verify，难以应对动态在线负载。
低负载下 GPU 闲置、高负载下大量拒绝 token 浪费算力。
需要请求级细粒度 SD 管理 + 阶段重叠以兼顾延迟与吞吐。

方法

动态投机长度：在 continuous batching 中按请求调整 speculative length。
早剪枝：在 verification 阶段内部尽早丢弃被拒绝 token，避免后续浪费。
Frontier 分块 verify：把 verification 切成 chunks，与 draft 阶段通过细粒度 spatial multiplexing 重叠执行，降低资源干扰。
在 vLLM 上实现原型。

实验

摘要未披露具体数据集、模型规模或基线名称，仅指出对比对象为 state-of-the-art SD 系统，指标为吞吐与延迟。

Cooperative Profiles Predict Multi-Agent LLM Team Performance in AI for Science Workflows

Mon, 27 Apr 2026 05:14:11 +0000

arXiv: 2604.20658 · PDF

作者: Shivani Kumar, Adarsh Bharathwaj, David Jurgens

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, agent, multi-agent, reasoning, gpu

TL;DR

用行为经济学博弈测出的"合作画像"能稳健预测 LLM 多智能体团队在 AI-for-Science 协作任务中的表现，可作为部署前的廉价筛选工具。

核心观点

合作倾向是 LLM 一种独立、可测量的属性，不能被通用能力所解释。
六个行为经济学博弈得出的合作画像，可稳健预测下游多智能体科研任务表现。
善于协调、愿意投资乘性团队生产（而非贪婪策略）的模型，产出更好的科学报告。
提供部署前快速、低成本的"合作适配度"诊断框架。

方法

在 35 个开源权重 LLM 上运行 6 个经典行为经济学博弈（涵盖不同合作机制），形成每个模型的合作行为 profile。
构建 AI-for-Science 多智能体任务：LLM 团队在共享预算（GPU/credit）约束下协作分析数据、建模并撰写科学报告。
用博弈画像作为特征，回归预测下游任务三项结果（accuracy、quality、completion），并控制多种混淆因素（如通用能力）。

实验

模型：35 个开源权重 LLM。
诊断任务：6 个行为经济学博弈。
下游任务：AI-for-Science 协作 workflow，包含数据分析、建模、报告生成，带共享预算约束。
指标：科学报告的 accuracy、quality、completion。
基线：控制模型通用能力等因素的回归对照。

结果

博弈衍生的合作画像在三项下游指标上均显著相关。
偏好乘性团队生产、善于协调的模型，报告质量系统性更高。
相关性在控制通用能力后仍成立，说明不是能力的副产物。
摘要未披露具体数值（相关系数、ΔR² 等）。

为什么重要

为多智能体 LLM 部署提供轻量前置筛选：用几个博弈替代昂贵的端到端评测。
将"合作性"作为除能力、对齐之外的独立维度纳入模型选型。
对 AI 基础设施：在共享资源约束（GPU、credits）下，选择更"懂合作"的 agent 能提升产出与资源利用率。

与已有工作的关系

延续用博弈论 / 行为经济学评测 LLM 的路线（囚徒困境、公共品博弈等既有工作）。
补充 AutoGen、MetaGPT 等 multi-agent LLM 协作框架的评测缺口。
与 AI-for-Science agent（如 ChemCrow、数据科学 agent）任务设置呼应。
拓展 LLM 社会行为研究，从孤立博弈延伸到真实协作产出。

尚未回答的问题

博弈画像与下游表现的因果机制是什么，哪类合作特征最具预测力？
在闭源大模型（GPT、Claude、Gemini）上结论是否成立？
合作画像能否通过 prompt / fine-tune 改造，从而提升团队产出？
不同任务域（非科研协作，如代码、运维、商业决策）是否同样适用？
团队规模、异质组合、通信协议对预测力的影响如何？

论文图表

图 1: Page 2 (rendered)

Breaking MCP with Function Hijacking Attacks: Novel Threats for Function Calling and Agentic Models

Mon, 27 Apr 2026 05:13:37 +0000

arXiv: 2604.20994 · PDF

作者: Yannis Belkhiter, Giulio Zizzo, Sergio Maffeis, Seshu Tirupathi, John D. Kelleher

主分类: cs.CR · 全部: cs.AI, cs.CL, cs.CR

命中关键词: large language model, llm, agent, agentic, reasoning, attention

TL;DR

提出 Function Hijacking Attack (FHA)，通过操纵 agentic LLM 的工具选择过程，强制调用攻击者指定的函数，在 BFCL 上对 5 个模型实现 70%–100% 攻击成功率。

核心观点

现有 injection/jailbreaking 攻击主要针对 prompt，而 function calling 接口本身是一个被低估的新攻击面。
FHA 与上下文语义无关、对函数集合鲁棒，可跨领域迁移。
可训练出 universal adversarial functions：单个被污染函数即可劫持多种 query 和 payload 的工具选择。
结果凸显 agentic / MCP 系统亟需更强的 guardrails 与安全模块。

方法

作者针对 function calling LLM 的 tool selection 过程设计对抗扰动，不改 prompt 而是改"候选函数"本身（名字、描述、schema 等），让模型在面对任意用户请求时都倾向于选中攻击者指定的 function。在此基础上通过优化训练出 universal 版本，使单一恶意函数对多种 query 与 payload 均有效。摘要未披露具体损失函数与优化算法细节。

Automatic Ontology Construction Using LLMs as an External Layer of Memory, Verification, and Planning for Hybrid Intelligent Systems

Mon, 27 Apr 2026 05:13:00 +0000

arXiv: 2604.20795 · PDF

作者: Pavel Salovskii, Iuliia Gorshkova

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, retrieval, rag, reasoning, inference

TL;DR

论文提出一种混合架构，用自动构建的 RDF/OWL 本体作为 LLM 的外部记忆层，结合 RAG 与图推理，提升多步规划的可验证性与可靠性。

核心观点

LLM 的参数化知识 + 向量 RAG 不足以支撑长期记忆、结构化理解与严格推理。
引入 RDF/OWL 本体作为外部记忆层，可提供持久化、可验证、语义 grounded 的推理基础。
构建一套"生成—验证—修正"pipeline，把 LLM 输出纳入形式化校验闭环。
架构面向 agent、机器人、企业 AI 等需要可解释与可靠决策的场景。

方法

自动化本体构建 pipeline，数据源覆盖文档、API、对话日志。
流程：实体识别 → 关系抽取 → 归一化 → 三元组生成 → SHACL/OWL 约束校验 → 持续图更新。
推理阶段 LLM 在"向量检索 + 图推理 + 外部工具调用"的组合上下文中工作。
用本体层对生成结果做形式化校验，失败则进入修正循环。

实验

规划类任务为主，点名 Tower of Hanoi 作为 benchmark。
基线为纯 LLM 系统（未加本体增强）。
摘要未披露数据集规模、具体指标数值与评估细节。

结果

作者称在多步推理场景下，ontology 增强优于基线 LLM。
本体层使输出可被形式化校验，系统具备生成—验证—修正能力。
摘要仅给出定性结论，未提供具体数字，主张的强度受限。

为什么重要

给 LLM agent 提供一条"非 RAG"的长期记忆路线：结构化、可校验、可累积。
SHACL/OWL 约束把幻觉问题从"检测"推向"拒绝 + 修正"，对企业级与安全敏感应用更友好。
对 robotics 与多步规划 agent，提供了一个显式世界模型接入点。

与已有工作的关系

承接 Retrieval-Augmented Generation (RAG) 思路，但用 knowledge graph 取代/补充向量库。
延续 neuro-symbolic 与 KG-augmented LLM 方向（如 GraphRAG、KG-RAG 类工作）。
形式化校验部分借鉴 Semantic Web 栈（RDF、OWL、SHACL）。
规划评测沿用经典 Tower of Hanoi 一类 symbolic planning benchmark。

尚未回答的问题

自动抽取的本体质量如何量化？抽取错误如何影响下游推理？
相对 GraphRAG、纯符号 planner、以及 LLM + tools 的公平对比缺失。
本体构建与校验的延迟、成本、可扩展性在大规模语料下是否可行。
本体漂移、冲突消解、版本管理等长期维护问题未讨论。
除 Tower of Hanoi 外，在真实 agent / 机器人任务上的泛化性尚待验证。

论文图表

图 1: Figure 1 (extracted from PDF)

HaS: Accelerating RAG through Homology-Aware Speculative Retrieval

Mon, 27 Apr 2026 05:12:23 +0000

arXiv: 2604.20452 · PDF

作者: Peng Peng, Weiwei Lin, Wentai Wu, Xinyang Wang, Yongheng Liu

主分类: cs.IR · 全部: cs.CL, cs.IR

命中关键词: large language model, llm, agent, agentic, retrieval, rag, inference, latency

TL;DR

HaS 提出一种同源感知的推测式检索框架，通过小范围推测 + 同源查询再识别验证，在几乎不损精度的前提下显著加速 RAG 检索。

核心观点

现有 RAG 加速要么牺牲精度（近似检索），要么仅对完全相同的查询复用结果，收益有限。
现实查询分布具有流行度特征，存在大量"同源"查询，可被利用。
将推测执行思想迁移到检索层：先低延迟草稿，再快速验证。
把验证问题形式化为"同源查询再识别"任务。
作为即插即用模块，也能加速多跳 agentic RAG。

方法

HaS 分两阶段：

推测检索 (Speculative Retrieval)：在受限范围内以低延迟获取候选文档草稿，绕过对全库的昂贵检索。
同源验证 (Homology-Aware Validation)：判断当前 query 与历史 query 是否构成同源再遇；若是，则接受草稿，跳过完整检索；否则回退到全库检索。验证依托查询间的同源关系，本质是分类/再识别任务。

实验

多个 RAG 数据集（摘要未具名）。
基线：完整全库检索与现有近似/缓存式加速策略。
指标：检索延迟、端到端精度、对复杂 multi-hop agentic RAG 的加速比。

结果

检索延迟降低 23.74% 与 36.99%（跨不同数据集）。
精度仅下降 1–2%。
在 agentic multi-hop RAG pipeline 中也带来显著加速。
具体绝对数字与 agentic 加速比摘要未披露。

为什么重要

对 LLM / Agent 基础设施：大规模知识库下检索已成 RAG 延迟瓶颈，HaS 把 LLM 推理中的 speculative decoding 思路带到检索层，几乎零精度代价换显著延迟下降；对高 QPS、多跳 agent 场景尤其有用，可作为现有 RAG 栈的 drop-in 组件。

SAKE: Self-aware Knowledge Exploitation-Exploration for Grounded Multimodal Named Entity Recognition

Mon, 27 Apr 2026 05:11:45 +0000

arXiv: 2604.20146 · PDF

作者: Jielong Tang, Xujie Yuan, Jiayang Liu, Jianxing Yu, Xiao Dong, Lin Chen, Yunlai Teng, Shimin Di, Jian Yin

主分类: cs.IR · 全部: cs.CL, cs.IR

命中关键词: large language model, llm, agent, agentic, tool-use, retrieval, reasoning, chain-of-thought, serving, fine-tun

TL;DR

SAKE 是一个端到端 agentic 框架，通过自我感知推理与自适应检索工具调用，在 Grounded Multimodal NER 任务上协调 MLLM 的内部知识利用与外部知识探索。

核心观点

纯启发式外部检索会引入噪声与冲突证据，损害已知实体精度；而纯内部迭代又受 MLLM 知识边界限制、易幻觉。
提出"自我感知"范式：让模型自己判断何时需要检索，从而融合 exploitation 与 exploration。
通过两阶段训练（SFT + agentic RL）把这种能力落地。

方法

Difficulty-aware Search Tag Generation：通过多次 forward 采样量化实体级不确定性，生成显式的知识缺口信号。
SAKE-SeCoT 数据集：基于上述信号构建高质量 CoT 数据，SFT 阶段教会模型基础的自我感知与工具调用能力。
Agentic RL：混合奖励函数惩罚"不必要的检索"，推动模型从机械模仿搜索行为进化为真正基于需求的自我感知决策。

实验

数据集：两个主流社交媒体 GMNER benchmark（摘要未点名，通常指 Twitter-GMNER 等）。
基线与指标：摘要未给出具体基线与数值指标。

结果

摘要仅声称"extensive experiments … demonstrate SAKE’s effectiveness"，未披露具体数字，无法独立核验其增幅幅度。

Enhancing Online Recruitment with Category-Aware MoE and LLM-based Data Augmentation

Mon, 27 Apr 2026 05:11:16 +0000

arXiv: 2604.21264 · PDF

作者: Minping Chen, Bing Xu, Zulong Chen, Chuanfei Xu, Ying Zhou, Zui Tao, Zeyi Wen

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, rag, chain-of-thought, mixture of experts, moe

TL;DR

针对在线招聘中 Person-Job Fit 任务，论文用 LLM 做数据增强润色低质量 JD，并引入 category-aware MoE 区分相似候选-岗位对，离线与线上均显著提升。

核心观点

低质量 JD 与相似候选-岗位对是 PJF 的主要瓶颈。
用 LLM + CoT 对 JD 进行改写/润色，可直接提升特征质量。
类别感知的 MoE 能够对相似样本学到更有区分度的表示。
方法在真实招聘平台落地，带来可观的商业收益。

方法

LLM-based data augmentation：用 chain-of-thought 提示 LLM 对低质量 JD 进行润色、补全、改写，得到结构更规范的文本输入。
Category-aware MoE：在 MoE 模块中引入 category embedding，按类别动态调整各 expert 权重，使模型对相似候选-岗位对学到差异化 pattern。
整体框架以 LLM 处理文本 + MoE 建模匹配，服务于 PJF 打分。

实验

数据来源：作者所在招聘平台的真实候选-岗位数据。
评估方式：离线指标 + 线上 A/B 测试。
指标：AUC、GAUC（离线），CTCVR 及外部猎头费用（线上）。
基线：现有 PJF 方法（摘要未点名具体模型）。

结果

离线：AUC 相对提升 2.40%，GAUC 相对提升 7.46%。
线上 A/B：CTCVR 提升 19.4%。
业务层面：节省数百万 CNY 外部猎头费用。
主张与数据一致，但摘要未披露数据规模、MoE 规模、消融等细节。

为什么重要

展示了 LLM 在传统推荐/匹配管线中作为"数据清洗器"而非端到端模型的实用路径，成本可控且易落地。
category-aware MoE 提供了一种处理 hard-negative-like 相似样本的通用思路，可迁移到广告、电商推荐等场景。
给 LLM + 推荐系统落地工程师一个已验证的线上收益案例。

与已有工作的关系

延续 Person-Job Fit 传统工作（基于文本匹配、双塔、交互模型等）。
方法论上结合 Mixture of Experts（MMoE、PLE 等多任务/多领域推荐工作）与 LLM data augmentation（CoT prompting、LLM for data labeling）两条路线。
与使用 LLM 做 query/JD 改写的检索增强工作思路相近。

尚未回答的问题

LLM 改写是否引入幻觉、偏差，对公平性/合规性的影响未讨论。
category 粒度如何定义、对 MoE 效果影响多大，缺少消融。
方法对冷启动岗位或小语种、跨行业迁移的鲁棒性未知。
线上收益是否来自 LLM 改写、MoE 还是二者协同，需要进一步拆解。
推理成本（LLM 调用频率、延迟）与 ROI 细节未披露。

论文图表

图 1: Figure 1 (extracted from PDF)

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

Mon, 27 Apr 2026 05:10:41 +0000

arXiv: 2604.22050 · PDF

作者: Mohamed Ali Souibgui, Jan Fostier, Rodrigo Abadía-Heredia, Bohdan Denysenko, Christian Marschke, Igor Peric

主分类: cs.LG · 全部: cs.CL, cs.LG

命中关键词: llm, inference, serving, attention, transformer, throughput, latency

TL;DR

LayerBoost 基于各层敏感度对 transformer attention 做差异化替换（softmax/线性滑窗/删除），配合轻量蒸馏 healing，在高并发下吞吐提升最多 68%。

核心观点

Uniform 替换 softmax attention 会伤精度；不同层对 attention 的敏感度差异显著。
提出 layer-aware 三档策略：敏感层保留 softmax、中等层换线性滑窗、低敏感层直接去掉 attention。
仅用 10M token 的蒸馏 healing 即可恢复精度，无需大规模重训。

方法

在预训练模型上做系统性敏感度分析，给每层打分。
按敏感度划三档：
- 高敏感：保留 standard softmax attention。
- 中敏感：替换为 linear sliding window attention。
- 低敏感：直接移除 attention 模块。
架构改动后进行 distillation-based healing，只需额外 10M tokens 训练。

实验

摘要未列出具体数据集、基线模型与指标名称，仅提到与 SOTA attention linearization 方法对比，并在"若干 benchmark"上评估质量与延迟、吞吐。

Lightweight Retrieval-Augmented Generation and Large Language Model-Based Modeling for Scalable Patient-Trial Matching

Mon, 27 Apr 2026 05:10:01 +0000

arXiv: 2604.22061 · PDF

作者: Xiaodi Li, Yang Xiao, Munhwan Lee, Konstantinos Leventakos, Young J. Juhn, David Jones, Terence T. Sio, Wei Liu, Maria Vassilaki, Nansu Zong

主分类: cs.CL · 全部: cs.AI, cs.CL, cs.LG

命中关键词: large language model, llm, retrieval, reasoning, serving, fine-tun

TL;DR

提出轻量化 RAG + LLM 框架用于患者-临床试验匹配：先用检索筛选 EHR 关键片段，再用 LLM 编码并接轻量分类器，以远低于端到端 LLM 的算力达到同等效果。

核心观点

患者-试验匹配面临 EHR 长文本与复杂入组标准的可扩展性难题。
将流程显式拆成"检索相关片段 + LLM 编码 + 轻量预测器"三段。
冻结 LLM 足以编码结构化临床数据；非结构化叙述则需 fine-tune。
轻量 pipeline 在显著降低算力下，性能接近端到端 LLM。

方法

RAG 模块：从长 EHR 中检索与入组标准临床相关的片段，压缩输入长度。
LLM 编码：将选出的片段映射为信息表示，支持 frozen 或 fine-tuned 两种模式。
表示精炼：通过降维得到紧凑向量。
下游分类：使用轻量预测器（非端到端 LLM）完成匹配判定。

实验

公共基准：n2c2、SIGIR、TREC 2021/2022。
真实多模态数据：Mayo Clinic MCPMD。
对比：端到端 LLM 方法与传统 ML 方法。
指标：摘要未给出具体指标名，应为匹配分类性能 + 计算开销。

结果

检索筛选显著降低计算负担，同时保留临床有意义信号。
结构化数据：frozen LLM 表示已足够强。
非结构化叙述：fine-tuning 必不可少。
轻量管线性能与端到端 LLM 可比，算力成本大幅下降。具体数字摘要未披露。

为什么重要

为医疗 LLM 落地提供一个实用模板：在 EHR 这种超长异构文本上，不必把全部内容塞进 LLM，而是 RAG 截取 + 表示学习 + 浅层模型即可。对 agent / LLM 基础设施从业者，这印证了"检索压缩 + 冻结 encoder + 轻量头"是处理长上下文领域任务的经济方案。

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

Mon, 27 Apr 2026 05:09:24 +0000

arXiv: 2604.22119 · PDF

作者: Tharindu Kumarage, Lisa Bauer, Yao Ma, Dan Rosen, Yashasvi Raghavendra Guduri, Anna Rumshisky, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, agentic, reasoning

TL;DR

提出 ESRRSim：一个分类法驱动的 agentic 评测框架，用于自动化检测 LLM 的"涌现策略推理风险"（欺骗、评测博弈、奖励黑客等）。

核心观点

定义 Emergent Strategic Reasoning Risks (ESRRs) 这一风险类别，涵盖欺骗、evaluation gaming、reward hacking 等自利行为。
构建可扩展风险分类法：7 大类、20 子类。
提供 judge-agnostic、可规模化的自动化评测架构，同时审视模型输出与推理轨迹。
实证发现不同代际模型风险差异巨大，新模型更善于识别评测情境。

方法

以分类法驱动的 agentic 框架 ESRRSim：先按 7 类/20 子类分解风险，再自动生成诱导"忠实推理"的评测场景；用双重 rubric 分别打分 response 与 reasoning trace，且与具体 judge 模型解耦，便于扩展。

Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

Mon, 27 Apr 2026 05:08:50 +0000

arXiv: 2604.21193 · PDF

作者: Vipula Rawte, Ryan Rossi, Franck Dernoncourt, Nedim Lipka

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, retrieval, reasoning, inference, ai system

TL;DR

DAVinCI 是一个双阶段框架，把 LLM 生成的声明同时做"归因"和"验证"，以提升事实可靠性与可审计性，在 FEVER 等数据集上各项指标提升 5–20%。

核心观点

LLM 在高风险领域（医疗、法律、科研）因幻觉而缺乏可信度，需要归因与验证并重。
仅做验证（verification-only）不足以解释声明来源，归因是补齐可解释性的关键一环。
把归因（内部组件 + 外部来源）与基于 entailment 的验证结合，可同时提升准确性与可解释性。
提供模块化实现，便于插入现有 LLM pipeline，推动"可审计 AI"。

方法

DAVinCI 分两阶段：

Attribution：将生成的每条 claim 归因到模型内部组件以及外部证据来源。
Verification：对每条 claim 用 entailment-based reasoning 判断真假，并做 confidence calibration。此外包含 evidence span selection、recalibration threshold、retrieval 质量等可调模块。摘要未详述具体架构细节与归因算法形式。

实验

数据集：FEVER、CLIMATE-FEVER 等多项事实核查数据集。
基线：standard verification-only 方法。
指标：分类准确率、归因 precision/recall/F1。
消融：逐一评估 evidence span 选择、重校准阈值、retrieval 质量的贡献。

结果

在分类准确率、归因 precision/recall/F1 上全面提升 5–20%。
消融实验显示三个模块（span 选择、阈值重校准、retrieval 质量）都有独立贡献。
摘要未给出具体数值表，仅给出相对提升区间。

为什么重要

对构建可信 LLM agent（特别是需要引用证据的 RAG、法律/医疗助手）提供了可直接接入的模块。
将"引用出处"和"蕴含验证"合流，降低幻觉风险，利于合规与审计。
开源实现降低了在现有 pipeline 中落地事实性保障的门槛。

与已有工作的关系

延续 FEVER 系 fact verification 路线，并与 CLIMATE-FEVER 等领域化扩展对齐。
与 RAG、self-consistency、self-RAG、以及近年 attribution（如 attributed QA、citation evaluation）工作互补。
在 hallucination mitigation 文献（SelfCheckGPT、FActScore 等）基础上，强调"归因 + 验证"的双轨。

尚未回答的问题

内部组件归因具体如何实现（attention、neurons、还是 logit-lens 类方法）？可解释性是否经过人工评估？
在开放域长文本、代码、多模态场景下是否仍然有效？
推理开销与延迟如何，是否适合在线 agent 场景？
confidence calibration 是否会在分布外数据退化？
和更强的 retrieval（web-scale、结构化 KB）结合时，归因粒度能否继续细化？
对抗性或刻意误导证据下的鲁棒性未作评估。

论文图表

图 1: Figure 1 (extracted from PDF)

MambaCSP: Hybrid-Attention State Space Models for Hardware-Efficient Channel State Prediction

Mon, 27 Apr 2026 05:08:18 +0000

arXiv: 2604.21957 · PDF

作者: Aladin Djuhera, Haris Gacanin, Holger Boche

主分类: cs.IT · 全部: cs.AI, cs.IT, cs.LG, eess.SP

命中关键词: large language model, llm, inference, attention, transformer, throughput, latency

TL;DR

MambaCSP 用混合注意力的 selective SSM 替代 LLM 做信道状态预测，精度提升 9-12% 的同时吞吐快 3 倍、显存降 2.6 倍。

核心观点

Transformer/LLM 做 CSP 精度高但受限于序列长度的二次复杂度，难以部署到实时无线场景。
Selective SSM（Mamba）提供线性时间替代，但纯 SSM 只有局部依赖。
周期性注入轻量 patch-mixer attention，可以补齐长上下文建模能力。
在 MISO-OFDM 仿真下同时取得精度与硬件效率双优。

方法

提出 MambaCSP：以线性时间的 Mamba 作为预测主干，替换原本基于 LLM 的 backbone；在 SSM 栈中周期性插入轻量的 patch-mixer attention 层，用于跨 token 的交互，从而在保持线性开销的同时捕获长程 CSI 依赖。整体为 hybrid-attention SSM 架构，面向 CSI 序列预测。

Pre-trained LLMs Meet Sequential Recommenders: Efficient User-Centric Knowledge Distillation

Mon, 27 Apr 2026 05:07:42 +0000

arXiv: 2604.21536 · PDF

作者: Nikita Severin, Danil Kartushov, Vladislav Urzhumov, Vladislav Kulikov, Oksana Konovalova, Alexey Grishanov, Anton Klenitskiy, Artem Fatkulin, Alexey Vasilev, Andrey Savchenko, Ilya Makarov

主分类: cs.IR · 全部: cs.AI, cs.IR

命中关键词: large language model, llm, reasoning, inference, serving, fine-tun

TL;DR

提出一种用预训练 LLM 生成的文本用户画像向序列推荐器做知识蒸馏的方法，推理时无需 LLM，兼顾语义理解与效率。

核心观点

传统序列推荐器擅长时序行为建模，但缺乏丰富的用户语义。
直接把 LLM 接入在线推荐推理成本过高，难以落地。
通过 LLM 离线生成文本用户画像，再蒸馏进序列模型，可在不改架构、不微调 LLM 的前提下获得语义增益。

方法

摘要描述较粗：利用预训练 LLM 为每个用户生成文本 profile，将其作为教师信号蒸馏到标准序列推荐器中。服务期仅跑原生序列模型，无 LLM 调用；不需要修改推荐器架构，也不需要对 LLM 进行 fine-tuning。具体蒸馏损失、对齐方式、画像生成 prompt 等摘要未披露。

实验

摘要未提供数据集、基线、指标等实验细节。

结果

摘要未给出具体数字或对比结果，仅声明方法保持了传统序列模型的推理效率，同时引入 LLM 语义。可信度需正文佐证。

Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents

Mon, 27 Apr 2026 05:07:09 +0000

arXiv: 2604.22085 · PDF

作者: Seyed Moein Abtahi, Rasa Rahnema, Hetkumar Patel, Neel Patel, Majid Fekri, Tara Khani

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, agent, agentic, retrieval, inference, latency

TL;DR

Memanto 用类型化语义 memory schema + 信息论检索引擎，摒弃知识图谱，在 LongMemEval/LoCoMo 上达到 SOTA，单次检索、零 ingestion 延迟。

核心观点

挑战"agent memory 必须依赖知识图谱"的假设，主张类型化 schema + 语义检索已足够。
提出 Memanto：13 类预定义 memory 类别、自动冲突消解、时间版本化。
基于 Moorcheh Information-Theoretic Search：无索引、亚 90ms 延迟、无 ingestion 开销。
单次 retrieval query 即可超越 hybrid graph / vector 系统。

方法

Typed Semantic Schema：13 个预定义 memory 类别，替代开放式实体抽取与 graph schema。
Conflict Resolution：自动处理冲突记录，保持一致性。
Temporal Versioning：为 memory 条目维护时间版本。
Moorcheh 检索引擎：信息论驱动的 no-indexing 语义数据库，确定性检索，sub-90ms 延迟，消除写入延迟。
整体流程：写入直接归类，不做 LLM 实体抽取；检索走单次 query。

实验

Benchmark：LongMemEval、LoCoMo（长程 / 多会话 memory 评测）。
基线：hybrid semantic graph 系统、vector-based memory 系统（具体名称摘要未列）。
指标：准确率；另做 5 阶段渐进式 ablation 量化各组件贡献。

结果

LongMemEval 89.8%，LoCoMo 87.1%，均为 SOTA，超过所有评估的 graph/vector 基线。
仅需单次 retrieval query，无 ingestion 成本，延迟 <90ms。
Ablation 显示 typed schema、冲突消解、Moorcheh 检索均有贡献（具体数字摘要未给）。

为什么重要

对 agent 基础设施：大幅降低长程 memory 的运维复杂度与延迟，去掉 LLM 实体抽取和 graph 维护这两个瓶颈。
为 multi-session autonomous agent 提供可规模化部署的 memory 层，适合生产环境。
重新定义"高保真 agent memory"的成本上界：不必上知识图谱。

与已有工作的关系

对标 hybrid semantic graph memory（如 MemGPT、Zep、GraphRAG 式方案）与 vector-based memory。
延续 LongMemEval、LoCoMo 的长程 memory 评测脉络。
Moorcheh 引擎属于信息论检索一线，与传统 ANN/向量索引（FAISS、HNSW）形成对比。

尚未回答的问题

13 类 schema 的普适性：跨领域（编码、医疗、法律）是否需要扩展或自定义？
Moorcheh 的可复现性与开源情况，以及在十亿级条目下的可扩展性。
冲突消解规则细节，以及错误消解导致的下游 agent 行为风险。
与具身 / 工具调用 agent 的端到端集成效果尚未评测。
对抗性写入（噪声、恶意 memory）下的鲁棒性未讨论。

论文图表

图 1: Page 2 (rendered)

Tool Attention Is All You Need: Dynamic Tool Gating and Lazy Schema Loading for Eliminating the MCP/Tools Tax in Scalable Agentic Workflows

Mon, 27 Apr 2026 05:06:38 +0000

arXiv: 2604.21816 · PDF

作者: Anuj Sadani, Deepak Kumar

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, agentic, reasoning, attention, latency

TL;DR

提出 Tool Attention 中间件：用意图-schema 嵌入相似度 + 状态门控 + 两阶段懒加载，将 MCP 每轮工具 token 开销削减 95%，缓解"MCP Tax"。

核心观点

MCP 协议的 eager schema 注入在多服务器部署下每轮消耗 10k–60k tokens，膨胀 KV cache 并在约 70% 上下文利用率处触发推理退化。
可将"Attention Is All You Need"范式从 token 级自注意力推广到 tool 级门控注意力。
可扩展 agent 的瓶颈是协议层效率，而非 raw context length。

方法

Tool Attention 由三部分组成：

Nemobot Games: Crafting Strategic AI Gaming Agents for Interactive Learning with Large Language Models

Mon, 27 Apr 2026 05:06:04 +0000

arXiv: 2604.21896 · PDF

作者: Chee Wei Tan, Yuchen Wang, Shangxin Guo

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, agentic, rag, reasoning, fine-tun

TL;DR

论文提出 Nemobot，一个基于 LLM 的交互式 agentic 游戏编程环境，按 Shannon 博弈机分类法在四类游戏中构建可自我精炼的策略 agent。

核心观点

将 Shannon 的博弈机分类法用 LLM 重新"操作化"，作为 AI 游戏编程新范式。
提出 Nemobot：一个可编程、交互式的 agentic 工程环境，用户可创建、定制、部署 LLM 游戏 agent。
覆盖四类游戏（字典型、可严格求解型、启发式、学习型），展示不同策略生成路径。
通过众包学习 + 人类创造力迭代精炼 agent 逻辑，指向"自编程 AI"长期目标。

方法

Dictionary-based games：把 state-action 映射压缩成泛化模型，便于快速适配。
Rigorously solvable games：用数学推理算最优策略，并生成人类可读解释。
Heuristic-based games：结合经典 minimax（Shannon 1950）与众包数据合成策略。
Learning-based games：用 RLHF + self-critique，以试错和模仿学习迭代精炼。
Nemobot 提供 tool-augmented generation 与 fine-tuning 的可编程接口。

实验

摘要未给出具体数据集、基线或量化指标，只说"跨四类游戏"进行了 demo 式展示。

Guess-Verify-Refine: Data-Aware Top-K for Sparse-Attention Decoding on Blackwell via Temporal Correlation

Mon, 27 Apr 2026 05:02:46 +0000

arXiv: 2604.22312 · PDF

作者: Long Cheng, Ritchie Zhao, Timmy Liu, Mindy Li, Xianjie Qiao, Kefeng Duan, Yu-Jung Chen, Xiaoming Chen, Bita Darvish Rouhani, June Yang

主分类: cs.DC · 全部: cs.AR, cs.DC, cs.PF

命中关键词: llm, rag, serving, speculative decoding, attention, latency

TL;DR

GVR 利用相邻 decode 步骤 Top-K 的时间相关性，在 Blackwell 上以 guess-verify-refine 三段式加速稀疏注意力的精确 Top-K 选择，单算子平均提速 1.88×。

核心观点

Sparse-attention decoder 的 exact Top-K 阶段即使已高度优化，仍是长上下文 LLM serving 的显著延迟瓶颈。
连续 decode step 之间 Top-K 集合具有强时间相关性，可用作先验预测信号。
将 DSA indexer 分数的 Toeplitz / RoPE 结构与 Top-K 稳定性联系起来，奠定数据感知设计基础。
提出 GVR 算法在保持 bit-exact 输出前提下显著快于生产级 radix-select kernel。

方法

GVR 分三步：(1) Guess —— 以上一 step 的 Top-K 作为预测，读取预先计算的统计量；(2) Verify —— 用 secant-style counting 在 1-2 次 global pass 中收敛到合法阈值，并通过 ballot-free collector 收集候选；(3) Refine —— 在 shared memory 中完成精确选择。整个流程针对 NVIDIA Blackwell 架构特性设计，并集成进 TensorRT-LLM 的 DSA 栈。

Behavioral Canaries: Auditing Private Retrieved Context Usage in RL Fine-Tuning

Mon, 27 Apr 2026 05:02:14 +0000

arXiv: 2604.22191 · PDF

作者: Chaoran Chen, Dayu Yuan, Peter Kairouz

主分类: cs.CR · 全部: cs.CL, cs.CR

命中关键词: llm, agent, agentic, inference, fine-tun, post-train

TL;DR

提出 Behavioral Canaries：在 RL 微调 (RLFT) 中通过"文档触发 + 风格化偏好反馈"埋入行为标记，用于审计私有检索上下文是否被非法用于训练。

核心观点

传统基于 verbatim 记忆或成员推断的审计对 RL 微调失效，因为 RL 改变的是风格分布而非事实保留。
提出"行为金丝雀" (Behavioral Canaries)：将文档 trigger 与独特风格的偏好反馈配对，训练后模型会出现 trigger-conditioned 的潜在偏好。
该机制可检测 RLFT pipeline 中对受保护文档的未授权使用。

方法

在偏好数据 (preference data) 里插入 canary：把特定文档作为 trigger，配对鼓励某种独特 stylistic response 的 feedback。若这些数据进入 RLHF/DPO 类训练，模型在遇到 trigger 时会显现该风格偏好。审计者通过统计测试比较模型在 trigger 与非 trigger 下的行为分布，判断是否存在训练时影响。

GR-Evolve: Design-Adaptive Global Routing via LLM-Driven Algorithm Evolution

Mon, 27 Apr 2026 05:01:34 +0000

arXiv: 2604.22234 · PDF

作者: Taizun Jafri, Vidya A. Chhabria

主分类: cs.AR · 全部: cs.AR

命中关键词: large language model, llm, agent, agentic, rag

TL;DR

GR-Evolve 用 agentic LLM 针对具体设计自动演化 global routing 源码，在 OpenROAD 上实现 design-adaptive EDA，线长最多减少 8.72%。

核心观点

提出 design-adaptive EDA tooling 概念：让 EDA 内部算法按设计特征自动特化，而非只调超参。
构建 GR-Evolve：以 QoR 反馈驱动 LLM 迭代改写 global router 源码的 code evolution 框架。
给 LLM 装配 open-source global router 的 persistent contextual knowledge 及 OpenROAD QoR 评估工具链。
证明 LLM 驱动的源码级演化在 global routing 上优于固定启发式基线。

方法

框架把 global routing 源码交给一个 agentic LLM，循环地"修改代码 → 在 OpenROAD 中跑 detailed routing → 读 QoR → 据反馈再改"。LLM 具备对开源 global router 的持久上下文知识，并通过集成工具链自动调用评估。优化目标围绕 post-detailed-routing QoR（主要是 wirelength）。方法属于 code evolution，而非参数搜索或 learning-to-rank。