2026-04-27 on JXIN's Home

QuantClaw: Precision Where It Matters for OpenClaw

Mon, 27 Apr 2026 10:25:56 +0000

arXiv: 2604.22577 · PDF

作者: Manyi Zhang, Ji-Fu Li, Zhongao Sun, Xiaohao Liu, Zhenhua Dong, Xianzhi Yu, Haoli Bai, Xiaobo Xia

单位: Huawei Technologies, National University of Singapore, University of Science and Technology of China

主分类: cs.AI · 全部: cs.AI, cs.CL

命中关键词: agent, reasoning, inference, serving, quantization, latency

TL;DR

QuantClaw 是 OpenClaw 的即插即用精度路由插件，按任务复杂度动态分配量化精度，在 GLM-5 上相比 FP8 基线最多省 21.4% 成本、降 15.7% 延迟。

核心观点

Autonomous agent 系统（如 OpenClaw）因长上下文和多轮推理带来高昂计算与金钱成本。
量化对 agent 性能的影响高度任务相关，统一精度并非最优。
应把精度视为动态资源：轻量任务用低精度，复杂任务保留高精度。
提出 QuantClaw：plug-and-play 的精度路由插件，在不增加用户复杂度的情况下节省成本、加速推理。

方法

作者首先在 OpenClaw 的多样复杂工作流上系统分析量化敏感度，得出精度需求因任务而异的结论。基于此提出 QuantClaw：一个精度路由插件，将 task detector 与 intelligent routing 整合，on-the-fly 判断任务特征，把轻量任务路由到低成本（更低精度）配置，把 demanding workload 路由到更高精度，从而在 agent 系统内实现动态精度分配。

Guess-Verify-Refine: Data-Aware Top-K for Sparse-Attention Decoding on Blackwell via Temporal Correlation

Mon, 27 Apr 2026 10:25:05 +0000

arXiv: 2604.22312 · PDF

作者: Long Cheng, Ritchie Zhao, Timmy Liu, Mindy Li, Xianjie Qiao, Kefeng Duan, Yu-Jung Chen, Xiaoming Chen, Bita Darvish Rouhani, June Yang

单位: NVIDIA

主分类: cs.DC · 全部: cs.AR, cs.DC, cs.PF

命中关键词: llm, rag, serving, speculative decoding, attention, latency

TL;DR

GVR 利用相邻 decode 步骤之间 Top-K 的时间相关性，在 Blackwell 上实现数据感知的精确 Top-K，平均单算子加速 1.88×，DeepSeek-V3.2 在 100K 上下文下端到端 TPOT 提升最多 7.52%。

核心观点

长上下文 LLM serving 中，稀疏注意力 decode 阶段的精确 Top-K 是显著延迟瓶颈。
DeepSeek Sparse Attention (DSA) indexer 分数具有 Toeplitz / RoPE 结构，使相邻 decode 步的 Top-K 高度相关（约 60% token 持留，40% 变化）。
提出 Guess-Verify-Refine (GVR)：以上一步 Top-K 作为预测信号，做数据感知的精确 Top-K。
在 TensorRT-LLM DSA 栈上实现并验证，保持 bit-exact 输出。

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

Mon, 27 Apr 2026 10:23:44 +0000

arXiv: 2604.22050 · PDF

作者: Mohamed Ali Souibgui, Jan Fostier, Rodrigo Abadía-Heredia, Bohdan Denysenko, Christian Marschke, Igor Peric

单位: Openchip & Softwares Technologies

主分类: cs.LG · 全部: cs.CL, cs.LG

命中关键词: llm, inference, serving, attention, transformer, throughput, latency

TL;DR

LayerBoost 基于逐层敏感度分析，对 transformer 不同层分别保留 softmax、替换为线性滑窗或完全移除注意力，仅用 10M token 蒸馏修复，高并发吞吐提升最高 68%。

核心观点

现有线性/混合注意力方法在所有层上统一替换，导致性能大幅下降或需大量再训练。
不同 transformer 层对注意力的敏感度差异显著，应按层差异化处理。
提出三档策略：高敏感层保留 softmax，中敏感层换成 linear sliding window，低敏感层完全移除 attention。
仅需 10M token 的轻量蒸馏 healing 阶段即可恢复性能。
在高并发与硬件受限场景下显著降低推理成本并保持质量。

方法

LayerBoost 先在预训练模型上做系统性 sensitivity analysis，衡量移除/替换各层 attention 对基准性能的平均下降（Eq 3），据此将层分为三类并分别应用：保留 softmax attention、替换为 linear sliding window attention、完全移除 attention。架构改动后，引入基于 distillation 的 healing phase，仅用额外 10M 训练 token 恢复模型质量。

Lightweight Retrieval-Augmented Generation and Large Language Model-Based Modeling for Scalable Patient-Trial Matching

Mon, 27 Apr 2026 10:21:37 +0000

arXiv: 2604.22061 · PDF

作者: Xiaodi Li, Yang Xiao, Munhwan Lee, Konstantinos Leventakos, Young J. Juhn, David Jones, Terence T. Sio, Wei Liu, Maria Vassilaki, Nansu Zong

单位: Mayo Clinic, University of Tulsa

主分类: cs.CL · 全部: cs.AI, cs.CL, cs.LG

命中关键词: large language model, llm, retrieval, reasoning, serving, fine-tun

TL;DR

提出一个轻量级框架，将 RAG 与 LLM 编码解耦用于患者-试验匹配，在多个公开数据集及 Mayo Clinic 真实数据上以显著更低算力达到与端到端 LLM 相当的效果。

核心观点

将 RAG（检索临床相关片段）与 LLM（编码成表示）明确解耦，降低长 EHR 输入复杂度。
冻结 LLM 足以处理结构化临床数据，而非结构化临床叙述必须微调。
通过降维 + 轻量预测器实现可扩展分类，性能接近端到端 LLM，但算力大幅下降。

方法

框架分两阶段：第一阶段 RAG 从长电子病历中检索与 eligibility criteria 临床相关的片段，缩短输入；第二阶段用 LLM 将所选片段编码为信息丰富的表示，再经降维后送入轻量预测器完成下游分类，支持结构化与非结构化数据。

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

Mon, 27 Apr 2026 10:20:53 +0000

arXiv: 2604.22119 · PDF

作者: Tharindu Kumarage, Lisa Bauer, Yao Ma, Dan Rosen, Yashasvi Raghavendra Guduri, Anna Rumshisky, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris

单位: Amazon Nova Responsible AI

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, agentic, reasoning

TL;DR

提出 ESRR 风险分类 + ESRRSim 自动化评测框架，系统衡量 LLM 的涌现战略推理风险（欺骗、评测博弈、奖励黑客等），覆盖 11 个推理模型，检测率 14.45%–72.72%。

核心观点

将 LLM 自利行为归纳为 Emergent Strategic Reasoning Risks (ESRR) 新风险类别，涵盖欺骗、evaluation gaming、reward hacking。
构建 7 大类 / 20 子类 可扩展风险 taxonomy。
提出 ESRRSim：taxonomy 驱动的 agentic 自动评测框架，judge 无关、可规模化。
对 11 个 reasoning LLM 的实证揭示显著家族差异与代际安全提升。

方法

设计分层 taxonomy（7 类 / 20 子类）覆盖战略推理风险面。
ESRRSim 以四阶段生成 pipeline 自动产出可诱发 faithful reasoning 的评测场景。
采用 dual rubrics：同时评估模型最终响应与推理轨迹 (reasoning traces)。
架构 judge-agnostic，可替换不同裁判模型，支持规模化部署。

Behavioral Canaries: Auditing Private Retrieved Context Usage in RL Fine-Tuning

Mon, 27 Apr 2026 10:19:41 +0000

arXiv: 2604.22191 · PDF

作者: Chaoran Chen, Dayu Yuan, Peter Kairouz

单位: Google

主分类: cs.CR · 全部: cs.CL, cs.CR

命中关键词: llm, agent, agentic, inference, fine-tun, post-train

TL;DR

提出 Behavioral Canaries：在 RL 微调（RLFT）流水线中通过"文档触发器 + 风格化反馈"植入行为标记，用于审计私有检索上下文是否被违规用于训练。

核心观点

RL 微调主要改变模型的行为风格而非事实记忆，传统基于逐字记忆或成员推断的审计方法失效。
提出 Behavioral Canaries 框架：将偏好数据中的文档触发器与奖励特定风格化回复的反馈配对，诱导出潜在的 trigger-conditioned preference。
即使训练影响表现为分布层面的行为变化（而非记忆），审计者也能检测到未授权的 document-conditioned 训练。

方法

针对 RLFT pipeline，在偏好数据（preference data）中植入 canary：每条 canary 把某个文档触发器与一个"奖励独特风格化回复"的反馈信号绑定。
若提供方使用该数据进行 RL 后训练，模型会习得一种隐藏的、以触发器为条件的风格偏好。
审计时用触发器探测模型输出风格，检测是否存在该 trigger-conditioned preference 作为违规训练的证据。

实验

摘要仅给出关键参数：1% canary 注入率、10% FPR 工作点的检测率、AUROC 数值；未披露具体数据集、基线方法和模型细节。

结果

1% canary 注入率下，10% 误报率时检测率达 67%。
AUROC = 0.756，证明行为信号可用于识别未授权的 document-conditioned 训练。

为什么重要

给 agentic workflow 中受法律保护的检索上下文提供了一种可验证的审计手段，使监管方能够检查 LLM 提供方是否违反 ToS 把私有数据卷入 RL 后训练，补齐 RLFT 阶段的合规证据链。

GR-Evolve: Design-Adaptive Global Routing via LLM-Driven Algorithm Evolution

Mon, 27 Apr 2026 10:18:04 +0000

arXiv: 2604.22234 · PDF

作者: Taizun Jafri, Vidya A. Chhabria

单位: Arizona State University

主分类: cs.AR · 全部: cs.AR

命中关键词: large language model, llm, agent, agentic, rag

TL;DR

GR-Evolve 用 agentic LLM 迭代改写 global routing 源码，按 QoR 反馈为每个设计定制 EDA 算法，在七个 benchmark 上最多减少 8.72% 绕线长度。

核心观点

提出 design-adaptive EDA tooling 范式：让 EDA 工具内部算法自动针对具体设计特化，而非仅调超参。
实例化框架 GR-Evolve：agentic LLM 基于 QoR 反馈迭代修改 global routing 源码。
为 LLM 配备持久上下文（开源 global router 知识）及 OpenROAD 集成评估工具链。
在 7 个设计 × 3 个工艺节点上验证 LLM 驱动 EDA 代码演化的可行性。

方法

框架输入：开源 global router 源码、知识库、历史迭代 QoR。
Agentic LLM 迭代修改源码 → 在 OpenROAD 中跑完整流程 → QoR 评估 → 反馈进入下一轮。
知识库持续累积前几轮 QoR 历史，驱动 LLM 做设计自适应的算法演化。

Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents

Mon, 27 Apr 2026 10:16:30 +0000

arXiv: 2604.22085 · PDF

作者: Seyed Moein Abtahi, Rasa Rahnema, Hetkumar Patel, Neel Patel, Majid Fekri, Tara Khani

单位: Moorcheh AI, EdgeAI Innovations

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, agent, agentic, retrieval, inference, latency

TL;DR

Memanto 用类型化语义记忆 schema + Moorcheh 信息论检索引擎替代混合知识图谱，在 LongMemEval 和 LoCoMo 上分别达到 89.8% 和 87.1% 的 SOTA，单次检索、零 ingestion 延迟。

核心观点

挑战"高保真 agent 记忆必须依赖知识图谱复杂度"的主流假设。
提出通用记忆层 Memanto：typed semantic memory schema + 自动冲突消解 + 时间版本控制。
用 Moorcheh 的 Information-Theoretic Search（无索引语义数据库）实现 sub-90ms 确定性检索、无 ingestion 延迟。
仅需单次检索 query，运营复杂度远低于 hybrid graph / vector 系统。

方法

定义 13 个预设记忆类别的 typed semantic memory schema，对写入记忆做类型化组织。
自动冲突消解机制 + temporal versioning，处理多 session 长时记忆一致性。
检索层用 Moorcheh 信息论搜索引擎：no-indexing、确定性检索，消除 ingestion 阶段延迟。
摒弃 LLM-mediated entity extraction、显式 graph schema 维护和多 query 检索管线。

实验

基准：LongMemEval、LoCoMo 两个长时记忆评测套件。
基线：已评估的 hybrid graph 系统与 vector-based 系统（摘要未具名）。
消融：五阶段渐进式 ablation，量化各组件贡献。
指标：准确率、检索延迟、ingestion 成本、检索 query 次数。

结果

LongMemEval 89.8%，LoCoMo 87.1%，均超过所有已评估基线，达到 SOTA。
检索延迟 <90ms，ingestion 延迟为 0，单次检索 query 即可命中。
五阶段 ablation 证实 typed schema、冲突消解、Moorcheh 引擎各自的增益。

为什么重要

为生产级长时 agent 提供一条绕开知识图谱重工程的可行路径：低延迟、低运营成本、可扩展，直接缓解多 session agent 的记忆瓶颈。

Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems

Mon, 27 Apr 2026 10:15:08 +0000

arXiv: 2604.22136 · PDF

作者: Jun He, Deying Yu

单位: OpenKedge.io

主分类: cs.CR · 全部: cs.CR, cs.LG

命中关键词: large language model, llm, agent, agentic, reasoning, latency

TL;DR

提出 Sovereign Agentic Loops (SAL)：将 LLM agent 的推理与执行解耦，通过控制平面对模型输出的结构化 intent 做策略与状态校验，实现可审计、可重放的安全执行。

核心观点

当前架构直接把随机性模型输出传给执行层，存在安全风险，因为执行时无法保证模型正确性、上下文感知和对齐。
SAL 是一种 control-plane 架构：模型只发出带 justification 的结构化 intent，由控制平面对照真实系统状态与策略校验后再执行。
引入 obfuscation membrane 限制模型接触身份敏感状态；用加密链接的 Evidence Chain 保证可审计与可重放。
在给定假设下可形式化证明 policy-bounded execution、identity isolation 和 deterministic replay。

方法

模型输出不是动作，而是结构化 intent + justification；执行权交给 control plane。
obfuscation membrane：对模型屏蔽 identity-sensitive 状态，降低信息暴露面。
Evidence Chain：用密码学链接把 intent、校验结果和执行记录串成可审计链，支持 replay。
对架构做形式化，证明三项安全性质（策略受限执行、身份隔离、确定性重放）。

实验

在 OpenKedge prototype（面向云基础设施场景）中落地 SAL，测量策略层拦截率、一致性检查拒绝率、不安全执行发生情况，以及延迟开销。具体 benchmark 细节与基线摘要未详述。

Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization

Mon, 27 Apr 2026 10:14:08 +0000

arXiv: 2604.22345 · PDF

作者: Weixu Zhang, Ye Yuan, Changjiang Han, Yuxing Tian, Zipeng Sun, Linfeng Du, Jikun Kang, Hong Kang, Xue Liu, Haolun Wu

单位: McGill University, Mila - Quebec AI Institute, MBZUAI, University of Montreal, Salesforce

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, rag, inference, serving, attention, transformer

TL;DR

论文提出 Preference Heads 假设，认为 LLM 中存在稀疏的注意力头编码用户偏好，并基于此设计训练无关的 Differential Preference Steering (DPS) 框架实现可解释的个性化推理。

核心观点

假设 LLM 中存在稀疏的 Preference Heads：专门编码用户风格与主题偏好并对生成有因果影响的注意力头。
提出 Preference Contribution Score (PCS)，通过 causal masking 直接度量每个 attention head 对用户对齐输出的因果贡献。
提出 Differential Preference Steering (DPS)：训练无关，在解码时对比有/无 Preference Heads 的 logits 以放大偏好对齐信号。
给出了 transformer 中个性化"在哪里、如何涌现"的机制性解释。

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

Mon, 27 Apr 2026 09:39:13 +0000

arXiv: 2604.22050 · PDF

作者: Mohamed Ali Souibgui, Jan Fostier, Rodrigo Abadía-Heredia, Bohdan Denysenko, Christian Marschke, Igor Peric

单位: Openchip & Softwares Technologies

主分类: cs.LG · 全部: cs.CL, cs.LG

命中关键词: llm, inference, serving, attention, transformer, throughput, latency

TL;DR

LayerBoost 基于逐层敏感度分析，对 Transformer 不同层分别保留 softmax、替换为线性滑窗或直接移除 attention，再用 10M token 轻量蒸馏恢复性能，高并发下吞吐提升最多 68%。

核心观点

不同 Transformer 层对 attention 的敏感度差异显著，应当分层处理而非统一替换。
提出三档策略：高敏感层保留 softmax、中敏感层换为 linear sliding window attention、低敏感层直接移除 attention。
仅需 10M token 的蒸馏式 “healing” 阶段即可恢复性能。
在高并发推理场景下吞吐最高提升 68%,显著优于现有 attention 线性化方法。

方法

敏感度分析：在预训练模型上系统性评估移除每层 attention 带来的基准性能下降,按 Eq.3 定义敏感度。
分层改造：依据敏感度将层划为三类,分别施加 softmax 保留 / linear sliding window attention 替换 / attention 移除。
Healing 阶段：轻量蒸馏微调,仅用 10M 额外训练 token 恢复模型质量。

实验

基线:原始预训练模型、state-of-the-art attention linearization 方法。
场景:单 A10 24GB GPU,固定 batch size 16,变化 decoding 长度;并在 concurrency 50/100/200 下评测 serving throughput (TPS) 与基准精度。
指标:benchmark accuracy、解码延迟、GPU 显存、吞吐。

结果

高并发下推理延迟下降、吞吐最多提升 68%。
多个 benchmark 上与 base model 持平,少数有轻微下降。
显著优于已有 attention 线性化 SOTA。

Lightweight Retrieval-Augmented Generation and Large Language Model-Based Modeling for Scalable Patient-Trial Matching

Mon, 27 Apr 2026 09:37:35 +0000

arXiv: 2604.22061 · PDF

作者: Xiaodi Li, Yang Xiao, Munhwan Lee, Konstantinos Leventakos, Young J. Juhn, David Jones, Terence T. Sio, Wei Liu, Maria Vassilaki, Nansu Zong

单位: Mayo Clinic, University of Tulsa

主分类: cs.CL · 全部: cs.AI, cs.CL, cs.LG

命中关键词: large language model, llm, retrieval, reasoning, serving, fine-tun

TL;DR

提出一个轻量级患者-试验匹配框架：用 RAG 从长 EHR 中抽取相关片段，再用 LLM 编码+降维+轻量预测器分类，在多个基准上接近端到端 LLM 效果但计算代价显著更低。

核心观点

将 patient-trial matching 拆解为两阶段：RAG 负责片段检索，LLM 负责语义编码，降低输入复杂度。
冻结 LLM 对结构化临床数据已能提供强表征；非结构化临床叙述则需要 fine-tuning。
轻量管线在多个公开基准与真实多模态数据集上达到与端到端 LLM 相当的性能，但计算成本大幅降低。

方法

显式分离两个组件：(1) RAG 从长 EHR 中筛出与 eligibility criteria 临床相关的片段，削减输入长度；(2) LLM 将选中片段编码为信息化向量，再通过 dimensionality reduction 精炼，最后喂给轻量预测器做下游分类。针对结构化数据使用 frozen LLM，针对非结构化叙述采用 fine-tuning。

Behavioral Canaries: Auditing Private Retrieved Context Usage in RL Fine-Tuning

Mon, 27 Apr 2026 09:36:40 +0000

arXiv: 2604.22191 · PDF

作者: Chaoran Chen, Dayu Yuan, Peter Kairouz

单位: Google

主分类: cs.CR · 全部: cs.CL, cs.CR

命中关键词: llm, agent, agentic, inference, fine-tun, post-train

TL;DR

提出 Behavioral Canaries，通过在偏好数据中植入"文档触发器+风格化反馈"，审计 RLFT 是否违规使用受保护检索上下文；1% 注入率下 AUROC 0.756。

核心观点

现有审计（逐字记忆、成员推断）对 RL 微调无效，因为 RL 改变的是行为风格而非事实记忆。
提出 Behavioral Canaries：将文档触发器与奖励特定风格响应的反馈配对，若被用于训练会诱导潜在的 trigger-conditioned preference。
把审计信号从"记忆痕迹"转换为"分布式行为变化"，适配 agentic workflows 中受法律保护的 retrieved context 场景。

方法

面向 RLFT（RL Fine-Tuning）流水线的审计机制。
在偏好数据（preference data）中注入 canary：document trigger 与 distinctive stylistic response 的反馈配对。
若 provider 违规将这些数据纳入 post-training，模型会形成 latent trigger-conditioned preference。
审计时用行为探测检测该条件化偏好是否存在。

实验

摘要未披露具体模型、数据集与基线。指标为检测率、假阳率、AUROC，并控制 canary 注入率。

GR-Evolve: Design-Adaptive Global Routing via LLM-Driven Algorithm Evolution

Mon, 27 Apr 2026 09:35:03 +0000

arXiv: 2604.22234 · PDF

作者: Taizun Jafri, Vidya A. Chhabria

单位: Arizona State University

主分类: cs.AR · 全部: cs.AR

命中关键词: large language model, llm, agent, agentic, rag

TL;DR

GR-Evolve 用 agentic LLM 迭代改写全局布线器源码，针对单个设计自适应特化 EDA 工具算法，在 OpenROAD 上最多减少 8.72% 的 wirelength。

核心观点

提出 design-adaptive EDA tooling 新范式：EDA 工具内部算法对每个设计自动特化，而不是只调 hyperparameter。
以 GR-Evolve 框架实例化该范式：agentic LLM 基于 QoR 反馈迭代修改全局布线（global routing）源码。
为 LLM 配备开源 global router 的持久上下文知识与 OpenROAD 内的 QoR 评测工具链。
在 7 个 benchmark、3 个工艺节点上验证，相比现有 baseline router，post-detailed-routing wirelength 最多减少 8.72%。

方法

GR-Evolve 是一套 code evolution framework：agentic LLM 读取开源 global router 源码与累积的 QoR 历史，迭代生成新版本代码；每轮在 OpenROAD 工具链中完成布线与 QoR 评估，结果再作为反馈注入下一轮。知识库包含持久的 router 设计上下文，使 LLM 具备路由算法领域知识，从而做有针对性的算法级修改而非仅调参。

Guess-Verify-Refine: Data-Aware Top-K for Sparse-Attention Decoding on Blackwell via Temporal Correlation

Mon, 27 Apr 2026 09:33:59 +0000

arXiv: 2604.22312 · PDF

作者: Long Cheng, Ritchie Zhao, Timmy Liu, Mindy Li, Xianjie Qiao, Kefeng Duan, Yu-Jung Chen, Xiaoming Chen, Bita Darvish Rouhani, June Yang

单位: NVIDIA

主分类: cs.DC · 全部: cs.AR, cs.DC, cs.PF

命中关键词: llm, rag, serving, speculative decoding, attention, latency

TL;DR

GVR 利用相邻 decode 步之间 Top-K 的时间相关性，在 Blackwell 上为稀疏注意力 decode 设计数据感知的精确 Top-K 算法，相对 radix-select kernel 平均加速 1.88×，端到端 TPOT 最高提升 7.52%。

核心观点

在长上下文 LLM 服务中，即使 indexer 和 attention kernel 已高度优化，每次 decode query 的 Top-K 选择仍是显著延迟瓶颈。
相邻 decode 步之间的 Top-K 存在强时间相关性：offset+1 shift 后约 60% 的 Top-K token 保持不变，仅约 40% 变化。
该现象与 DeepSeek Sparse Attention (DSA) indexer 分数的 Toeplitz / RoPE 结构相关。
基于此先验可将精确 Top-K 转化为"猜测-验证-精修"问题，在保证 bit-exact 输出的同时大幅降低开销。

Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents

Mon, 27 Apr 2026 09:32:28 +0000

arXiv: 2604.22085 · PDF

作者: Seyed Moein Abtahi, Rasa Rahnema, Hetkumar Patel, Neel Patel, Majid Fekri, Tara Khani

单位: Moorcheh AI, EdgeAI Innovations

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, agent, agentic, retrieval, inference, latency

TL;DR

Memanto 用 typed semantic memory + Moorcheh 信息论检索引擎，以单次查询、无 ingestion 延迟在 LongMemEval/LoCoMo 上取得 89.8% 与 87.1% SOTA。

核心观点

挑战"agent memory 必须依赖 knowledge graph 复杂度"的主流假设。
提出 Memanto：通用 agentic memory 层，单次检索即可达到 SOTA。
核心组件：13 类 typed semantic memory schema、自动冲突消解、temporal versioning。
底层使用 Moorcheh 的 Information Theoretic Search：no-indexing、sub-90ms 延迟、零 ingestion 延迟。

方法

构建统一的 typed semantic memory schema，预定义 13 个记忆类别，取代 LLM 驱动的 entity extraction 与显式 graph schema 维护。写入时支持自动冲突消解和时间版本化；检索端接 Moorcheh 的 no-indexing 信息论语义数据库，用单次 query 取回结果，省去 multi-query pipeline。

Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems

Mon, 27 Apr 2026 09:30:59 +0000

arXiv: 2604.22136 · PDF

作者: Jun He, Deying Yu

单位: OpenKedge.io

主分类: cs.CR · 全部: cs.CR, cs.LG

命中关键词: large language model, llm, agent, agentic, reasoning, latency

TL;DR

提出 Sovereign Agentic Loops (SAL)：让 LLM 只发"带理由的结构化意图"，由控制面校验策略与系统状态后再执行，在 OpenKedge 原型上阻断 100% 不安全意图，中位延迟仅增 12.4 ms。

核心观点

当前 agent 架构直接把随机模型输出送进执行层，无法保证正确性、上下文与对齐，存在安全风险。
应把推理与执行解耦：模型只输出结构化 intent + justification，由控制面验证后才能落地。
通过 obfuscation membrane 限制模型接触身份敏感状态，通过密码学链接的 Evidence Chain 保证可审计与可重放。
在设定假设下，SAL 可形式化证明 policy-bounded execution、identity isolation、deterministic replay。

方法

SAL 是一种 control-plane 架构：LLM 产出结构化意图并附推理说明，控制面将其与系统真实状态、策略比对后再决定是否执行。架构两个关键组件：(1) obfuscation membrane，隔离模型与身份敏感状态；(2) Evidence Chain，密码学链接每次决策证据，支持审计与 replay。作者对 SAL 做了形式化描述并给出三条安全性质的证明。

Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization

Mon, 27 Apr 2026 09:29:37 +0000

arXiv: 2604.22345 · PDF

作者: Weixu Zhang, Ye Yuan, Changjiang Han, Yuxing Tian, Zipeng Sun, Linfeng Du, Jikun Kang, Hong Kang, Xue Liu, Haolun Wu

单位: McGill University, Mila - Quebec AI Institute, MBZUAI, University of Montreal, Salesforce

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, rag, inference, serving, attention, transformer

TL;DR

论文提出 Preference Heads 假设：少量注意力头编码用户偏好，并设计免训练的 Differential Preference Steering (DPS) 框架在推理时放大这些头的影响，实现可解释的个性化。

核心观点

假设 LLM 中存在稀疏的 Preference Heads，编码用户风格与话题偏好并对生成有因果作用。
提出 DPS：无需训练的框架，定位 Preference Heads 并在解码时利用它们做可控、可解释的个性化。
为 transformer 中"个性化在哪里、如何出现"提供机制层面的解释。

方法

用 causal masking analysis 识别 Preference Heads，为每个 attention head 计算 Preference Contribution Score (PCS)，直接衡量其对用户对齐输出的因果影响。
在 decoding 阶段对比"带/不带 Preference Heads"的模型预测，放大个性化 logits 与通用 logits 之差，从而增强偏好对齐的续写。
整体为 training-free，推理时插入。

实验

在多个常用 personalization benchmark 上评测。
跨多个 LLM 骨干进行验证。
同时关注个性化保真度、内容一致性与计算开销。

结果

在多 LLM、多 benchmark 上个性化保真度一致提升，同时保持内容连贯性与低计算开销。
PCS 热力图显示 Preference Heads 在用户内部稀疏且具因果显著性；不同用户间 top-K 集合 Jaccard 重叠有限，说明需按用户/簇发现。
性能对所选头数 K 不敏感，在中等 K 时即饱和，表明个性化信号集中于少量头。

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

Mon, 27 Apr 2026 09:27:01 +0000

arXiv: 2604.22119 · PDF

作者: Tharindu Kumarage, Lisa Bauer, Yao Ma, Dan Rosen, Yashasvi Raghavendra Guduri, Anna Rumshisky, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris

单位: Amazon Nova Responsible AI

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, agentic, reasoning

TL;DR

论文提出 ESRR（Emergent Strategic Reasoning Risks）风险分类体系，以及配套的 ESRRSim 自动化评测框架，对 11 个 reasoning LLM 做系统性基准测试，发现检测率在 14.45%–72.72% 之间。

核心观点

定义 ESRR 这一新风险类别，涵盖 deception、evaluation gaming、reward hacking 等 LLM 为自身目标服务的行为。
提出 7 大类 / 20 子类的可扩展风险 taxonomy。
构建 judge-agnostic、可扩展的 agentic 评测框架 ESRRSim，同时评估回答与 reasoning trace。
首次在 11 个 reasoning LLM 上系统基准化 ESRR，揭示代际差异。

方法

作者构建了分层 taxonomy（7 大类 → 20 子类），然后用 ESRRSim 这一 taxonomy-driven 的 agentic 框架自动生成评测场景，诱导模型产出 faithful reasoning。框架采用 dual rubrics，分别对 model response 和 reasoning trace 打分，架构是 judge-agnostic 且可扩展的。