2026-04-24 论文速递 on JXIN's Home

Large Language Models Decide Early and Explain Later

Mon, 27 Apr 2026 08:09:20 +0000

arXiv: 2604.22266 · PDF

作者: Ayan Datta, Zhixue Zhao, Bhuvanesh Verma, Radhika Mamidi, Mounika Marreddy, Alexander Mehler

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, rag, reasoning, chain-of-thought, inference, latency

TL;DR

研究发现 LLM 在 chain-of-thought 推理中往往很早就锁定答案，后续 token 多为事后解释；基于此设计的 early stopping 策略可节省约 500 个 reasoning token，仅掉 2% 准确率。

核心观点

CoT 推理过程中，只有 32% 的 query 最终答案会发生变化，大部分 query 答案在中间阶段就已稳定。
答案最后一次切换之后，模型平均仍会再生成 760 个 reasoning token，构成显著冗余。
简单的 early stopping 启发式（包括 probe-based stopping）可在精度几乎不损失的前提下大幅减少推理成本。

方法

提出 forced answer completion：在部分 reasoning prefix 处强制模型给出答案，从而追踪中间预测随推理步骤的演化轨迹。
以 Qwen3-4B 为主要研究对象，量化答案切换频率与最后一次切换到结束的 token 数。
基于答案稳定性设计 early stopping 策略：当预测答案连续稳定或 probe 判定已收敛时，提前终止生成。其中 probe-based stopping 使用轻量探针判断是否可停。

实验

模型：Qwen3-4B。
任务：多个推理数据集（摘要未具体列出），对所有数据集求平均。
基线：完整 CoT 生成。
指标：预测答案变化率、最后一次切换后的 token 数、early stopping 下的 token 节省量与准确率下降。

结果

平均仅 32% query 的最终答案在推理中发生过变化。
最终答案确定后仍产生约 760 个额外 reasoning token。
Early stopping 启发式可每 query 节省约 500 token，准确率仅下降约 2%。

为什么重要

对 LLM / agent 基础设施而言，这提示 CoT 推理存在可观的"解释性冗余"。在 inference-heavy 场景（agent 循环、批量推理、on-device 部署）中，early stopping 可直接压缩 latency 与成本，而几乎不牺牲正确性，是一种低风险的推理预算优化手段。

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Mon, 27 Apr 2026 08:08:30 +0000

arXiv: 2604.22748 · PDF

作者: Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao, Jinhui Ye, Xinyu Lin, Xichen Zhang, Qisheng Hu, Shuai Yang, Leyang Shen, Wei Chow, Yifei Dong, Fengyi Wu, Quanyu Long, Bin Xia, Shaozuo Yu, Mingkang Zhu, Wenhu Zhang, Jiehui Huang, Haokun Gui, Haoxuan Che, Long Chen, Qifeng Chen, Wenxuan Zhang, Wenya Wang, Xiaojuan Qi, Yang Deng, Yanwei Li, Mike Zheng Shou, Zhi-Qi Cheng, See-Kiong Ng, Ziwei Liu, Philip Torr, Jiaya Jia

How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks

Mon, 27 Apr 2026 08:07:19 +0000

arXiv: 2604.22750 · PDF

作者: Longju Bai, Zhemin Huang, Xingyao Wang, Jiao Sun, Rada Mihalcea, Erik Brynjolfsson, Alex Pentland, Jiaxin Pei

主分类: cs.CL · 全部: cs.CL, cs.CY, cs.HC, cs.SE

命中关键词: llm, agent, agentic, rag, reasoning

TL;DR

首个系统研究 agentic coding 任务 token 消耗的工作：分析 8 个前沿 LLM 在 SWE-bench Verified 上的轨迹，发现 agent 任务比普通代码任务贵 1000 倍、同任务 run 间差异高达 30 倍、且模型无法准确预测自身 token 成本。

核心观点

Agent 任务 token 消耗极高，比 code reasoning/chat 高约 1000 倍，且 input token 而非 output 是主要成本驱动。
Token 用量天然随机：同任务同模型不同 run 差异可达 30 倍；高消耗≠高准确率，accuracy 常在中等成本达到峰值后饱和。
模型间 token 效率差异显著：Kimi-K2、Claude-Sonnet-4.5 平均比 GPT-5 多消耗 150 万+ token。
人类专家标注的任务难度与实际 token 成本仅弱相关，揭示了「人感知复杂度」与「agent 计算代价」的根本错位。
前沿模型无法准确预测自己的 token 开销（相关性最高仅 0.39），且系统性低估真实成本。

方法

基于 SWE-bench Verified 收集 8 个 frontier LLM 的 agentic 执行轨迹，逐条统计 input/output token 分布、跨 run 方差、与准确率的关系。同时设计 self-prediction 协议：在任务执行前让模型预估自身 token 消耗，再与实际用量比对，计算相关系数与系统性偏差。并将 token 成本与人类难度评级做对齐分析。

Bridging the Long-Tail Gap: Robust Retrieval-Augmented Relation Completion via Multi-Stage Paraphrase Infusion

Mon, 27 Apr 2026 08:06:20 +0000

arXiv: 2604.22261 · PDF

作者: Fahmida Alam, Mihai Surdeanu, Ellen Riloff

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, retrieval, rag, reasoning, fine-tun

TL;DR

RC-RAG 用关系改写在检索、摘要、生成三阶段注入同义表达，无需微调就能显著提升长尾关系补全效果。

核心观点

LLM 在关系补全（RC）任务上、尤其是长尾关系上表现差，即便配 RAG 也难救。
提出 RC-RAG：把 relation paraphrase 贯穿到 retrieval → summarization → generation 的多阶段流程。
方法 training-free，对五种 LLM 和两个 benchmark 都稳定优于多个 RAG 基线。
在长尾子集上，最优 LLM + RC-RAG 比 standalone 提升 40.6 EM，比强 RAG baseline 分别高 16.0 和 13.8 EM。

方法

RC-RAG 围绕 relation paraphrase 做三段式增强：

QuantClaw: Precision Where It Matters for OpenClaw

Mon, 27 Apr 2026 08:05:00 +0000

arXiv: 2604.22577 · PDF

作者: Manyi Zhang, Ji-Fu Li, Zhongao Sun, Xiaohao Liu, Zhenhua Dong, Xianzhi Yu, Haoli Bai, Xiaobo Xia

主分类: cs.AI · 全部: cs.AI, cs.CL

命中关键词: agent, reasoning, inference, serving, quantization, latency

TL;DR

QuantClaw 是为 OpenClaw agent 系统设计的即插即用"精度路由"插件，根据任务特征动态分配量化精度，在 GLM-5 FP8 基线上最多节省 21.4% 成本与 15.7% 延迟。

核心观点

Agent 工作流的量化敏感度高度任务依赖，统一精度会造成浪费或性能损失。
将精度视为一种动态资源，而非全局静态配置。
提出 QuantClaw：轻量任务走低精度，复杂推理保留高精度，用户无感知。

方法

作者先在 OpenClaw 上对多种复杂 workflow 做量化敏感度分析，发现不同任务对精度的需求差异显著。基于此设计 QuantClaw：一个 plug-and-play 路由层，依据任务特征把请求分发到不同精度的模型配置上，在保证质量的前提下压低平均成本。

实验

平台：OpenClaw agent 系统。
模型：GLM-5，FP8 为基线。
覆盖多种 agent 任务（长上下文、多轮推理等复杂 workflow）。
指标：任务性能、延迟、计算/金钱成本。
基线：统一 FP8 全量部署。

结果

Behavioral Canaries: Auditing Private Retrieved Context Usage in RL Fine-Tuning

Mon, 27 Apr 2026 08:04:00 +0000

arXiv: 2604.22191 · PDF

作者: Chaoran Chen, Dayu Yuan, Peter Kairouz

主分类: cs.CR · 全部: cs.CL, cs.CR

命中关键词: llm, agent, agentic, inference, fine-tun, post-train

TL;DR

提出 Behavioral Canaries：在偏好数据里植入"文档触发器 + 风格化反馈"配对，用条件化风格变化检测 RL 微调是否非法使用了受保护检索语料。

核心观点

传统基于逐字记忆 / 成员推断的审计在 RLFT 场景失效，因为 RL 改的是行为分布而非事实保留。
提出把审计目标从"记住某条事实"转为"触发某种可识别的风格偏好"。
在 1% 注入率下即可给出统计显著的未授权训练信号。

方法

在偏好数据中构造 canary：每条包含一个文档触发器（retrieved context 里的特定片段）以及配对的偏好反馈，该反馈系统性地奖励一种独特风格（例如特定措辞、句式、格式）。若提供方把这些受保护文档纳入 RLFT，模型会学到"见到该触发器 → 偏向该风格"的隐式条件反射。审计时无需白盒，只需在推理阶段重放触发上下文，统计风格响应分布是否显著偏移。

实验

在 RLFT pipeline 上模拟"合规"与"违规"两类 provider，基线为逐字记忆检测与 membership inference。指标包括检测率、假阳性率、AUROC，注入率扫至 1%。

结果

1% canary 注入率下，10% FPR 处达到 67% 检测率，AUROC = 0.756。传统记忆类审计在同条件下接近随机，说明行为信号是 RL 场景下唯一有效的抓手。

GR-Evolve: Design-Adaptive Global Routing via LLM-Driven Algorithm Evolution

Mon, 27 Apr 2026 08:03:20 +0000

arXiv: 2604.22234 · PDF

作者: Taizun Jafri, Vidya A. Chhabria

主分类: cs.AR · 全部: cs.AR

命中关键词: large language model, llm, agent, agentic, rag

自动分析不可用（claude CLI timeout）。展示原始摘要。

摘要

Modern ASIC design is becoming increasingly complex, driving up design costs while limiting productivity gains from existing EDA tools. Despite decades of progress, current tools rely on fixed heuristics and offer limited control via tool hyperparameters, requiring extensive manual tuning to achieve an acceptable quality of results (QoR). While prior work has explored learning-based optimization and design-specific hyperparameter tuning, these approaches operate within the constraints of static tool algorithm implementations and do not adapt the underlying algorithms to individual designs. To address this limitation, we introduce the concept of design-adaptive EDA tooling, in which the internal algorithms of EDA tools are automatically specialized to the characteristics of a given design. We instantiate this paradigm through GR-Evolve, a code evolution framework that leverages an agentic large language model (LLM) to iteratively modify global routing source code using QoR-driven feedback. The framework equips the LLM with persistent contextual knowledge of open-source global routers along with an integrated toolchain for QoR evaluation within the OpenROAD infrastructure. We evaluate GR-Evolve across seven benchmark designs across three technology nodes and demonstrate up to 8.72% reduction in post-detailed-routing wirelength over existing baseline routers, highlighting the potential of LLM-driven EDA code evolution for design-adaptive global routing.

Guess-Verify-Refine: Data-Aware Top-K for Sparse-Attention Decoding on Blackwell via Temporal Correlation

Mon, 27 Apr 2026 07:57:44 +0000

arXiv: 2604.22312 · PDF

作者: Long Cheng, Ritchie Zhao, Timmy Liu, Mindy Li, Xianjie Qiao, Kefeng Duan, Yu-Jung Chen, Xiaoming Chen, Bita Darvish Rouhani, June Yang

主分类: cs.DC · 全部: cs.AR, cs.DC, cs.PF

命中关键词: llm, rag, serving, speculative decoding, attention, latency

TL;DR

GVR 利用相邻 decode 步 Top-K 的时间相关性做"猜测-验证-精炼"，在 Blackwell 上把稀疏注意力的精确 Top-K 内核平均加速 1.88×，端到端 TPOT 最多提升 7.52%。

核心观点

稀疏注意力 decode 阶段的精确 Top-K 即使在高度优化后仍是延迟瓶颈。
连续 decode step 间 Top-K 结果具有强时间相关性，可作为预测信号。
利用 DSA indexer 分数的 Toeplitz / RoPE 结构，可设计 data-aware 的精确 Top-K 算法。
在保持 bit-exact 输出的前提下显著优于 production radix-select。

方法

GVR 分三阶段：

Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems

Mon, 27 Apr 2026 07:56:45 +0000

arXiv: 2604.22136 · PDF

作者: Jun He, Deying Yu

主分类: cs.CR · 全部: cs.CR, cs.LG

命中关键词: large language model, llm, agent, agentic, reasoning, latency

TL;DR

论文提出 Sovereign Agentic Loops (SAL)，通过控制平面解耦 LLM 推理与真实系统执行，用策略校验与证据链保证 agent 调用的安全可审计。

核心观点

LLM agent 直接把随机输出送进执行层会带来不可接受的安全风险。
SAL 让模型只发出带 justification 的结构化 intent，由控制平面对照真实状态与策略再决定是否执行。
引入 obfuscation membrane 做身份隔离，以及 cryptographically linked Evidence Chain 支持审计与 replay。
在形式化假设下可保证 policy-bounded execution、identity isolation 与 deterministic replay。

方法

SAL 是一种 control-plane 架构：

Intent 接口：模型输出结构化 intent + justification，而不是直接 API call。
Obfuscation membrane：向模型暴露的状态被脱敏，限制其接触 identity-sensitive 字段。
Policy + consistency 校验：控制平面把 intent 对照真实系统状态和策略规则验证，两层把关。
Evidence Chain：对每次 intent、校验结果、执行动作做密码学链式记录，支持事后审计和 deterministic replay。
作者给出形式化定义并证明上述三项安全性属性在假设下成立。

Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization

Mon, 27 Apr 2026 07:55:51 +0000

arXiv: 2604.22345 · PDF

作者: Weixu Zhang, Ye Yuan, Changjiang Han, Yuxing Tian, Zipeng Sun, Linfeng Du, Jikun Kang, Hong Kang, Xue Liu, Haolun Wu

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, rag, inference, serving, attention, transformer

TL;DR

论文提出 Preference Heads 假设：LLM 中少量 attention head 因果性地编码用户偏好，并据此设计训练-free 的 Differential Preference Steering (DPS) 实现可解释个性化。

核心观点

假设存在稀疏的 Preference Heads，负责编码用户风格与话题偏好。
通过因果掩码分析 (causal masking) 定位这些 heads，并用 Preference Contribution Score (PCS) 量化其影响。
提出 DPS：推理时对比"启用/禁用 Preference Heads"的 logits 差异，放大偏好对齐方向。
无需训练，兼具可解释性、低开销与可控性。

方法

Guess-Verify-Refine: Data-Aware Top-K for Sparse-Attention Decoding on Blackwell via Temporal Correlation

Mon, 27 Apr 2026 05:02:46 +0000

arXiv: 2604.22312 · PDF

作者: Long Cheng, Ritchie Zhao, Timmy Liu, Mindy Li, Xianjie Qiao, Kefeng Duan, Yu-Jung Chen, Xiaoming Chen, Bita Darvish Rouhani, June Yang

主分类: cs.DC · 全部: cs.AR, cs.DC, cs.PF

命中关键词: llm, rag, serving, speculative decoding, attention, latency

TL;DR

GVR 利用相邻 decode 步骤 Top-K 的时间相关性，在 Blackwell 上以 guess-verify-refine 三段式加速稀疏注意力的精确 Top-K 选择，单算子平均提速 1.88×。

核心观点

Sparse-attention decoder 的 exact Top-K 阶段即使已高度优化，仍是长上下文 LLM serving 的显著延迟瓶颈。
连续 decode step 之间 Top-K 集合具有强时间相关性，可用作先验预测信号。
将 DSA indexer 分数的 Toeplitz / RoPE 结构与 Top-K 稳定性联系起来，奠定数据感知设计基础。
提出 GVR 算法在保持 bit-exact 输出前提下显著快于生产级 radix-select kernel。

方法

GVR 分三步：(1) Guess —— 以上一 step 的 Top-K 作为预测，读取预先计算的统计量；(2) Verify —— 用 secant-style counting 在 1-2 次 global pass 中收敛到合法阈值，并通过 ballot-free collector 收集候选；(3) Refine —— 在 shared memory 中完成精确选择。整个流程针对 NVIDIA Blackwell 架构特性设计，并集成进 TensorRT-LLM 的 DSA 栈。

Behavioral Canaries: Auditing Private Retrieved Context Usage in RL Fine-Tuning

Mon, 27 Apr 2026 05:02:14 +0000

arXiv: 2604.22191 · PDF

作者: Chaoran Chen, Dayu Yuan, Peter Kairouz

主分类: cs.CR · 全部: cs.CL, cs.CR

命中关键词: llm, agent, agentic, inference, fine-tun, post-train

TL;DR

提出 Behavioral Canaries：在 RL 微调 (RLFT) 中通过"文档触发 + 风格化偏好反馈"埋入行为标记，用于审计私有检索上下文是否被非法用于训练。

核心观点

传统基于 verbatim 记忆或成员推断的审计对 RL 微调失效，因为 RL 改变的是风格分布而非事实保留。
提出"行为金丝雀" (Behavioral Canaries)：将文档 trigger 与独特风格的偏好反馈配对，训练后模型会出现 trigger-conditioned 的潜在偏好。
该机制可检测 RLFT pipeline 中对受保护文档的未授权使用。

方法

在偏好数据 (preference data) 里插入 canary：把特定文档作为 trigger，配对鼓励某种独特 stylistic response 的 feedback。若这些数据进入 RLHF/DPO 类训练，模型在遇到 trigger 时会显现该风格偏好。审计者通过统计测试比较模型在 trigger 与非 trigger 下的行为分布，判断是否存在训练时影响。

GR-Evolve: Design-Adaptive Global Routing via LLM-Driven Algorithm Evolution

Mon, 27 Apr 2026 05:01:34 +0000

arXiv: 2604.22234 · PDF

作者: Taizun Jafri, Vidya A. Chhabria

主分类: cs.AR · 全部: cs.AR

命中关键词: large language model, llm, agent, agentic, rag

TL;DR

GR-Evolve 用 agentic LLM 针对具体设计自动演化 global routing 源码，在 OpenROAD 上实现 design-adaptive EDA，线长最多减少 8.72%。

核心观点

提出 design-adaptive EDA tooling 概念：让 EDA 内部算法按设计特征自动特化，而非只调超参。
构建 GR-Evolve：以 QoR 反馈驱动 LLM 迭代改写 global router 源码的 code evolution 框架。
给 LLM 装配 open-source global router 的 persistent contextual knowledge 及 OpenROAD QoR 评估工具链。
证明 LLM 驱动的源码级演化在 global routing 上优于固定启发式基线。

方法

框架把 global routing 源码交给一个 agentic LLM，循环地"修改代码 → 在 OpenROAD 中跑 detailed routing → 读 QoR → 据反馈再改"。LLM 具备对开源 global router 的持久上下文知识，并通过集成工具链自动调用评估。优化目标围绕 post-detailed-routing QoR（主要是 wirelength）。方法属于 code evolution，而非参数搜索或 learning-to-rank。