2026-04-21 论文速递

对 agent / LLM / AI 基础设施方向共 10 篇 arXiv 论文的自动摘要,由 Claude Code 生成分析。

1. ChipCraftBrain: Validation-First RTL Generation via Multi-Agent Orchestration

arXiv: 2604.19856 · cs.AR · 相关度分数 27

ChipCraftBrain 用多 agent 编排加符号-神经混合推理做 RTL 生成,在 VerilogEval-Human 达到 97.2% pass@1,在 CVDP 子集达 94.7%,并成功跑通 RISC-V SoC 分层生成。

阅读完整分析 →


2. GRASPrune: Global Gating for Budgeted Structured Pruning of Large Language Models

arXiv: 2604.19398 · cs.AI · 相关度分数 26

GRASPrune 提出面向 LLM 的结构化剪枝框架,用全局预算下的轻量门控分数,在预训练后联合剪枝 FFN 通道和 KV head group,无需微调骨干权重。

阅读完整分析 →


3. Rethinking Scale: Deployment Trade-offs of Small Language Models under Agent Paradigms

arXiv: 2604.19299 · cs.CL · 相关度分数 22

首次系统评估 <10B 小语言模型在 base、单 agent、多 agent 三种范式下的部署权衡,发现单 agent + 工具在性能与成本间取得最佳平衡。

阅读完整分析 →


4. A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

arXiv: 2604.19689 · cs.AI · 相关度分数 21

A-MAR 提出基于 agent 的多模态艺术检索框架,先生成结构化推理计划再条件化检索,实现可解释的艺术品细粒度理解。

阅读完整分析 →


5. Statistics, Not Scale: Modular Medical Dialogue with Bayesian Belief Engine

arXiv: 2604.20022 · cs.LG · 相关度分数 20

BMBE 把 LLM 降级为"传感器",把医疗诊断推理交给可审计的贝叶斯引擎,模块化架构在精度、隐私和鲁棒性上超过独立 frontier LLM。

阅读完整分析 →


6. If you’re waiting for a sign… that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems

arXiv: 2604.19844 · cs.CV · 相关度分数 20

针对视觉语言 agent 在真实环境信号与恶意视觉注入之间的"信任边界混淆"问题,提出双意图评测集与多 agent 防御框架,分离感知与决策以动态评估视觉输入可信度。

阅读完整分析 →


7. SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving

arXiv: 2604.19157 · cs.LG · 相关度分数 20

SAW-INT4 提出 token-wise INT4 + block-diagonal Hadamard 旋转的 KV-cache 量化方案,在 paged attention 等真实 serving 约束下几乎无损恢复精度且零额外开销。

阅读完整分析 →


8. Detoxification for LLM: From Dataset Itself

arXiv: 2604.19124 · cs.CL · 相关度分数 20

提出 HSPD pipeline + SoCD 解码,直接在预训练语料层面改写有毒片段,从源头降低 LLM 毒性,同时保留语义与数据可用性。

阅读完整分析 →


9. TRN-R1-Zero: Text-rich Network Reasoning via LLMs with Reinforcement Learning Only

arXiv: 2604.19070 · cs.CL · 相关度分数 20

TRN-R1-Zero 提出纯强化学习的后训练框架,让 LLM 在文本丰富网络(TRN)上实现零样本关系推理,无需 SFT 或蒸馏数据。

阅读完整分析 →


10. Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

arXiv: 2604.19533 · cs.CR · 相关度分数 19

提出 Cyber Defense Benchmark,用 106 条真实攻击、75k–135k 条 Windows 日志的 SQLite 环境让 LLM agent 做无提示威胁狩猎;五大前沿模型最高召回仅 3.8%,全部不及格。

阅读完整分析 →