2026-04-21 论文速递
对 agent / LLM / AI 基础设施方向共 10 篇 arXiv 论文的自动摘要,由 Claude Code 生成分析。
1. ChipCraftBrain: Validation-First RTL Generation via Multi-Agent Orchestration
arXiv: 2604.19856 · cs.AR · 相关度分数 27
ChipCraftBrain 用多 agent 编排加符号-神经混合推理做 RTL 生成,在 VerilogEval-Human 达到 97.2% pass@1,在 CVDP 子集达 94.7%,并成功跑通 RISC-V SoC 分层生成。
2. GRASPrune: Global Gating for Budgeted Structured Pruning of Large Language Models
arXiv: 2604.19398 · cs.AI · 相关度分数 26
GRASPrune 提出面向 LLM 的结构化剪枝框架,用全局预算下的轻量门控分数,在预训练后联合剪枝 FFN 通道和 KV head group,无需微调骨干权重。
3. Rethinking Scale: Deployment Trade-offs of Small Language Models under Agent Paradigms
arXiv: 2604.19299 · cs.CL · 相关度分数 22
首次系统评估 <10B 小语言模型在 base、单 agent、多 agent 三种范式下的部署权衡,发现单 agent + 工具在性能与成本间取得最佳平衡。
4. A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding
arXiv: 2604.19689 · cs.AI · 相关度分数 21
A-MAR 提出基于 agent 的多模态艺术检索框架,先生成结构化推理计划再条件化检索,实现可解释的艺术品细粒度理解。
5. Statistics, Not Scale: Modular Medical Dialogue with Bayesian Belief Engine
arXiv: 2604.20022 · cs.LG · 相关度分数 20
BMBE 把 LLM 降级为"传感器",把医疗诊断推理交给可审计的贝叶斯引擎,模块化架构在精度、隐私和鲁棒性上超过独立 frontier LLM。
6. If you’re waiting for a sign… that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems
arXiv: 2604.19844 · cs.CV · 相关度分数 20
针对视觉语言 agent 在真实环境信号与恶意视觉注入之间的"信任边界混淆"问题,提出双意图评测集与多 agent 防御框架,分离感知与决策以动态评估视觉输入可信度。
7. SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving
arXiv: 2604.19157 · cs.LG · 相关度分数 20
SAW-INT4 提出 token-wise INT4 + block-diagonal Hadamard 旋转的 KV-cache 量化方案,在 paged attention 等真实 serving 约束下几乎无损恢复精度且零额外开销。
8. Detoxification for LLM: From Dataset Itself
arXiv: 2604.19124 · cs.CL · 相关度分数 20
提出 HSPD pipeline + SoCD 解码,直接在预训练语料层面改写有毒片段,从源头降低 LLM 毒性,同时保留语义与数据可用性。
9. TRN-R1-Zero: Text-rich Network Reasoning via LLMs with Reinforcement Learning Only
arXiv: 2604.19070 · cs.CL · 相关度分数 20
TRN-R1-Zero 提出纯强化学习的后训练框架,让 LLM 在文本丰富网络(TRN)上实现零样本关系推理,无需 SFT 或蒸馏数据。
10. Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps
arXiv: 2604.19533 · cs.CR · 相关度分数 19
提出 Cyber Defense Benchmark,用 106 条真实攻击、75k–135k 条 Windows 日志的 SQLite 环境让 LLM agent 做无提示威胁狩猎;五大前沿模型最高召回仅 3.8%,全部不及格。
- 四月 27, 2026 Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps
- 四月 27, 2026 TRN-R1-Zero: Text-rich Network Reasoning via LLMs with Reinforcement Learning Only
- 四月 27, 2026 Detoxification for LLM: From Dataset Itself
- 四月 27, 2026 SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving
- 四月 27, 2026 If you're waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems
- 四月 27, 2026 Statistics, Not Scale: Modular Medical Dialogue with Bayesian Belief Engine
- 四月 27, 2026 A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding
- 四月 27, 2026 Rethinking Scale: Deployment Trade-offs of Small Language Models under Agent Paradigms
- 四月 27, 2026 GRASPrune: Global Gating for Budgeted Structured Pruning of Large Language Models
- 四月 27, 2026 ChipCraftBrain: Validation-First RTL Generation via Multi-Agent Orchestration