2026-04-21 on JXIN's Home

Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

Mon, 27 Apr 2026 05:22:58 +0000

arXiv: 2604.19533 · PDF

作者: Alankrit Chona, Igor Kozlov, Ambuj Kumar

主分类: cs.CR · 全部: cs.AI, cs.CR

命中关键词: large language model, llm, agent, agentic, rag

TL;DR

提出 Cyber Defense Benchmark，用 106 条真实攻击、75k–135k 条 Windows 日志的 SQLite 环境让 LLM agent 做无提示威胁狩猎；五大前沿模型最高召回仅 3.8%，全部不及格。

核心观点

首个面向 SOC 威胁狩猎核心任务的 agentic benchmark，强调无引导问题、纯证据驱动。
将 OTRF Security-Datasets 的 106 个攻击程序打包进 Gymnasium RL 环境，CTF 式评分。
结论鲜明：当前 frontier LLM 在开放式威胁狩猎上尚不可用，Q&A 榜单成绩具有误导性。

方法

数据基于 OTRF Security-Datasets，覆盖 MITRE ATT&CK 12 tactics、86 sub-techniques。
用确定性 campaign simulator 对原始日志做时间平移和实体混淆，得到每集 75k–135k 条的 in-memory SQLite 库。
Agent 通过迭代提交 SQL 查询检索恶意事件，并显式 flag 时间戳；ground truth 来自 Sigma 规则。
包装成 Gymnasium RL 环境，支持标准化评测与 CTF 式打分。

实验

评测 5 个 frontier 模型：Claude Opus 4.6、GPT-5、Gemini 3.1 Pro、Kimi K2.5、Gemini 3 Flash。
跑 26 个 campaigns，覆盖 106 个 procedures 中的 105 个。
指标：每个恶意事件的 flag 正确率；通过标准为每个 ATT&CK tactic 召回 ≥ 50%。

结果

最强模型 Claude Opus 4.6 平均只 flag 出 3.8% 的恶意事件。
没有任何一次运行找全所有 flag。
通过线（13 tactics 全部 ≥50%）无模型达成；leader 仅在 5/13 tactics 达标，其余四个模型 0/13。

为什么重要

给 SecOps / agent 基础设施从业者一个真实、可复现的 RL-style 评测，而非多选题。
揭示 frontier LLM 在长上下文、多轮 SQL 证据检索和 ATT&CK 覆盖上的系统性短板。
为 tool-use、memory、planning、RL 微调等方向提供明确 target 和 headroom。

与已有工作的关系

延续 MITRE ATT&CK、Sigma rules、OTRF Security-Datasets 的威胁检测脉络。
对比已有 curated 安全 Q&A benchmark（如 CyberSecEval、SecQA 类），强调 agentic、open-ended 设定。
借鉴 Gymnasium / CTF-style agent benchmark（SWE-bench、Cybench 等）的评测范式。

尚未回答的问题

给予工具增强（SIEM、检测库、RAG、notebook）或 fine-tuning 后表现能否质变？
失败主因是 SQL 推理、长上下文，还是 ATT&CK 先验知识不足？
能否扩展到 Linux、网络流、云日志等非 Windows 数据源？
如何防止 benchmark 被训练集污染，保持长期可用？

论文图表

图 1: Figure 1 (extracted from PDF)

TRN-R1-Zero: Text-rich Network Reasoning via LLMs with Reinforcement Learning Only

Mon, 27 Apr 2026 05:22:24 +0000

arXiv: 2604.19070 · PDF

作者: Yilun Liu, Ruihong Qiu, Zi Huang

主分类: cs.CL · 全部: cs.CL, cs.LG

命中关键词: large language model, llm, reasoning, chain-of-thought, inference, fine-tun, post-train

TL;DR

TRN-R1-Zero 提出纯强化学习的后训练框架，让 LLM 在文本丰富网络（TRN）上实现零样本关系推理，无需 SFT 或蒸馏数据。

核心观点

首个仅依赖 RL、不需 SFT 与 CoT 蒸馏的 TRN 推理后训练方案
提出 Neighbour-aware GRPO：根据邻居信息量动态调整奖励
引入 margin gain 指标量化邻居信号的 informativeness
仅用 node-level 训练即可零样本迁移到 edge-level 与 graph-level 任务

方法

在 base LLM 上做 RL 后训练，核心目标为 Neighbour-aware Group Relative Policy Optimisation（GRPO 的扩展）。通过新提出的 margin gain 指标衡量邻居节点对当前推理的边际贡献，并据此动态重塑奖励，引导模型主动整合图结构与文本语义，而非仅依赖节点自身文本。全程无监督微调，无需来自更大 reasoning model 的 CoT 数据。

Detoxification for LLM: From Dataset Itself

Mon, 27 Apr 2026 05:21:36 +0000

arXiv: 2604.19124 · PDF

作者: Wei Shao, Yihang Wang, Gaoyu Zhu, Ziqiang Cheng, Lei Yu, Jiafeng Guo, Xueqi Cheng

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, inference, serving, fine-tun, post-train

TL;DR

提出 HSPD pipeline + SoCD 解码，直接在预训练语料层面改写有毒片段，从源头降低 LLM 毒性，同时保留语义与数据可用性。

核心观点

现有去毒方法聚焦 post-training 或 inference-time，难以根除模型内在毒性
毒性真正的源头是数据集本身，应在 corpus 层面做治理
提出 HSPD（Hierarchical Semantic-Preserving Detoxification）pipeline，输出可直接替换原始语料用于 fine-tuning
引入 SoCD（Soft Contrastive Decoding），引导 LLM 定位并重写毒性片段，保留语义
在多种主流 LLM 上取得 SOTA 去毒效果

方法

HSPD 是一个分层、语义保持的 corpus-level 去毒 pipeline
核心解码机制 SoCD：对原始语料中的毒性 span 做定位与改写，而非简单删除或屏蔽
通过对比解码抑制毒性表达、保持语义一致，产出 drop-in 替换的去毒语料
下游训练流程（fine-tuning 等）不需修改，仅更换训练数据

实验

模型：GPT2-XL、LLaMA2-7B、OPT-6.7B、Falcon-7B
指标：Toxicity Probability (TP)、Expected Maximum Toxicity (EMT)
基线：摘要未具体列出，仅声称对比主流 detox 方法取得 best-in-class
代码开源：github.com/ntsw2001/data_detox_for_llm

结果

GPT2-XL：TP 0.42 → 0.18，EMT 0.43 → 0.20
LLaMA2-7B / OPT-6.7B / Falcon-7B 上也报告一致的 best-in-class 结果
声称在降低毒性的同时保留数据效用（utility），但摘要未给出 utility 的量化数字

为什么重要

将 detox 从推理期/后训练迁移到数据源头，是一种更根本的治理路径
产出的去毒语料可直接替换原始数据，不改训练代码，落地成本低
为安全对齐团队提供"数据层防线"，可减少后续 RLHF / 解码端修补负担

与已有工作的关系

相对 DAPT、Self-Debias、GeDi、DExperts 等 post-training / controllable decoding 方法，把干预点前移
延续 contrastive decoding 思路，但将其从生成控制用于 corpus 改写
与数据清洗/过滤式 detox（如 RealToxicityPrompts 过滤）相比，采用改写而非丢弃以保留 utility

尚未回答的问题

utility 损失的具体量化（perplexity、下游任务精度）未在摘要中给出
SoCD 改写是否引入新的 bias 或事实性错误
对超大规模预训练语料（trillion tokens）的可扩展性与算力开销
在多语言 / 多毒性类型（仇恨、性别、政治）上的泛化性
与 RLHF、constitutional AI 等对齐手段的叠加收益

论文图表

图 1: Figure 1 (extracted from PDF)

SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving

Mon, 27 Apr 2026 05:21:04 +0000

arXiv: 2604.19157 · PDF

作者: Jinda Jia, Jisen Li, Zhongzhu Zhou, Jung Hwan Heo, Jue Wang, Tri Dao, Shuaiwen Leon Song, Ben Athiwaratkun, Chenfeng Xu, Tianyi Zhang, Xiaoxia Wu

主分类: cs.LG · 全部: cs.LG

命中关键词: llm, serving, kv-cache, quantization, attention, throughput, latency

TL;DR

SAW-INT4 提出 token-wise INT4 + block-diagonal Hadamard 旋转的 KV-cache 量化方案，在 paged attention 等真实 serving 约束下几乎无损恢复精度且零额外开销。

核心观点

KV-cache 压缩需作为系统协同设计问题看待，必须兼容 paged 内存布局、规则访存与 fused attention。
在这些约束下，简单的 token-wise INT4 + 块对角 Hadamard 旋转就能逼近最佳精度-效率折中。
更复杂的 vector quantization、Hessian-aware 量化在考虑 serving 兼容性后仅带来边际收益。
融合旋转-量化 kernel 可直接嵌入 paged KV-cache，实测端到端零额外开销。

方法

作者筛选出在 serving 约束下仍可行的 4-bit KV 量化方法的最小集合，核心设计为 token-wise INT4 量化配合 block-diagonal Hadamard 旋转以抑制 outlier。随后实现一个 fused rotation-quantization kernel，将旋转与量化与 paged KV-cache 布局对齐，直接与 fused attention 执行路径集成。

If you're waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems

Mon, 27 Apr 2026 05:20:33 +0000

arXiv: 2604.19844 · PDF

作者: Jiamin Chang, Minhui Xue, Ruoxi Sun, Shuchao Pang, Salil S. Kanhere, Hammond Pearce

主分类: cs.CV · 全部: cs.AI, cs.CV

命中关键词: agent, agentic, multi-agent, serving, ai system

TL;DR

针对视觉语言 agent 在真实环境信号与恶意视觉注入之间的"信任边界混淆"问题，提出双意图评测集与多 agent 防御框架，分离感知与决策以动态评估视觉输入可信度。

核心观点

首次定义 trust boundary confusion：VLAS 必须响应合法环境信号（如交通灯），又要抵御伪装成环境信号的视觉注入。
现有 LVLM agent 要么忽略有用信号，要么盲从恶意注入，无法平衡权衡。
提出将 感知与决策解耦 的多 agent 防御架构，可在对抗扰动下提供鲁棒性保证。

方法

构建 dual-intent dataset：同一视觉信号既可能是合法指令也可能是注入攻击，用以测量二元权衡。
设计评测框架，覆盖 structure-based（结构伪造，如假交通牌）与 noise-based（像素级扰动）两类视觉注入。
防御侧：多 agent 流水线——独立的 perception agent 负责识别/验证视觉线索来源与可信度，decision agent 基于可信度评分执行；二者通信带显式信任信号。

实验

在多种 embodied 场景下评测 7 个 LVLM agents。
同时施加结构注入与噪声注入两种攻击。
指标围绕：对合法环境信号的遵从率、对恶意注入的抵抗率、综合权衡表现。

结果

摘要未给出具体数值，仅称防御框架"显著降低误导行为，同时保留对合法信号的正确响应"，并在对抗扰动下具有鲁棒性保证。具体幅度、7 个模型排名、是否存在 trade-off 开销需看正文。

Statistics, Not Scale: Modular Medical Dialogue with Bayesian Belief Engine

Mon, 27 Apr 2026 05:20:01 +0000

arXiv: 2604.20022 · PDF

作者: Yusuf Kesmen, Fay Elhassan, Jiayi Ma, Julien Stalhandske, David Sasu, Alexandra Kulinkina, Akhil Arora, Lars Klein, Mary-Anne Hartley

主分类: cs.LG · 全部: cs.AI, cs.CL, cs.LG

命中关键词: large language model, llm, agent, rag, reasoning, inference

TL;DR

BMBE 把 LLM 降级为"传感器"，把医疗诊断推理交给可审计的贝叶斯引擎，模块化架构在精度、隐私和鲁棒性上超过独立 frontier LLM。

核心观点

LLM 把"自然语言沟通"与"概率推理"混在一起是架构缺陷，而非工程瑕疵。
应严格分离语言层与推理层：LLM 只做解析和措辞，贝叶斯引擎承担全部诊断推断。
由于患者数据不进入 LLM，架构天然私密；统计后端可按人群替换，无需重训。
带来三大独有特性：可调的 selective diagnosis 精度-覆盖权衡、“统计分离 gap”，以及对抗性患者语气下的鲁棒性。

方法

提出 BMBE (Bayesian Medical Belief Engine)，模块化对话诊断框架：

LLM as sensor：解析患者自由文本为结构化证据，并把引擎要问的问题口语化。
Bayesian engine：确定性、可审计的概率推理核心，基于知识库维护疾病后验，决定下一步询问和何时给出诊断。
Selective diagnosis：通过阈值连续调节 accuracy–coverage 折中。
统计后端可独立替换以适配不同人群。

实验

在经验知识库与 LLM 生成知识库两类设置上评测。
基线为同家族的 frontier standalone LLM（autonomous diagnostic agent）。
指标覆盖诊断准确率、覆盖率、成本，以及对抗性沟通风格下的稳健性。具体数据集名称摘要未披露。

结果

廉价 sensor + 贝叶斯引擎可超越同家族 frontier 独立模型，成本只是后者一小部分，呈现"统计分离 gap"。
可连续调节精度-覆盖曲线，独立 LLM 无此能力。
在对抗性患者语气下，独立模型性能崩溃，BMBE 保持稳健。
具体数值摘要未给出，需看正文。

为什么重要

对医疗 agent、隐私合规系统和 LLM infra 从业者：展示了一条"不靠 scale、靠架构"的路线——把不确定性推理从 LLM 里抽出来交给可验证模块，可同时拿到隐私、可审计性、成本优势和可控的弃答机制，对高风险领域部署有直接借鉴意义。

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

Mon, 27 Apr 2026 05:19:25 +0000

arXiv: 2604.19689 · PDF

作者: Shuai Wang, Hongyi Zhu, Jia-Hong Huang, Yixian Shen, Chengxi Zeng, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, retrieval, reasoning, ai system

TL;DR

A-MAR 提出基于 agent 的多模态艺术检索框架，先生成结构化推理计划再条件化检索，实现可解释的艺术品细粒度理解。

核心观点

现有 MLLM 解释艺术品依赖隐式推理和内化知识，缺乏可解释性与证据支撑。
将 retrieval 显式条件化在结构化推理计划上，可支持分步、grounded 的解释。
推出 ArtCoT-QA 诊断基准，评估多步推理链而非只看最终答案准确率。

方法

给定艺术品与用户查询，A-MAR 先把任务分解为结构化推理计划（明确每一步的目标与证据需求），再基于该计划进行有针对性的证据检索，最终生成分步、可追溯的解释。整体流程为 agent-based：plan → retrieve → explain。

实验

数据集：SemArt、Artpedia，以及自建 ArtCoT-QA（多步推理链诊断基准）。
基线：静态非计划式检索方法、强 MLLM baseline。
指标：最终解释质量、证据 grounding、多步推理能力（细粒度诊断）。

结果

A-MAR 在 SemArt 和 Artpedia 上的最终解释质量持续优于静态检索和 MLLM 基线；在 ArtCoT-QA 上，证据 grounding 与多步推理表现进一步领先。具体数字摘要未给出。

Rethinking Scale: Deployment Trade-offs of Small Language Models under Agent Paradigms

Mon, 27 Apr 2026 05:18:58 +0000

arXiv: 2604.19299 · PDF

作者: Xinlin Wang, Mats Brorsson

主分类: cs.CL · 全部: cs.AI, cs.CL

命中关键词: large language model, agent, multi-agent, tool use, reasoning, latency, fine-tun

TL;DR

首次系统评估 <10B 小语言模型在 base、单 agent、多 agent 三种范式下的部署权衡，发现单 agent + 工具在性能与成本间取得最佳平衡。

核心观点

SLM 的知识与推理短板可通过 agent 范式（工具调用、多智能体协作）系统性弥补，而非单纯依赖 scaling law 或 fine-tuning。
首次对 <10B 开源模型在三种部署范式下做大规模对比。
单 agent 系统是性能/成本最优解；多 agent 协作带来额外开销但收益有限。
面向资源受限场景，应采用 agent-centric 的部署设计。

方法

作者在三种范式下统一评测 <10B 开源模型：

Base model：原始模型直接推理。
Single agent：为模型配备工具（tool use）以补齐知识/推理缺口。
Multi-agent：多个 agent 协同完成任务。摘要未披露具体 orchestration 框架、工具集与 prompting 细节。

实验

摘要仅说明是"大规模、全面"的研究，覆盖多个 <10B 开源模型，并在三范式下横向比较性能与成本。具体数据集、基线模型列表、评估指标（如准确率、延迟、token 成本）摘要未给出。

GRASPrune: Global Gating for Budgeted Structured Pruning of Large Language Models

Mon, 27 Apr 2026 05:18:29 +0000

arXiv: 2604.19398 · PDF

作者: Ziyang Wang, Jiangfeng Xiao, Chuan Xiao, Ruoxiang Li, Rui Mao, Jianbin Qin

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, rag, inference, kv cache, attention, gpu, latency, fine-tun

TL;DR

GRASPrune 提出面向 LLM 的结构化剪枝框架，用全局预算下的轻量门控分数，在预训练后联合剪枝 FFN 通道和 KV head group，无需微调骨干权重。

核心观点

将 FFN 通道与 KV head group 统一在单一全局预算下联合剪枝，而非分模块独立决策。
用投影式 straight-through estimator (STE) 学习门控分数，每一步都强制满足硬预算掩码。
骨干权重冻结，仅训练轻量 gate，显著降低训练开销。
剪枝后通过scaling factor 校准并折叠进权重，得到无额外推理参数的更小 dense checkpoint。

方法

训练后剪枝（post-pretraining）：在 FFN channel 与 KV head group 两种结构单元上放置 gate。
通过 projected STE 让前向使用硬 0/1 mask 并满足预算约束，反向传递连续梯度更新 gate。
mask 固定后，对保留单元的 scale 做校准，补偿剪枝引起的激活 scale mismatch。
将校准后的 scale 折叠到权重，产出一个尺寸更小的 dense 模型，推理时无额外算子。

实验

模型：LLaMA-2-7B。
剪枝率：50% 参数移除。
数据：512 条无标签校准序列，训练 4 个 epoch。
硬件：单卡 NVIDIA A100 80GB。
评测：WikiText-2 perplexity，以及 5 个 zero-shot 基准的平均准确率。

结果

WikiText-2 上 perplexity 12.18（50% 剪枝率下）。
5 个 zero-shot 基准平均准确率与基线具竞争力（摘要未给具体数值）。
无需对整模型做 full fine-tuning，成本低。

为什么重要

对推理基础设施，同时压缩 FFN 和 KV cache 的剪枝能同时降低 memory、latency 与 KV cache 占用。
单 A100 完成 7B 模型剪枝且无 full FT，门槛低、可复现，适合部署团队快速裁剪自有模型。
输出 dense checkpoint，兼容现有推理栈，无需稀疏算子支持。

与已有工作的关系

延续 LLM-Pruner、SliceGPT、Wanda、SparseGPT 等 post-training 结构化/非结构化剪枝思路。
gate + STE 学习 mask 的做法与 Movement Pruning、DSNet 等一脉相承。
关注 KV head 组剪枝与 GQA、MQA、KV cache compression 研究方向相关。
scale 校准折叠思想与 SmoothQuant、AWQ 的 scale 迁移技巧类似。

尚未回答的问题

在更大模型（13B/70B）和更高剪枝率下是否仍保持 PPL？
与 SparseGPT / Wanda 等强基线的直接对比数字未给出。
与量化（INT4/INT8）叠加后的效果与误差累积如何？
对 long-context 推理与 KV cache 实际延迟/显存节省的端到端测量缺失。
gate 训练对校准数据领域分布的敏感性未讨论。

论文图表

图 1: Page 2 (rendered)

ChipCraftBrain: Validation-First RTL Generation via Multi-Agent Orchestration

Mon, 27 Apr 2026 05:17:55 +0000

arXiv: 2604.19856 · PDF

作者: Cagri Eryilmaz

主分类: cs.AR · 全部: cs.AI, cs.AR, cs.LG

命中关键词: large language model, llm, agent, agentic, multi-agent, retrieval, rag, reasoning

TL;DR

ChipCraftBrain 用多 agent 编排加符号-神经混合推理做 RTL 生成，在 VerilogEval-Human 达到 97.2% pass@1，在 CVDP 子集达 94.7%，并成功跑通 RISC-V SoC 分层生成。

核心观点

单次生成 RTL 正确率仅 60-65%，现有多 agent（MAGE）在更难的工业基准 CVDP 上未验证且成本高。
提出 validation-first 的多 agent 框架，结合 PPO 自适应编排、符号-神经混合、知识检索与层次化分解。
在 VerilogEval-Human 和 CVDP 非 agentic 子集上均取得 SOTA 级结果，且 per-problem 调用次数比 ACE-RTL 少约 30 倍。

方法

四项创新：