<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>2026-04-21 on JXIN&#39;s Home</title>
    <link>https://ftxj.github.io/zh/categories/2026-04-21/</link>
    <description>Recent content in 2026-04-21 on JXIN&#39;s Home</description>
    <generator>Hugo</generator>
    <language>zh</language>
    <lastBuildDate>Mon, 27 Apr 2026 05:22:58 +0000</lastBuildDate>
    <atom:link href="https://ftxj.github.io/zh/categories/2026-04-21/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps</title>
      <link>https://ftxj.github.io/zh/posts/2026-04-21/10-cyber-defense-benchmark-agentic-threat-hunting-evaluation-fo/</link>
      <pubDate>Mon, 27 Apr 2026 05:22:58 +0000</pubDate>
      <guid>https://ftxj.github.io/zh/posts/2026-04-21/10-cyber-defense-benchmark-agentic-threat-hunting-evaluation-fo/</guid>
      <description>&lt;p&gt;&lt;strong&gt;arXiv:&lt;/strong&gt; &lt;a href=&#34;https://arxiv.org/abs/2604.19533v3&#34;&gt;2604.19533&lt;/a&gt; · &lt;a href=&#34;https://arxiv.org/pdf/2604.19533v3&#34;&gt;PDF&lt;/a&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;作者:&lt;/strong&gt; Alankrit Chona, Igor Kozlov, Ambuj Kumar&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;主分类:&lt;/strong&gt; &lt;code&gt;cs.CR&lt;/code&gt; · 全部: cs.AI, cs.CR&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;命中关键词:&lt;/strong&gt; large language model, llm, agent, agentic, rag&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;tldr&#34;&gt;TL;DR&lt;/h2&gt;&#xA;&lt;p&gt;提出 Cyber Defense Benchmark，用 106 条真实攻击、75k–135k 条 Windows 日志的 SQLite 环境让 LLM agent 做无提示威胁狩猎；五大前沿模型最高召回仅 3.8%，全部不及格。&lt;/p&gt;&#xA;&lt;h2 id=&#34;核心观点&#34;&gt;核心观点&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;首个面向 SOC 威胁狩猎核心任务的 agentic benchmark，强调无引导问题、纯证据驱动。&lt;/li&gt;&#xA;&lt;li&gt;将 OTRF Security-Datasets 的 106 个攻击程序打包进 Gymnasium RL 环境，CTF 式评分。&lt;/li&gt;&#xA;&lt;li&gt;结论鲜明：当前 frontier LLM 在开放式威胁狩猎上尚不可用，Q&amp;amp;A 榜单成绩具有误导性。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;方法&#34;&gt;方法&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;数据基于 OTRF Security-Datasets，覆盖 MITRE ATT&amp;amp;CK 12 tactics、86 sub-techniques。&lt;/li&gt;&#xA;&lt;li&gt;用确定性 campaign simulator 对原始日志做时间平移和实体混淆，得到每集 75k–135k 条的 in-memory SQLite 库。&lt;/li&gt;&#xA;&lt;li&gt;Agent 通过迭代提交 SQL 查询检索恶意事件，并显式 flag 时间戳；ground truth 来自 Sigma 规则。&lt;/li&gt;&#xA;&lt;li&gt;包装成 Gymnasium RL 环境，支持标准化评测与 CTF 式打分。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;实验&#34;&gt;实验&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;评测 5 个 frontier 模型：Claude Opus 4.6、GPT-5、Gemini 3.1 Pro、Kimi K2.5、Gemini 3 Flash。&lt;/li&gt;&#xA;&lt;li&gt;跑 26 个 campaigns，覆盖 106 个 procedures 中的 105 个。&lt;/li&gt;&#xA;&lt;li&gt;指标：每个恶意事件的 flag 正确率；通过标准为每个 ATT&amp;amp;CK tactic 召回 ≥ 50%。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;结果&#34;&gt;结果&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;最强模型 Claude Opus 4.6 平均只 flag 出 3.8% 的恶意事件。&lt;/li&gt;&#xA;&lt;li&gt;没有任何一次运行找全所有 flag。&lt;/li&gt;&#xA;&lt;li&gt;通过线（13 tactics 全部 ≥50%）无模型达成；leader 仅在 5/13 tactics 达标，其余四个模型 0/13。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;为什么重要&#34;&gt;为什么重要&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;给 SecOps / agent 基础设施从业者一个真实、可复现的 RL-style 评测，而非多选题。&lt;/li&gt;&#xA;&lt;li&gt;揭示 frontier LLM 在长上下文、多轮 SQL 证据检索和 ATT&amp;amp;CK 覆盖上的系统性短板。&lt;/li&gt;&#xA;&lt;li&gt;为 tool-use、memory、planning、RL 微调等方向提供明确 target 和 headroom。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;与已有工作的关系&#34;&gt;与已有工作的关系&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;延续 MITRE ATT&amp;amp;CK、Sigma rules、OTRF Security-Datasets 的威胁检测脉络。&lt;/li&gt;&#xA;&lt;li&gt;对比已有 curated 安全 Q&amp;amp;A benchmark（如 CyberSecEval、SecQA 类），强调 agentic、open-ended 设定。&lt;/li&gt;&#xA;&lt;li&gt;借鉴 Gymnasium / CTF-style agent benchmark（SWE-bench、Cybench 等）的评测范式。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;尚未回答的问题&#34;&gt;尚未回答的问题&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;给予工具增强（SIEM、检测库、RAG、notebook）或 fine-tuning 后表现能否质变？&lt;/li&gt;&#xA;&lt;li&gt;失败主因是 SQL 推理、长上下文，还是 ATT&amp;amp;CK 先验知识不足？&lt;/li&gt;&#xA;&lt;li&gt;能否扩展到 Linux、网络流、云日志等非 Windows 数据源？&lt;/li&gt;&#xA;&lt;li&gt;如何防止 benchmark 被训练集污染，保持长期可用？&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;论文图表&#34;&gt;论文图表&lt;/h2&gt;&#xA;&lt;p&gt;&lt;strong&gt;图 1:&lt;/strong&gt; Figure 1 (extracted from PDF)&lt;/p&gt;</description>
    </item>
    <item>
      <title>TRN-R1-Zero: Text-rich Network Reasoning via LLMs with Reinforcement Learning Only</title>
      <link>https://ftxj.github.io/zh/posts/2026-04-21/09-trn-r1-zero-text-rich-network-reasoning-via-llms-with-reinfo/</link>
      <pubDate>Mon, 27 Apr 2026 05:22:24 +0000</pubDate>
      <guid>https://ftxj.github.io/zh/posts/2026-04-21/09-trn-r1-zero-text-rich-network-reasoning-via-llms-with-reinfo/</guid>
      <description>&lt;p&gt;&lt;strong&gt;arXiv:&lt;/strong&gt; &lt;a href=&#34;https://arxiv.org/abs/2604.19070v1&#34;&gt;2604.19070&lt;/a&gt; · &lt;a href=&#34;https://arxiv.org/pdf/2604.19070v1&#34;&gt;PDF&lt;/a&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;作者:&lt;/strong&gt; Yilun Liu, Ruihong Qiu, Zi Huang&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;主分类:&lt;/strong&gt; &lt;code&gt;cs.CL&lt;/code&gt; · 全部: cs.CL, cs.LG&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;命中关键词:&lt;/strong&gt; large language model, llm, reasoning, chain-of-thought, inference, fine-tun, post-train&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;tldr&#34;&gt;TL;DR&lt;/h2&gt;&#xA;&lt;p&gt;TRN-R1-Zero 提出纯强化学习的后训练框架，让 LLM 在文本丰富网络（TRN）上实现零样本关系推理，无需 SFT 或蒸馏数据。&lt;/p&gt;&#xA;&lt;h2 id=&#34;核心观点&#34;&gt;核心观点&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;首个仅依赖 RL、不需 SFT 与 CoT 蒸馏的 TRN 推理后训练方案&lt;/li&gt;&#xA;&lt;li&gt;提出 Neighbour-aware GRPO：根据邻居信息量动态调整奖励&lt;/li&gt;&#xA;&lt;li&gt;引入 margin gain 指标量化邻居信号的 informativeness&lt;/li&gt;&#xA;&lt;li&gt;仅用 node-level 训练即可零样本迁移到 edge-level 与 graph-level 任务&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;方法&#34;&gt;方法&lt;/h2&gt;&#xA;&lt;p&gt;在 base LLM 上做 RL 后训练，核心目标为 Neighbour-aware Group Relative Policy Optimisation（GRPO 的扩展）。通过新提出的 margin gain 指标衡量邻居节点对当前推理的边际贡献，并据此动态重塑奖励，引导模型主动整合图结构与文本语义，而非仅依赖节点自身文本。全程无监督微调，无需来自更大 reasoning model 的 CoT 数据。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Detoxification for LLM: From Dataset Itself</title>
      <link>https://ftxj.github.io/zh/posts/2026-04-21/08-detoxification-for-llm-from-dataset-itself/</link>
      <pubDate>Mon, 27 Apr 2026 05:21:36 +0000</pubDate>
      <guid>https://ftxj.github.io/zh/posts/2026-04-21/08-detoxification-for-llm-from-dataset-itself/</guid>
      <description>&lt;p&gt;&lt;strong&gt;arXiv:&lt;/strong&gt; &lt;a href=&#34;https://arxiv.org/abs/2604.19124v1&#34;&gt;2604.19124&lt;/a&gt; · &lt;a href=&#34;https://arxiv.org/pdf/2604.19124v1&#34;&gt;PDF&lt;/a&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;作者:&lt;/strong&gt; Wei Shao, Yihang Wang, Gaoyu Zhu, Ziqiang Cheng, Lei Yu, Jiafeng Guo, Xueqi Cheng&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;主分类:&lt;/strong&gt; &lt;code&gt;cs.CL&lt;/code&gt; · 全部: cs.CL&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;命中关键词:&lt;/strong&gt; large language model, llm, inference, serving, fine-tun, post-train&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;tldr&#34;&gt;TL;DR&lt;/h2&gt;&#xA;&lt;p&gt;提出 HSPD pipeline + SoCD 解码，直接在预训练语料层面改写有毒片段，从源头降低 LLM 毒性，同时保留语义与数据可用性。&lt;/p&gt;&#xA;&lt;h2 id=&#34;核心观点&#34;&gt;核心观点&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;现有去毒方法聚焦 post-training 或 inference-time，难以根除模型内在毒性&lt;/li&gt;&#xA;&lt;li&gt;毒性真正的源头是数据集本身，应在 corpus 层面做治理&lt;/li&gt;&#xA;&lt;li&gt;提出 HSPD（Hierarchical Semantic-Preserving Detoxification）pipeline，输出可直接替换原始语料用于 fine-tuning&lt;/li&gt;&#xA;&lt;li&gt;引入 SoCD（Soft Contrastive Decoding），引导 LLM 定位并重写毒性片段，保留语义&lt;/li&gt;&#xA;&lt;li&gt;在多种主流 LLM 上取得 SOTA 去毒效果&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;方法&#34;&gt;方法&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;HSPD 是一个分层、语义保持的 corpus-level 去毒 pipeline&lt;/li&gt;&#xA;&lt;li&gt;核心解码机制 SoCD：对原始语料中的毒性 span 做定位与改写，而非简单删除或屏蔽&lt;/li&gt;&#xA;&lt;li&gt;通过对比解码抑制毒性表达、保持语义一致，产出 drop-in 替换的去毒语料&lt;/li&gt;&#xA;&lt;li&gt;下游训练流程（fine-tuning 等）不需修改，仅更换训练数据&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;实验&#34;&gt;实验&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;模型：GPT2-XL、LLaMA2-7B、OPT-6.7B、Falcon-7B&lt;/li&gt;&#xA;&lt;li&gt;指标：Toxicity Probability (TP)、Expected Maximum Toxicity (EMT)&lt;/li&gt;&#xA;&lt;li&gt;基线：摘要未具体列出，仅声称对比主流 detox 方法取得 best-in-class&lt;/li&gt;&#xA;&lt;li&gt;代码开源：github.com/ntsw2001/data_detox_for_llm&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;结果&#34;&gt;结果&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;GPT2-XL：TP 0.42 → 0.18，EMT 0.43 → 0.20&lt;/li&gt;&#xA;&lt;li&gt;LLaMA2-7B / OPT-6.7B / Falcon-7B 上也报告一致的 best-in-class 结果&lt;/li&gt;&#xA;&lt;li&gt;声称在降低毒性的同时保留数据效用（utility），但摘要未给出 utility 的量化数字&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;为什么重要&#34;&gt;为什么重要&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;将 detox 从推理期/后训练迁移到数据源头，是一种更根本的治理路径&lt;/li&gt;&#xA;&lt;li&gt;产出的去毒语料可直接替换原始数据，不改训练代码，落地成本低&lt;/li&gt;&#xA;&lt;li&gt;为安全对齐团队提供&amp;quot;数据层防线&amp;quot;，可减少后续 RLHF / 解码端修补负担&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;与已有工作的关系&#34;&gt;与已有工作的关系&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;相对 DAPT、Self-Debias、GeDi、DExperts 等 post-training / controllable decoding 方法，把干预点前移&lt;/li&gt;&#xA;&lt;li&gt;延续 contrastive decoding 思路，但将其从生成控制用于 corpus 改写&lt;/li&gt;&#xA;&lt;li&gt;与数据清洗/过滤式 detox（如 RealToxicityPrompts 过滤）相比，采用改写而非丢弃以保留 utility&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;尚未回答的问题&#34;&gt;尚未回答的问题&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;utility 损失的具体量化（perplexity、下游任务精度）未在摘要中给出&lt;/li&gt;&#xA;&lt;li&gt;SoCD 改写是否引入新的 bias 或事实性错误&lt;/li&gt;&#xA;&lt;li&gt;对超大规模预训练语料（trillion tokens）的可扩展性与算力开销&lt;/li&gt;&#xA;&lt;li&gt;在多语言 / 多毒性类型（仇恨、性别、政治）上的泛化性&lt;/li&gt;&#xA;&lt;li&gt;与 RLHF、constitutional AI 等对齐手段的叠加收益&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;论文图表&#34;&gt;论文图表&lt;/h2&gt;&#xA;&lt;p&gt;&lt;strong&gt;图 1:&lt;/strong&gt; Figure 1 (extracted from PDF)&lt;/p&gt;</description>
    </item>
    <item>
      <title>SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving</title>
      <link>https://ftxj.github.io/zh/posts/2026-04-21/07-saw-int4-system-aware-4-bit-kv-cache-quantization-for-real-w/</link>
      <pubDate>Mon, 27 Apr 2026 05:21:04 +0000</pubDate>
      <guid>https://ftxj.github.io/zh/posts/2026-04-21/07-saw-int4-system-aware-4-bit-kv-cache-quantization-for-real-w/</guid>
      <description>&lt;p&gt;&lt;strong&gt;arXiv:&lt;/strong&gt; &lt;a href=&#34;https://arxiv.org/abs/2604.19157v1&#34;&gt;2604.19157&lt;/a&gt; · &lt;a href=&#34;https://arxiv.org/pdf/2604.19157v1&#34;&gt;PDF&lt;/a&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;作者:&lt;/strong&gt; Jinda Jia, Jisen Li, Zhongzhu Zhou, Jung Hwan Heo, Jue Wang, Tri Dao, Shuaiwen Leon Song, Ben Athiwaratkun, Chenfeng Xu, Tianyi Zhang, Xiaoxia Wu&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;主分类:&lt;/strong&gt; &lt;code&gt;cs.LG&lt;/code&gt; · 全部: cs.LG&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;命中关键词:&lt;/strong&gt; llm, serving, kv-cache, quantization, attention, throughput, latency&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;tldr&#34;&gt;TL;DR&lt;/h2&gt;&#xA;&lt;p&gt;SAW-INT4 提出 token-wise INT4 + block-diagonal Hadamard 旋转的 KV-cache 量化方案，在 paged attention 等真实 serving 约束下几乎无损恢复精度且零额外开销。&lt;/p&gt;&#xA;&lt;h2 id=&#34;核心观点&#34;&gt;核心观点&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;KV-cache 压缩需作为系统协同设计问题看待，必须兼容 paged 内存布局、规则访存与 fused attention。&lt;/li&gt;&#xA;&lt;li&gt;在这些约束下，简单的 token-wise INT4 + 块对角 Hadamard 旋转就能逼近最佳精度-效率折中。&lt;/li&gt;&#xA;&lt;li&gt;更复杂的 vector quantization、Hessian-aware 量化在考虑 serving 兼容性后仅带来边际收益。&lt;/li&gt;&#xA;&lt;li&gt;融合旋转-量化 kernel 可直接嵌入 paged KV-cache，实测端到端零额外开销。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;方法&#34;&gt;方法&lt;/h2&gt;&#xA;&lt;p&gt;作者筛选出在 serving 约束下仍可行的 4-bit KV 量化方法的最小集合，核心设计为 token-wise INT4 量化配合 block-diagonal Hadamard 旋转以抑制 outlier。随后实现一个 fused rotation-quantization kernel，将旋转与量化与 paged KV-cache 布局对齐，直接与 fused attention 执行路径集成。&lt;/p&gt;</description>
    </item>
    <item>
      <title>If you&#39;re waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems</title>
      <link>https://ftxj.github.io/zh/posts/2026-04-21/06-if-you-re-waiting-for-a-sign-that-might-not-be-it-mitigating/</link>
      <pubDate>Mon, 27 Apr 2026 05:20:33 +0000</pubDate>
      <guid>https://ftxj.github.io/zh/posts/2026-04-21/06-if-you-re-waiting-for-a-sign-that-might-not-be-it-mitigating/</guid>
      <description>&lt;p&gt;&lt;strong&gt;arXiv:&lt;/strong&gt; &lt;a href=&#34;https://arxiv.org/abs/2604.19844v1&#34;&gt;2604.19844&lt;/a&gt; · &lt;a href=&#34;https://arxiv.org/pdf/2604.19844v1&#34;&gt;PDF&lt;/a&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;作者:&lt;/strong&gt; Jiamin Chang, Minhui Xue, Ruoxi Sun, Shuchao Pang, Salil S. Kanhere, Hammond Pearce&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;主分类:&lt;/strong&gt; &lt;code&gt;cs.CV&lt;/code&gt; · 全部: cs.AI, cs.CV&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;命中关键词:&lt;/strong&gt; agent, agentic, multi-agent, serving, ai system&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;tldr&#34;&gt;TL;DR&lt;/h2&gt;&#xA;&lt;p&gt;针对视觉语言 agent 在真实环境信号与恶意视觉注入之间的&amp;quot;信任边界混淆&amp;quot;问题，提出双意图评测集与多 agent 防御框架，分离感知与决策以动态评估视觉输入可信度。&lt;/p&gt;&#xA;&lt;h2 id=&#34;核心观点&#34;&gt;核心观点&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;首次定义 &lt;strong&gt;trust boundary confusion&lt;/strong&gt;：VLAS 必须响应合法环境信号（如交通灯），又要抵御伪装成环境信号的视觉注入。&lt;/li&gt;&#xA;&lt;li&gt;现有 LVLM agent 要么忽略有用信号，要么盲从恶意注入，无法平衡权衡。&lt;/li&gt;&#xA;&lt;li&gt;提出将 &lt;strong&gt;感知与决策解耦&lt;/strong&gt; 的多 agent 防御架构，可在对抗扰动下提供鲁棒性保证。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;方法&#34;&gt;方法&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;构建 &lt;strong&gt;dual-intent dataset&lt;/strong&gt;：同一视觉信号既可能是合法指令也可能是注入攻击，用以测量二元权衡。&lt;/li&gt;&#xA;&lt;li&gt;设计评测框架，覆盖 &lt;strong&gt;structure-based&lt;/strong&gt;（结构伪造，如假交通牌）与 &lt;strong&gt;noise-based&lt;/strong&gt;（像素级扰动）两类视觉注入。&lt;/li&gt;&#xA;&lt;li&gt;防御侧：多 agent 流水线——独立的 perception agent 负责识别/验证视觉线索来源与可信度，decision agent 基于可信度评分执行；二者通信带显式信任信号。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;实验&#34;&gt;实验&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在多种 embodied 场景下评测 &lt;strong&gt;7 个 LVLM agents&lt;/strong&gt;。&lt;/li&gt;&#xA;&lt;li&gt;同时施加结构注入与噪声注入两种攻击。&lt;/li&gt;&#xA;&lt;li&gt;指标围绕：对合法环境信号的遵从率、对恶意注入的抵抗率、综合权衡表现。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;结果&#34;&gt;结果&lt;/h2&gt;&#xA;&lt;p&gt;摘要未给出具体数值，仅称防御框架&amp;quot;显著降低误导行为，同时保留对合法信号的正确响应&amp;quot;，并在对抗扰动下具有鲁棒性保证。具体幅度、7 个模型排名、是否存在 trade-off 开销需看正文。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Statistics, Not Scale: Modular Medical Dialogue with Bayesian Belief Engine</title>
      <link>https://ftxj.github.io/zh/posts/2026-04-21/05-statistics-not-scale-modular-medical-dialogue-with-bayesian/</link>
      <pubDate>Mon, 27 Apr 2026 05:20:01 +0000</pubDate>
      <guid>https://ftxj.github.io/zh/posts/2026-04-21/05-statistics-not-scale-modular-medical-dialogue-with-bayesian/</guid>
      <description>&lt;p&gt;&lt;strong&gt;arXiv:&lt;/strong&gt; &lt;a href=&#34;https://arxiv.org/abs/2604.20022v1&#34;&gt;2604.20022&lt;/a&gt; · &lt;a href=&#34;https://arxiv.org/pdf/2604.20022v1&#34;&gt;PDF&lt;/a&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;作者:&lt;/strong&gt; Yusuf Kesmen, Fay Elhassan, Jiayi Ma, Julien Stalhandske, David Sasu, Alexandra Kulinkina, Akhil Arora, Lars Klein, Mary-Anne Hartley&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;主分类:&lt;/strong&gt; &lt;code&gt;cs.LG&lt;/code&gt; · 全部: cs.AI, cs.CL, cs.LG&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;命中关键词:&lt;/strong&gt; large language model, llm, agent, rag, reasoning, inference&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;tldr&#34;&gt;TL;DR&lt;/h2&gt;&#xA;&lt;p&gt;BMBE 把 LLM 降级为&amp;quot;传感器&amp;quot;，把医疗诊断推理交给可审计的贝叶斯引擎，模块化架构在精度、隐私和鲁棒性上超过独立 frontier LLM。&lt;/p&gt;&#xA;&lt;h2 id=&#34;核心观点&#34;&gt;核心观点&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;LLM 把&amp;quot;自然语言沟通&amp;quot;与&amp;quot;概率推理&amp;quot;混在一起是架构缺陷，而非工程瑕疵。&lt;/li&gt;&#xA;&lt;li&gt;应严格分离语言层与推理层：LLM 只做解析和措辞，贝叶斯引擎承担全部诊断推断。&lt;/li&gt;&#xA;&lt;li&gt;由于患者数据不进入 LLM，架构天然私密；统计后端可按人群替换，无需重训。&lt;/li&gt;&#xA;&lt;li&gt;带来三大独有特性：可调的 selective diagnosis 精度-覆盖权衡、&amp;ldquo;统计分离 gap&amp;rdquo;，以及对抗性患者语气下的鲁棒性。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;方法&#34;&gt;方法&lt;/h2&gt;&#xA;&lt;p&gt;提出 BMBE (Bayesian Medical Belief Engine)，模块化对话诊断框架：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;LLM as sensor&lt;/strong&gt;：解析患者自由文本为结构化证据，并把引擎要问的问题口语化。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Bayesian engine&lt;/strong&gt;：确定性、可审计的概率推理核心，基于知识库维护疾病后验，决定下一步询问和何时给出诊断。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Selective diagnosis&lt;/strong&gt;：通过阈值连续调节 accuracy–coverage 折中。&lt;/li&gt;&#xA;&lt;li&gt;统计后端可独立替换以适配不同人群。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;实验&#34;&gt;实验&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在经验知识库与 LLM 生成知识库两类设置上评测。&lt;/li&gt;&#xA;&lt;li&gt;基线为同家族的 frontier standalone LLM（autonomous diagnostic agent）。&lt;/li&gt;&#xA;&lt;li&gt;指标覆盖诊断准确率、覆盖率、成本，以及对抗性沟通风格下的稳健性。具体数据集名称摘要未披露。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;结果&#34;&gt;结果&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;廉价 sensor + 贝叶斯引擎可超越同家族 frontier 独立模型，成本只是后者一小部分，呈现&amp;quot;统计分离 gap&amp;quot;。&lt;/li&gt;&#xA;&lt;li&gt;可连续调节精度-覆盖曲线，独立 LLM 无此能力。&lt;/li&gt;&#xA;&lt;li&gt;在对抗性患者语气下，独立模型性能崩溃，BMBE 保持稳健。&lt;/li&gt;&#xA;&lt;li&gt;具体数值摘要未给出，需看正文。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;为什么重要&#34;&gt;为什么重要&lt;/h2&gt;&#xA;&lt;p&gt;对医疗 agent、隐私合规系统和 LLM infra 从业者：展示了一条&amp;quot;不靠 scale、靠架构&amp;quot;的路线——把不确定性推理从 LLM 里抽出来交给可验证模块，可同时拿到隐私、可审计性、成本优势和可控的弃答机制，对高风险领域部署有直接借鉴意义。&lt;/p&gt;</description>
    </item>
    <item>
      <title>A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding</title>
      <link>https://ftxj.github.io/zh/posts/2026-04-21/04-a-mar-agent-based-multimodal-art-retrieval-for-fine-grained/</link>
      <pubDate>Mon, 27 Apr 2026 05:19:25 +0000</pubDate>
      <guid>https://ftxj.github.io/zh/posts/2026-04-21/04-a-mar-agent-based-multimodal-art-retrieval-for-fine-grained/</guid>
      <description>&lt;p&gt;&lt;strong&gt;arXiv:&lt;/strong&gt; &lt;a href=&#34;https://arxiv.org/abs/2604.19689v1&#34;&gt;2604.19689&lt;/a&gt; · &lt;a href=&#34;https://arxiv.org/pdf/2604.19689v1&#34;&gt;PDF&lt;/a&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;作者:&lt;/strong&gt; Shuai Wang, Hongyi Zhu, Jia-Hong Huang, Yixian Shen, Chengxi Zeng, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;主分类:&lt;/strong&gt; &lt;code&gt;cs.AI&lt;/code&gt; · 全部: cs.AI&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;命中关键词:&lt;/strong&gt; large language model, llm, agent, retrieval, reasoning, ai system&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;tldr&#34;&gt;TL;DR&lt;/h2&gt;&#xA;&lt;p&gt;A-MAR 提出基于 agent 的多模态艺术检索框架，先生成结构化推理计划再条件化检索，实现可解释的艺术品细粒度理解。&lt;/p&gt;&#xA;&lt;h2 id=&#34;核心观点&#34;&gt;核心观点&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;现有 MLLM 解释艺术品依赖隐式推理和内化知识，缺乏可解释性与证据支撑。&lt;/li&gt;&#xA;&lt;li&gt;将 retrieval 显式条件化在结构化推理计划上，可支持分步、grounded 的解释。&lt;/li&gt;&#xA;&lt;li&gt;推出 ArtCoT-QA 诊断基准，评估多步推理链而非只看最终答案准确率。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;方法&#34;&gt;方法&lt;/h2&gt;&#xA;&lt;p&gt;给定艺术品与用户查询，A-MAR 先把任务分解为结构化推理计划（明确每一步的目标与证据需求），再基于该计划进行有针对性的证据检索，最终生成分步、可追溯的解释。整体流程为 agent-based：plan → retrieve → explain。&lt;/p&gt;&#xA;&lt;h2 id=&#34;实验&#34;&gt;实验&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;数据集：SemArt、Artpedia，以及自建 ArtCoT-QA（多步推理链诊断基准）。&lt;/li&gt;&#xA;&lt;li&gt;基线：静态非计划式检索方法、强 MLLM baseline。&lt;/li&gt;&#xA;&lt;li&gt;指标：最终解释质量、证据 grounding、多步推理能力（细粒度诊断）。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;结果&#34;&gt;结果&lt;/h2&gt;&#xA;&lt;p&gt;A-MAR 在 SemArt 和 Artpedia 上的最终解释质量持续优于静态检索和 MLLM 基线；在 ArtCoT-QA 上，证据 grounding 与多步推理表现进一步领先。具体数字摘要未给出。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Rethinking Scale: Deployment Trade-offs of Small Language Models under Agent Paradigms</title>
      <link>https://ftxj.github.io/zh/posts/2026-04-21/03-rethinking-scale-deployment-trade-offs-of-small-language-mod/</link>
      <pubDate>Mon, 27 Apr 2026 05:18:58 +0000</pubDate>
      <guid>https://ftxj.github.io/zh/posts/2026-04-21/03-rethinking-scale-deployment-trade-offs-of-small-language-mod/</guid>
      <description>&lt;p&gt;&lt;strong&gt;arXiv:&lt;/strong&gt; &lt;a href=&#34;https://arxiv.org/abs/2604.19299v1&#34;&gt;2604.19299&lt;/a&gt; · &lt;a href=&#34;https://arxiv.org/pdf/2604.19299v1&#34;&gt;PDF&lt;/a&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;作者:&lt;/strong&gt; Xinlin Wang, Mats Brorsson&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;主分类:&lt;/strong&gt; &lt;code&gt;cs.CL&lt;/code&gt; · 全部: cs.AI, cs.CL&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;命中关键词:&lt;/strong&gt; large language model, agent, multi-agent, tool use, reasoning, latency, fine-tun&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;tldr&#34;&gt;TL;DR&lt;/h2&gt;&#xA;&lt;p&gt;首次系统评估 &amp;lt;10B 小语言模型在 base、单 agent、多 agent 三种范式下的部署权衡，发现单 agent + 工具在性能与成本间取得最佳平衡。&lt;/p&gt;&#xA;&lt;h2 id=&#34;核心观点&#34;&gt;核心观点&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;SLM 的知识与推理短板可通过 agent 范式（工具调用、多智能体协作）系统性弥补，而非单纯依赖 scaling law 或 fine-tuning。&lt;/li&gt;&#xA;&lt;li&gt;首次对 &amp;lt;10B 开源模型在三种部署范式下做大规模对比。&lt;/li&gt;&#xA;&lt;li&gt;单 agent 系统是性能/成本最优解；多 agent 协作带来额外开销但收益有限。&lt;/li&gt;&#xA;&lt;li&gt;面向资源受限场景，应采用 agent-centric 的部署设计。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;方法&#34;&gt;方法&lt;/h2&gt;&#xA;&lt;p&gt;作者在三种范式下统一评测 &amp;lt;10B 开源模型：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;Base model&lt;/strong&gt;：原始模型直接推理。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Single agent&lt;/strong&gt;：为模型配备工具（tool use）以补齐知识/推理缺口。&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;Multi-agent&lt;/strong&gt;：多个 agent 协同完成任务。&#xA;摘要未披露具体 orchestration 框架、工具集与 prompting 细节。&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h2 id=&#34;实验&#34;&gt;实验&lt;/h2&gt;&#xA;&lt;p&gt;摘要仅说明是&amp;quot;大规模、全面&amp;quot;的研究，覆盖多个 &amp;lt;10B 开源模型，并在三范式下横向比较性能与成本。具体数据集、基线模型列表、评估指标（如准确率、延迟、token 成本）摘要未给出。&lt;/p&gt;</description>
    </item>
    <item>
      <title>GRASPrune: Global Gating for Budgeted Structured Pruning of Large Language Models</title>
      <link>https://ftxj.github.io/zh/posts/2026-04-21/02-grasprune-global-gating-for-budgeted-structured-pruning-of-l/</link>
      <pubDate>Mon, 27 Apr 2026 05:18:29 +0000</pubDate>
      <guid>https://ftxj.github.io/zh/posts/2026-04-21/02-grasprune-global-gating-for-budgeted-structured-pruning-of-l/</guid>
      <description>&lt;p&gt;&lt;strong&gt;arXiv:&lt;/strong&gt; &lt;a href=&#34;https://arxiv.org/abs/2604.19398v1&#34;&gt;2604.19398&lt;/a&gt; · &lt;a href=&#34;https://arxiv.org/pdf/2604.19398v1&#34;&gt;PDF&lt;/a&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;作者:&lt;/strong&gt; Ziyang Wang, Jiangfeng Xiao, Chuan Xiao, Ruoxiang Li, Rui Mao, Jianbin Qin&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;主分类:&lt;/strong&gt; &lt;code&gt;cs.AI&lt;/code&gt; · 全部: cs.AI&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;命中关键词:&lt;/strong&gt; large language model, llm, rag, inference, kv cache, attention, gpu, latency, fine-tun&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;tldr&#34;&gt;TL;DR&lt;/h2&gt;&#xA;&lt;p&gt;GRASPrune 提出面向 LLM 的结构化剪枝框架，用全局预算下的轻量门控分数，在预训练后联合剪枝 FFN 通道和 KV head group，无需微调骨干权重。&lt;/p&gt;&#xA;&lt;h2 id=&#34;核心观点&#34;&gt;核心观点&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;将 FFN 通道与 KV head group 统一在&lt;strong&gt;单一全局预算&lt;/strong&gt;下联合剪枝，而非分模块独立决策。&lt;/li&gt;&#xA;&lt;li&gt;用&lt;strong&gt;投影式 straight-through estimator (STE)&lt;/strong&gt; 学习门控分数，每一步都强制满足硬预算掩码。&lt;/li&gt;&#xA;&lt;li&gt;骨干权重冻结，仅训练轻量 gate，显著降低训练开销。&lt;/li&gt;&#xA;&lt;li&gt;剪枝后通过&lt;strong&gt;scaling factor 校准&lt;/strong&gt;并折叠进权重，得到无额外推理参数的更小 dense checkpoint。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;方法&#34;&gt;方法&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;训练后剪枝（post-pretraining）：在 FFN channel 与 KV head group 两种结构单元上放置 gate。&lt;/li&gt;&#xA;&lt;li&gt;通过 projected STE 让前向使用硬 0/1 mask 并满足预算约束，反向传递连续梯度更新 gate。&lt;/li&gt;&#xA;&lt;li&gt;mask 固定后，对保留单元的 scale 做校准，补偿剪枝引起的激活 scale mismatch。&lt;/li&gt;&#xA;&lt;li&gt;将校准后的 scale 折叠到权重，产出一个尺寸更小的 dense 模型，推理时无额外算子。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;实验&#34;&gt;实验&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;模型：LLaMA-2-7B。&lt;/li&gt;&#xA;&lt;li&gt;剪枝率：50% 参数移除。&lt;/li&gt;&#xA;&lt;li&gt;数据：512 条无标签校准序列，训练 4 个 epoch。&lt;/li&gt;&#xA;&lt;li&gt;硬件：单卡 NVIDIA A100 80GB。&lt;/li&gt;&#xA;&lt;li&gt;评测：WikiText-2 perplexity，以及 5 个 zero-shot 基准的平均准确率。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;结果&#34;&gt;结果&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;WikiText-2 上 perplexity 12.18（50% 剪枝率下）。&lt;/li&gt;&#xA;&lt;li&gt;5 个 zero-shot 基准平均准确率与基线具竞争力（摘要未给具体数值）。&lt;/li&gt;&#xA;&lt;li&gt;无需对整模型做 full fine-tuning，成本低。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;为什么重要&#34;&gt;为什么重要&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;对推理基础设施，同时压缩 FFN 和 KV cache 的剪枝能&lt;strong&gt;同时降低 memory、latency 与 KV cache 占用&lt;/strong&gt;。&lt;/li&gt;&#xA;&lt;li&gt;单 A100 完成 7B 模型剪枝且无 full FT，&lt;strong&gt;门槛低、可复现&lt;/strong&gt;，适合部署团队快速裁剪自有模型。&lt;/li&gt;&#xA;&lt;li&gt;输出 dense checkpoint，兼容现有推理栈，无需稀疏算子支持。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;与已有工作的关系&#34;&gt;与已有工作的关系&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;延续 LLM-Pruner、SliceGPT、Wanda、SparseGPT 等 post-training 结构化/非结构化剪枝思路。&lt;/li&gt;&#xA;&lt;li&gt;gate + STE 学习 mask 的做法与 Movement Pruning、DSNet 等一脉相承。&lt;/li&gt;&#xA;&lt;li&gt;关注 KV head 组剪枝与 GQA、MQA、KV cache compression 研究方向相关。&lt;/li&gt;&#xA;&lt;li&gt;scale 校准折叠思想与 SmoothQuant、AWQ 的 scale 迁移技巧类似。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;尚未回答的问题&#34;&gt;尚未回答的问题&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在更大模型（13B/70B）和更高剪枝率下是否仍保持 PPL？&lt;/li&gt;&#xA;&lt;li&gt;与 SparseGPT / Wanda 等强基线的直接对比数字未给出。&lt;/li&gt;&#xA;&lt;li&gt;与量化（INT4/INT8）叠加后的效果与误差累积如何？&lt;/li&gt;&#xA;&lt;li&gt;对 long-context 推理与 KV cache 实际延迟/显存节省的端到端测量缺失。&lt;/li&gt;&#xA;&lt;li&gt;gate 训练对校准数据领域分布的敏感性未讨论。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;论文图表&#34;&gt;论文图表&lt;/h2&gt;&#xA;&lt;p&gt;&lt;strong&gt;图 1:&lt;/strong&gt; Page 2 (rendered)&lt;/p&gt;</description>
    </item>
    <item>
      <title>ChipCraftBrain: Validation-First RTL Generation via Multi-Agent Orchestration</title>
      <link>https://ftxj.github.io/zh/posts/2026-04-21/01-chipcraftbrain-validation-first-rtl-generation-via-multi-age/</link>
      <pubDate>Mon, 27 Apr 2026 05:17:55 +0000</pubDate>
      <guid>https://ftxj.github.io/zh/posts/2026-04-21/01-chipcraftbrain-validation-first-rtl-generation-via-multi-age/</guid>
      <description>&lt;p&gt;&lt;strong&gt;arXiv:&lt;/strong&gt; &lt;a href=&#34;https://arxiv.org/abs/2604.19856v1&#34;&gt;2604.19856&lt;/a&gt; · &lt;a href=&#34;https://arxiv.org/pdf/2604.19856v1&#34;&gt;PDF&lt;/a&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;作者:&lt;/strong&gt; Cagri Eryilmaz&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;主分类:&lt;/strong&gt; &lt;code&gt;cs.AR&lt;/code&gt; · 全部: cs.AI, cs.AR, cs.LG&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;命中关键词:&lt;/strong&gt; large language model, llm, agent, agentic, multi-agent, retrieval, rag, reasoning&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;tldr&#34;&gt;TL;DR&lt;/h2&gt;&#xA;&lt;p&gt;ChipCraftBrain 用多 agent 编排加符号-神经混合推理做 RTL 生成，在 VerilogEval-Human 达到 97.2% pass@1，在 CVDP 子集达 94.7%，并成功跑通 RISC-V SoC 分层生成。&lt;/p&gt;&#xA;&lt;h2 id=&#34;核心观点&#34;&gt;核心观点&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;单次生成 RTL 正确率仅 60-65%，现有多 agent（MAGE）在更难的工业基准 CVDP 上未验证且成本高。&lt;/li&gt;&#xA;&lt;li&gt;提出 validation-first 的多 agent 框架，结合 PPO 自适应编排、符号-神经混合、知识检索与层次化分解。&lt;/li&gt;&#xA;&lt;li&gt;在 VerilogEval-Human 和 CVDP 非 agentic 子集上均取得 SOTA 级结果，且 per-problem 调用次数比 ACE-RTL 少约 30 倍。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;方法&#34;&gt;方法&lt;/h2&gt;&#xA;&lt;p&gt;四项创新：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
