2026-04-20 on JXIN's Home

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

Mon, 27 Apr 2026 05:28:59 +0000

作者: Jiacheng Liang, Yao Ma, Tharindu Kumarage, Satyapriya Krishna, Rahul Gupta, Kai-Wei Chang, Aram Galstyan, Charith Peris

主分类: cs.AI · 全部: cs.AI, cs.CR, cs.LG

命中关键词: large language model, llm, rag, serving, fine-tun, rlhf

TL;DR

ARES 提出一种自适应红队框架，同时攻击 policy 与 reward model，再通过两阶段微调修复二者联动的"系统性弱点"。

核心观点

指出 RLHF 的关键漏洞：imperfect Reward Model (RM) 与 policy 可能同时失效，形成 systemic weakness。
现有 red-teaming 只针对 policy 层，忽略 RM 这一单点故障。
提出 ARES：同时暴露并修复 policy 与 RM 的 dual vulnerabilities。
建立 RLHF 安全对齐的新范式：end-to-end 修复而非单端加固。

方法

“Safety Mentor” 动态组合 structured components（topics、personas、tactics、goals）生成语义连贯的 adversarial prompts。
针对每个 prompt 同时生成 malicious 与 safe responses，用来同时探测 LLM 与 RM 的弱点。
两阶段修复：先微调 RM 使其更好识别 harmful content；再用改进后的 RM 优化 policy（core LLM）。

实验

多个 adversarial safety benchmarks（摘要未列具体名称）。
基线与具体指标未在摘要披露；评估维度包括 safety robustness 与 model capability 保留。

结果

ARES 显著提升 safety robustness，同时基本保持模型通用能力。
摘要没有给出具体数字，因此声明的幅度与对比优势无法从摘要直接验证。

为什么重要

对 RLHF 安全团队：揭示 RM 本身就是攻击面，单靠 policy 层红队不够。
对做 alignment / safety infra 的人：提供一个可复用的 dual-target red-teaming + 两阶段修复 pipeline。
把 reward modeling 纳入持续对抗测试循环，可能成为未来对齐流程的标准环节。

与已有工作的关系

延续 RLHF / InstructGPT 的对齐脉络，但把关注点从 policy 扩展到 RM。
与 automated red-teaming（如 Anthropic red-teaming、GCG、PAIR、AutoDAN）相比，强调 component-based、对 RM 也可见的攻击。
与 reward model robustness、reward hacking 研究线（如 over-optimization、reward model ensemble）互补，提供对抗式诊断工具。

尚未回答的问题

Safety Mentor 自身是否会被对抗性绕过？其组件库如何覆盖未见过的 tactic？
RM 修复是否会引入新的 reward hacking 或能力回退，长期训练稳定性如何？
在更大规模模型与真实部署分布上的迁移性、以及对非英语 / 多模态场景的有效性。
与纯 Constitutional AI、RLAIF 等非 RM-centric 方案相比的成本与收益权衡。

论文图表

图 1: Figure 1 (extracted from PDF)

Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing

Mon, 27 Apr 2026 05:28:25 +0000

arXiv: 2604.18170 · PDF

作者: Ziyang Liu

主分类: cs.CL · 全部: cs.AI, cs.CL

命中关键词: llm, rag, serving, kv cache, speculative decoding, fine-tun

TL;DR

Copy-as-Decode 把 LLM 编辑任务重写为 <copy>/<gen> 两原语的语法约束解码，让拷贝段走并行 prefill 而非逐 token 自回归，在 Qwen2.5 上给出最高 303× 的内核加速与 13× 端到端上界。

核心观点

编辑输出大部分 token 与输入逐字相同，自回归重解码是浪费。
引入双原语语法：<copy lines="i-j"/> 引用输入行区间，<gen> 发射新内容。
token 级 FSM 保证语法合法；服务层用一次并行 prefill 更新拷贝段 KV cache，取代 N 步自回归。
与 speculative decoding 共享并行 forward kernel，但以输入 token 为 draft、程序强制接受取代概率验证。

方法

在解码层把编辑过程变成 structured decoding：模型输出遵循 grammar 的 copy/gen 混合序列。拷贝跨度通过单次 parallel-prefill forward 填充 KV cache，生成跨度保持常规自回归。作者给出无需端到端训练的上界分析，并做了一次 fine-tuning pilot 作为可学习性信号。

River-LLM: Large Language Model Seamless Exit Based on KV Share

Mon, 27 Apr 2026 05:27:43 +0000

arXiv: 2604.18396 · PDF

作者: Yingtao Shen, An Zou

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, reasoning, inference, kv cache, latency

TL;DR

River-LLM 提出训练无关的 token 级 Early Exit 框架，用 KV-Shared Exit River 解决 decoder-only 架构中 KV Cache 缺失问题，实现 1.71–2.16× 推理加速。

核心观点

指出 decoder-only Early Exit 的核心瓶颈是 KV Cache Absence：被跳过的层无法为后续 token 提供历史状态。
已有 recomputation / masking 方案要么延迟高，要么精度损失大，理论层数缩减难以转化为实际 wall-clock 加速。
提出训练无关（training-free）的 River-LLM，通过共享 KV 的 “Exit River” 在退出过程中自然生成并保留缺失的 KV cache。
利用 decoder block 之间的 state transition similarity 预测累计 KV 误差，指导更精确的退出决策。

方法

KV-Shared Exit River：一条轻量旁路，让主干缺失的 KV 在退出路径上被顺带生成并写回，避免昂贵的 recomputation 或 masking。
误差感知退出策略：基于相邻 decoder block 的状态转移相似度，估计累计 KV 误差，作为是否提前退出的判据。
整个框架无需重新训练或微调，可直接叠加在已有 LLM 上做 token 级动态退出。

实验

任务：数学推理与代码生成。
指标：实际 wall-clock 加速比与生成质量。
基线：摘要未具体列出，暗示对比 recomputation / masking 类 Early Exit 方案。

结果

实现 1.71×–2.16× 实测加速，同时保持较高生成质量。
具体模型规模、数据集名称、精度数字在摘要中未披露。

为什么重要

对 LLM 推理基础设施：首次把 Early Exit 在 decoder-only 架构下做到"理论层数削减 ≈ 实际加速"，且无需训练，部署成本低，适合高吞吐服务场景。

Unlocking the Edge deployment and ondevice acceleration of multi-LoRA enabled one-for-all foundational LLM

Mon, 27 Apr 2026 05:27:11 +0000

arXiv: 2604.18655 · PDF

作者: Sravanth Kodavanti, Sowmya Vajrala, Srinivas Miriyala, Utsav Tiwari, Uttam Kumar, Utkarsh Kumar Mahawar, Achal Pratap Singh, Arya D, Narendra Mutyala, Vikram Nelvoy Rajendiran, Sharan Kumar Allur, Euntaik Lee, Dohyoung Kim, HyeonSu Lee, Gyusung Cho, JungBae Kim

主分类: cs.DC · 全部: cs.AI, cs.CL, cs.DC

命中关键词: large language model, llm, inference, quantization, speculative decoding, latency

TL;DR

面向三星 Galaxy S24/S25 的端侧 LLM 部署框架：用多 LoRA 共享单一冻结推理图、多流解码与 DS2D 自推测解码，实现 4–6× 内存与时延改进。

核心观点

以单个冻结的 LLaMA 多语基座图承载多个应用场景，通过 runtime 注入 LoRA 实现无需重编译的动态任务切换。
提出多流解码，在一次前向中并发生成多种风格回复，降低最多 6× 时延。
提出 Dynamic Self-Speculative Decoding (DS2D)：无需 draft model 的树状自推测解码，decode 加速最高 2.3×。
与 INT4 量化、架构级优化组合，在 9 语言 / 8 任务上达成 4–6× 整体内存和时延优化且保持精度。

方法

在 Qualcomm SM8650/SM8750 上做硬件感知部署：冻结一张 LLaMA 推理图，将任务 LoRA 权重作为运行时输入喂入，实现 one-for-all。解码阶段引入多流机制，让同一 forward pass 并行产生 formal/polite/jovial 等风格输出；同时使用基于树的自推测解码 DS2D，由模型自身预测未来 token，省去独立 draft 模型。模型以 INT4 量化落地，并配合架构层优化。

HybridGen: Efficient LLM Generative Inference via CPU-GPU Hybrid Computing

Mon, 27 Apr 2026 05:26:38 +0000

arXiv: 2604.18529 · PDF

作者: Mao Lin, Xi Wang, Guilherme Cox, Dong Li, Hyeran Jeon

主分类: cs.PF · 全部: cs.DC, cs.PF

命中关键词: llm, rag, inference, kv cache, parallelism, attention, gpu, scheduler

TL;DR

HybridGen 提出 CPU-GPU 协同 attention 框架，配合 CXL 扩展内存，针对长上下文 LLM 推理在六种 KV cache 管理基线上平均加速 1.41×–3.2×。

核心观点

现有 KV cache pruning/offloading 只用单侧算力，CPU 本地内存也未充分利用。
在 CXL 分层内存系统上，CPU 与 GPU 可协同完成 attention 计算。
需要同时解决多维依赖、长序列负载失衡、NUMA 惩罚三大难题。

方法

Attention logit parallelism：拆分 attention 计算维度，允许 CPU-GPU 并行处理不同 logit 片段，打破多维依赖瓶颈。
Feedback-driven scheduler：动态根据运行时负载在 CPU 与 GPU 之间再分配任务，缓解长序列场景的失衡。
Semantic-aware KV cache mapping：按语义将 KV cache 映射到分层内存（本地 DRAM 与 CXL 扩展内存），降低 NUMA 访问代价。

实验

模型：3 种 LLM，11 种不同参数规模。
平台：3 种 GPU 系统，配备 CXL 扩展内存。
基线：6 种 SOTA KV cache 管理方法（pruning、offloading 系列）。
指标：推理吞吐/延迟加速比 + 精度。

结果

相对 6 个基线平均加速 1.41×–3.2×。
精度保持优于或不逊于现有方法。
具体每个模型/平台的拆分数字摘要未给出。

为什么重要

对长上下文 LLM 推理基础设施团队，它展示了 CXL 分层内存 + CPU-GPU 协同 attention 的可行路径，避免单纯 offload 造成的带宽闲置，为百 GB 级 KV cache 部署提供新思路。

Training and Agentic Inference Strategies for LLM-based Manim Animation Generation

Mon, 27 Apr 2026 05:26:04 +0000

arXiv: 2604.18364 · PDF

作者: Ravidu Suien Rammuni Silva, Ahmad Lotfi, Isibor Kennedy Ihianle, Golnaz Shahtahmassebi, Jordan J. Bird

主分类: cs.AI · 全部: cs.AI, cs.GR, cs.MA

命中关键词: large language model, llm, agent, agentic, reasoning, inference, fine-tun

TL;DR

提出 ManimTrainer（SFT+GRPO）与 ManimAgent（RITL/RITL-DOC）两套训练-推理管线，首次系统研究 LLM 生成 Manim 动画的 text-to-code-to-video 任务。

核心观点

首次统一研究 Manim 动画生成的训练与推理策略交互。
SFT 提升代码质量，GRPO 提升视觉输出并增强自我修正对外部信号的响应性。
提出融合代码与视觉评估的统一奖励信号。
推理阶段引入 Renderer-in-the-loop（RITL）及文档增强版 RITL-DOC。

方法

ManimTrainer：SFT + 基于 GRPO 的 RL，奖励同时融合代码正确性与视觉相似度信号。
ManimAgent：推理时将渲染器结果回灌给 LLM（RITL），并额外注入 Manim API 文档（RITL-DOC），支持自我修正。
任务形式：文本 → Manim 代码 → 视频。

实验

基准：ManimBench。
模型：17 个开源 sub-30B LLM（含 Qwen 3 Coder 30B 等），对比 GPT-4.1 基线。
组合：9 种训练 × 推理策略组合。
指标：Render Success Rate（RSR）、Visual Similarity（VS），以及代码-视觉相关性分析。

结果

最佳组合 Qwen 3 Coder 30B + GRPO + RITL-DOC：RSR 94%，VS 85.7%。
VS 比 GPT-4.1 基线高 +3 个百分点。
SFT/GRPO 强化代码与视觉指标相关性；推理增强（RITL）反而削弱该相关性，说明二者互补。

为什么重要

给出面向小参数量开源模型的可行配方：训练侧用 SFT+GRPO，推理侧用渲染回路+文档检索，即可在视频生成这类 spatial+temporal+API 密集任务上超越 GPT-4.1。
对 agent infra：验证 renderer-in-the-loop 作为外部验证器能显著提升代码-to-artifact 任务的可靠性。

与已有工作的关系

训练方法延续 SFT+RLHF/GRPO 路线（DeepSeek GRPO）。
推理策略属于 agentic self-correction / tool-use 家族，与 Reflexion、Self-Debug、Self-Refine 相近，但以渲染器为 grounding。
任务上接续 text-to-code、text-to-video 研究脉络，特化到 Manim 这类 DSL。

尚未回答的问题

能否扩展到 >30B 闭源模型或其他图形 DSL（如 TikZ、Three.js）？
统一奖励信号的权重设计与 reward hacking 风险未深入讨论。
推理增强削弱代码-视觉相关性的机制仍需解释。
长时序、多场景复杂动画下的泛化能力未验证。

论文图表

图 1: Figure 1 (extracted from PDF)

AQPIM: Breaking the PIM Capacity Wall for LLMs with In-Memory Activation Quantization

Mon, 27 Apr 2026 05:25:34 +0000

arXiv: 2604.18137 · PDF

作者: Kosuke Matsushima, Yasuyuki Okoshi, Masato Motomura, Daichi Fujiki

主分类: cs.AR · 全部: cs.AI, cs.AR, cs.LG

命中关键词: large language model, llm, rag, kv cache, quantization, attention, transformer, gpu, latency

TL;DR

AQPIM 在 PIM 内部用 Product Quantization 压缩 LLM 激活/KV cache，突破 PIM 容量墙，相比 SOTA PIM 方案加速 3.4 倍。

核心观点

传统 PIM 聚焦权重瓶颈，却忽视了长上下文 Transformer 激活（尤其 KV cache）的内存压力。
稀疏 attention 与 PIM 所需的数据局部性冲突，通用量化方法也不适配 PIM 特性。
基于聚类的向量量化（VQ）与激活分布及 PIM 内部带宽高度契合。
提出 AQPIM：PIM-aware 的 PQ 激活量化框架，在内存内直接量化并对压缩数据进行计算。

方法

以 Product Quantization 为基础，将激活切分子向量并用码本索引替代原始值。
量化过程直接发生在 PIM 内部，利用其高内部带宽避免数据搬运。
attention 计算在压缩域上执行，减少解码算力与访存开销。
引入多项算法优化（针对 PQ 精度损失），以适配现代 LLM 的激活分布特性。

实验

摘要未给出具体数据集、模型规模或基线细节，仅提到与 SOTA PIM 方法对比，并测量 GPU-CPU 通信占 decoding latency 比例。

StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning

Mon, 27 Apr 2026 05:24:33 +0000

arXiv: 2604.18401 · PDF

作者: Daoyu Wang, Qingchuan Li, Mingyue Cheng, Jie Ouyang, Shuo Yu, Qi Liu, Enhong Chen

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, agent, agentic, tool use, reasoning, post-train, rlhf

TL;DR

StepPO 主张把 Agentic RL 从 token 级 MDP 升级为 step 级 MDP，以 step 作为 LLM agent 的动作粒度，并提出相应的 step-level credit assignment 来对齐策略优化与 agent 决策。

核心观点

传统 token 级 RL（RLHF/RLVR）不足以刻画多轮交互的 agent 行为。
应将 MDP 粒度从 token 提升到 step，把一个 step（决策/工具调用）视为 agent 的动作。
与此配套，奖励传播与信用分配也应在 step 级完成。
Agentic RL 面临奖励稀疏延迟、上下文长而变动等新挑战，step 级抽象更自然。
提出 StepPO 作为 step-aligned policy optimization 的立场论文（position paper）。

方法

作者重新表述 agent 交互为 step-level MDP：每个 step 封装模型一次推理 + 一次工具/环境交互，作为策略的动作单位。在此基础上定义 step-level credit assignment，把延迟奖励回传到对应 step 而非 token，使策略梯度、价值估计与 agent 的决策粒度对齐。论文还讨论了实现 step 级 Agentic RL 所需的系统设计（轨迹组织、reward shaping、长上下文支持等）。

MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation

Mon, 27 Apr 2026 05:24:02 +0000

arXiv: 2604.18509 · PDF

作者: Xingchen Xiao, Heyan Huang, Runheng Liu, Jincheng Xie

主分类: cs.CL · 全部: cs.CL

命中关键词: large language model, llm, agent, multi-agent, retrieval, rag, reasoning, inference

TL;DR

MASS-RAG 用多 agent 分工（摘要、抽取、推理）处理检索证据，再经合成阶段产出答案，在证据分散场景下稳定优于单次生成的 RAG baseline。

核心观点

单次生成在噪声、残缺或异质检索上下文下难以有效整合证据。
将证据处理拆分为角色专门化的多个 agent，暴露多视角中间证据表示。
通过专门的 synthesis 阶段汇合不同视角，提升跨文档证据整合能力。

方法

MASS-RAG 在检索阶段之后引入三类角色 agent：evidence summarization、evidence extraction、reasoning over retrieved documents。三者分别产生互补的中间证据视图，最后由一个 dedicated synthesis stage 将它们合并，生成最终答案。该流水线让模型可在答案生成前先对比并整合来自不同 agent 的证据，而不是在一次 prompt 中混合所有检索片段。

实验

摘要提到在 4 个 benchmark 上评测，并与 strong RAG baselines 对比。但未披露具体数据集名称、backbone LLM、检索器、指标细节或 agent 数量消融设置。

First, Do No Harm (With LLMs): Mitigating Racial Bias via Agentic Workflows

Mon, 27 Apr 2026 05:23:29 +0000

arXiv: 2604.18038 · PDF

作者: Sihao Xing, Zaur Gouliev

主分类: cs.CY · 全部: cs.AI, cs.CY

命中关键词: large language model, llm, agent, agentic, retrieval, reasoning, attention, ai system

TL;DR

以 EU AI Act 为治理视角，评估 5 个主流 LLM 在合成病例生成与鉴别诊断中的种族偏见，发现 retrieval-based agentic workflow 可缓解 DeepSeek V3 的显性偏见。

核心观点

医学 LLM 普遍偏离美国种族流行病学分布，存在隐性与显性种族偏见。
单一指标不足以刻画偏见，主张多指标联合评估。
将 LLM 嵌入 retrieval-based agentic workflow 可在部分指标上降低显性偏见。
以 EU AI Act 为治理框架为医学 AI 偏见评估提供合规对齐参照。

方法

选取 5 个常用 LLM，覆盖两类任务：synthetic patient-case generation 与 differential diagnosis ranking。
基准：美国种族分层流行病学分布 + 专家鉴别诊断列表。
使用 structured prompt templates，采取两部分评估设计，分别探测隐性与显性种族偏见。
对 DeepSeek V3 额外构建 agentic workflow（含检索组件），对比 standalone 版本的指标变化。

实验

数据集：race-stratified 美国流行病学分布数据；专家编制的鉴别诊断列表。
模型：5 个主流 LLM，其中报告了 GPT-4.1 与 DeepSeek V3 的具体数值。
指标：合成生成任务看与真实分布的偏离；诊断排序任务用 p-value（mean/median）及 mean difference 等。

结果

合成病例：所有模型均偏离真实种族分布，GPT-4.1 整体偏离最小。
鉴别诊断：DeepSeek V3 综合表现最好。
Agentic workflow 对 DeepSeek V3：mean p-value +0.0348，median p-value +0.1166，mean difference +0.0949，但并非所有指标都改善。

为什么重要

为临床 LLM 部署提供可操作的偏见评估范式，兼顾 EU AI Act 合规维度。
说明 agentic + retrieval 架构不仅能提升准确率，还能作为 bias mitigation 手段，对医疗 AI 基础设施选型有指导意义。

与已有工作的关系

延续 medical LLM bias 评测线（如 Omiye et al. 对 GPT 系列的偏见研究）。
借用 agentic workflow / retrieval-augmented generation 思路，把 mitigation 从 fine-tuning 扩展到推理期。
以 EU AI Act 为治理锚点，呼应 responsible AI、AI governance 方向的工作。

尚未回答的问题

改善幅度较小且不均衡，在真实临床决策中是否具备统计与临床显著性？
方法能否推广到性别、年龄、社经地位等其他受保护属性？
未比较不同检索语料/检索策略对 bias 的差异化影响。
未进入真实 EHR 与前瞻临床评估，外部效度待验证。
对隐性偏见（模型内部表征层面）是否真正缓解仍不清楚。

论文图表

图 1: Figure 1 (extracted from PDF)