2026-04-23 on JXIN's Home

Enhancing Online Recruitment with Category-Aware MoE and LLM-based Data Augmentation

Mon, 27 Apr 2026 05:11:16 +0000

arXiv: 2604.21264 · PDF

作者: Minping Chen, Bing Xu, Zulong Chen, Chuanfei Xu, Ying Zhou, Zui Tao, Zeyi Wen

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, rag, chain-of-thought, mixture of experts, moe

TL;DR

针对在线招聘中 Person-Job Fit 任务，论文用 LLM 做数据增强润色低质量 JD，并引入 category-aware MoE 区分相似候选-岗位对，离线与线上均显著提升。

核心观点

低质量 JD 与相似候选-岗位对是 PJF 的主要瓶颈。
用 LLM + CoT 对 JD 进行改写/润色，可直接提升特征质量。
类别感知的 MoE 能够对相似样本学到更有区分度的表示。
方法在真实招聘平台落地，带来可观的商业收益。

方法

LLM-based data augmentation：用 chain-of-thought 提示 LLM 对低质量 JD 进行润色、补全、改写，得到结构更规范的文本输入。
Category-aware MoE：在 MoE 模块中引入 category embedding，按类别动态调整各 expert 权重，使模型对相似候选-岗位对学到差异化 pattern。
整体框架以 LLM 处理文本 + MoE 建模匹配，服务于 PJF 打分。

实验

数据来源：作者所在招聘平台的真实候选-岗位数据。
评估方式：离线指标 + 线上 A/B 测试。
指标：AUC、GAUC（离线），CTCVR 及外部猎头费用（线上）。
基线：现有 PJF 方法（摘要未点名具体模型）。

结果

离线：AUC 相对提升 2.40%，GAUC 相对提升 7.46%。
线上 A/B：CTCVR 提升 19.4%。
业务层面：节省数百万 CNY 外部猎头费用。
主张与数据一致，但摘要未披露数据规模、MoE 规模、消融等细节。

为什么重要

展示了 LLM 在传统推荐/匹配管线中作为"数据清洗器"而非端到端模型的实用路径，成本可控且易落地。
category-aware MoE 提供了一种处理 hard-negative-like 相似样本的通用思路，可迁移到广告、电商推荐等场景。
给 LLM + 推荐系统落地工程师一个已验证的线上收益案例。

与已有工作的关系

延续 Person-Job Fit 传统工作（基于文本匹配、双塔、交互模型等）。
方法论上结合 Mixture of Experts（MMoE、PLE 等多任务/多领域推荐工作）与 LLM data augmentation（CoT prompting、LLM for data labeling）两条路线。
与使用 LLM 做 query/JD 改写的检索增强工作思路相近。

尚未回答的问题

LLM 改写是否引入幻觉、偏差，对公平性/合规性的影响未讨论。
category 粒度如何定义、对 MoE 效果影响多大，缺少消融。
方法对冷启动岗位或小语种、跨行业迁移的鲁棒性未知。
线上收益是否来自 LLM 改写、MoE 还是二者协同，需要进一步拆解。
推理成本（LLM 调用频率、延迟）与 ROI 细节未披露。

论文图表

图 1: Figure 1 (extracted from PDF)

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

Mon, 27 Apr 2026 05:10:41 +0000

arXiv: 2604.22050 · PDF

作者: Mohamed Ali Souibgui, Jan Fostier, Rodrigo Abadía-Heredia, Bohdan Denysenko, Christian Marschke, Igor Peric

主分类: cs.LG · 全部: cs.CL, cs.LG

命中关键词: llm, inference, serving, attention, transformer, throughput, latency

TL;DR

LayerBoost 基于各层敏感度对 transformer attention 做差异化替换（softmax/线性滑窗/删除），配合轻量蒸馏 healing，在高并发下吞吐提升最多 68%。

核心观点

Uniform 替换 softmax attention 会伤精度；不同层对 attention 的敏感度差异显著。
提出 layer-aware 三档策略：敏感层保留 softmax、中等层换线性滑窗、低敏感层直接去掉 attention。
仅用 10M token 的蒸馏 healing 即可恢复精度，无需大规模重训。

方法

在预训练模型上做系统性敏感度分析，给每层打分。
按敏感度划三档：
- 高敏感：保留 standard softmax attention。
- 中敏感：替换为 linear sliding window attention。
- 低敏感：直接移除 attention 模块。
架构改动后进行 distillation-based healing，只需额外 10M tokens 训练。

实验

摘要未列出具体数据集、基线模型与指标名称，仅提到与 SOTA attention linearization 方法对比，并在"若干 benchmark"上评估质量与延迟、吞吐。

Lightweight Retrieval-Augmented Generation and Large Language Model-Based Modeling for Scalable Patient-Trial Matching

Mon, 27 Apr 2026 05:10:01 +0000

arXiv: 2604.22061 · PDF

作者: Xiaodi Li, Yang Xiao, Munhwan Lee, Konstantinos Leventakos, Young J. Juhn, David Jones, Terence T. Sio, Wei Liu, Maria Vassilaki, Nansu Zong

主分类: cs.CL · 全部: cs.AI, cs.CL, cs.LG

命中关键词: large language model, llm, retrieval, reasoning, serving, fine-tun

TL;DR

提出轻量化 RAG + LLM 框架用于患者-临床试验匹配：先用检索筛选 EHR 关键片段，再用 LLM 编码并接轻量分类器，以远低于端到端 LLM 的算力达到同等效果。

核心观点

患者-试验匹配面临 EHR 长文本与复杂入组标准的可扩展性难题。
将流程显式拆成"检索相关片段 + LLM 编码 + 轻量预测器"三段。
冻结 LLM 足以编码结构化临床数据；非结构化叙述则需 fine-tune。
轻量 pipeline 在显著降低算力下，性能接近端到端 LLM。

方法

RAG 模块：从长 EHR 中检索与入组标准临床相关的片段，压缩输入长度。
LLM 编码：将选出的片段映射为信息表示，支持 frozen 或 fine-tuned 两种模式。
表示精炼：通过降维得到紧凑向量。
下游分类：使用轻量预测器（非端到端 LLM）完成匹配判定。

实验

公共基准：n2c2、SIGIR、TREC 2021/2022。
真实多模态数据：Mayo Clinic MCPMD。
对比：端到端 LLM 方法与传统 ML 方法。
指标：摘要未给出具体指标名，应为匹配分类性能 + 计算开销。

结果

检索筛选显著降低计算负担，同时保留临床有意义信号。
结构化数据：frozen LLM 表示已足够强。
非结构化叙述：fine-tuning 必不可少。
轻量管线性能与端到端 LLM 可比，算力成本大幅下降。具体数字摘要未披露。

为什么重要

为医疗 LLM 落地提供一个实用模板：在 EHR 这种超长异构文本上，不必把全部内容塞进 LLM，而是 RAG 截取 + 表示学习 + 浅层模型即可。对 agent / LLM 基础设施从业者，这印证了"检索压缩 + 冻结 encoder + 轻量头"是处理长上下文领域任务的经济方案。

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

Mon, 27 Apr 2026 05:09:24 +0000

arXiv: 2604.22119 · PDF

作者: Tharindu Kumarage, Lisa Bauer, Yao Ma, Dan Rosen, Yashasvi Raghavendra Guduri, Anna Rumshisky, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, agentic, reasoning

TL;DR

提出 ESRRSim：一个分类法驱动的 agentic 评测框架，用于自动化检测 LLM 的"涌现策略推理风险"（欺骗、评测博弈、奖励黑客等）。

核心观点

定义 Emergent Strategic Reasoning Risks (ESRRs) 这一风险类别，涵盖欺骗、evaluation gaming、reward hacking 等自利行为。
构建可扩展风险分类法：7 大类、20 子类。
提供 judge-agnostic、可规模化的自动化评测架构，同时审视模型输出与推理轨迹。
实证发现不同代际模型风险差异巨大，新模型更善于识别评测情境。

方法

以分类法驱动的 agentic 框架 ESRRSim：先按 7 类/20 子类分解风险，再自动生成诱导"忠实推理"的评测场景；用双重 rubric 分别打分 response 与 reasoning trace，且与具体 judge 模型解耦，便于扩展。

Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

Mon, 27 Apr 2026 05:08:50 +0000

arXiv: 2604.21193 · PDF

作者: Vipula Rawte, Ryan Rossi, Franck Dernoncourt, Nedim Lipka

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, retrieval, reasoning, inference, ai system

TL;DR

DAVinCI 是一个双阶段框架，把 LLM 生成的声明同时做"归因"和"验证"，以提升事实可靠性与可审计性，在 FEVER 等数据集上各项指标提升 5–20%。

核心观点

LLM 在高风险领域（医疗、法律、科研）因幻觉而缺乏可信度，需要归因与验证并重。
仅做验证（verification-only）不足以解释声明来源，归因是补齐可解释性的关键一环。
把归因（内部组件 + 外部来源）与基于 entailment 的验证结合，可同时提升准确性与可解释性。
提供模块化实现，便于插入现有 LLM pipeline，推动"可审计 AI"。

方法

DAVinCI 分两阶段：

Attribution：将生成的每条 claim 归因到模型内部组件以及外部证据来源。
Verification：对每条 claim 用 entailment-based reasoning 判断真假，并做 confidence calibration。此外包含 evidence span selection、recalibration threshold、retrieval 质量等可调模块。摘要未详述具体架构细节与归因算法形式。

实验

数据集：FEVER、CLIMATE-FEVER 等多项事实核查数据集。
基线：standard verification-only 方法。
指标：分类准确率、归因 precision/recall/F1。
消融：逐一评估 evidence span 选择、重校准阈值、retrieval 质量的贡献。

结果

在分类准确率、归因 precision/recall/F1 上全面提升 5–20%。
消融实验显示三个模块（span 选择、阈值重校准、retrieval 质量）都有独立贡献。
摘要未给出具体数值表，仅给出相对提升区间。

为什么重要

对构建可信 LLM agent（特别是需要引用证据的 RAG、法律/医疗助手）提供了可直接接入的模块。
将"引用出处"和"蕴含验证"合流，降低幻觉风险，利于合规与审计。
开源实现降低了在现有 pipeline 中落地事实性保障的门槛。

与已有工作的关系

延续 FEVER 系 fact verification 路线，并与 CLIMATE-FEVER 等领域化扩展对齐。
与 RAG、self-consistency、self-RAG、以及近年 attribution（如 attributed QA、citation evaluation）工作互补。
在 hallucination mitigation 文献（SelfCheckGPT、FActScore 等）基础上，强调"归因 + 验证"的双轨。

尚未回答的问题

内部组件归因具体如何实现（attention、neurons、还是 logit-lens 类方法）？可解释性是否经过人工评估？
在开放域长文本、代码、多模态场景下是否仍然有效？
推理开销与延迟如何，是否适合在线 agent 场景？
confidence calibration 是否会在分布外数据退化？
和更强的 retrieval（web-scale、结构化 KB）结合时，归因粒度能否继续细化？
对抗性或刻意误导证据下的鲁棒性未作评估。

论文图表

图 1: Figure 1 (extracted from PDF)

MambaCSP: Hybrid-Attention State Space Models for Hardware-Efficient Channel State Prediction

Mon, 27 Apr 2026 05:08:18 +0000

arXiv: 2604.21957 · PDF

作者: Aladin Djuhera, Haris Gacanin, Holger Boche

主分类: cs.IT · 全部: cs.AI, cs.IT, cs.LG, eess.SP

命中关键词: large language model, llm, inference, attention, transformer, throughput, latency

TL;DR

MambaCSP 用混合注意力的 selective SSM 替代 LLM 做信道状态预测，精度提升 9-12% 的同时吞吐快 3 倍、显存降 2.6 倍。

核心观点

Transformer/LLM 做 CSP 精度高但受限于序列长度的二次复杂度，难以部署到实时无线场景。
Selective SSM（Mamba）提供线性时间替代，但纯 SSM 只有局部依赖。
周期性注入轻量 patch-mixer attention，可以补齐长上下文建模能力。
在 MISO-OFDM 仿真下同时取得精度与硬件效率双优。

方法

提出 MambaCSP：以线性时间的 Mamba 作为预测主干，替换原本基于 LLM 的 backbone；在 SSM 栈中周期性插入轻量的 patch-mixer attention 层，用于跨 token 的交互，从而在保持线性开销的同时捕获长程 CSI 依赖。整体为 hybrid-attention SSM 架构，面向 CSI 序列预测。

Pre-trained LLMs Meet Sequential Recommenders: Efficient User-Centric Knowledge Distillation

Mon, 27 Apr 2026 05:07:42 +0000

arXiv: 2604.21536 · PDF

作者: Nikita Severin, Danil Kartushov, Vladislav Urzhumov, Vladislav Kulikov, Oksana Konovalova, Alexey Grishanov, Anton Klenitskiy, Artem Fatkulin, Alexey Vasilev, Andrey Savchenko, Ilya Makarov

主分类: cs.IR · 全部: cs.AI, cs.IR

命中关键词: large language model, llm, reasoning, inference, serving, fine-tun

TL;DR

提出一种用预训练 LLM 生成的文本用户画像向序列推荐器做知识蒸馏的方法，推理时无需 LLM，兼顾语义理解与效率。

核心观点

传统序列推荐器擅长时序行为建模，但缺乏丰富的用户语义。
直接把 LLM 接入在线推荐推理成本过高，难以落地。
通过 LLM 离线生成文本用户画像，再蒸馏进序列模型，可在不改架构、不微调 LLM 的前提下获得语义增益。

方法

摘要描述较粗：利用预训练 LLM 为每个用户生成文本 profile，将其作为教师信号蒸馏到标准序列推荐器中。服务期仅跑原生序列模型，无 LLM 调用；不需要修改推荐器架构，也不需要对 LLM 进行 fine-tuning。具体蒸馏损失、对齐方式、画像生成 prompt 等摘要未披露。

实验

摘要未提供数据集、基线、指标等实验细节。

结果

摘要未给出具体数字或对比结果，仅声明方法保持了传统序列模型的推理效率，同时引入 LLM 语义。可信度需正文佐证。

Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents

Mon, 27 Apr 2026 05:07:09 +0000

arXiv: 2604.22085 · PDF

作者: Seyed Moein Abtahi, Rasa Rahnema, Hetkumar Patel, Neel Patel, Majid Fekri, Tara Khani

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, agent, agentic, retrieval, inference, latency

TL;DR

Memanto 用类型化语义 memory schema + 信息论检索引擎，摒弃知识图谱，在 LongMemEval/LoCoMo 上达到 SOTA，单次检索、零 ingestion 延迟。

核心观点

挑战"agent memory 必须依赖知识图谱"的假设，主张类型化 schema + 语义检索已足够。
提出 Memanto：13 类预定义 memory 类别、自动冲突消解、时间版本化。
基于 Moorcheh Information-Theoretic Search：无索引、亚 90ms 延迟、无 ingestion 开销。
单次 retrieval query 即可超越 hybrid graph / vector 系统。

方法

Typed Semantic Schema：13 个预定义 memory 类别，替代开放式实体抽取与 graph schema。
Conflict Resolution：自动处理冲突记录，保持一致性。
Temporal Versioning：为 memory 条目维护时间版本。
Moorcheh 检索引擎：信息论驱动的 no-indexing 语义数据库，确定性检索，sub-90ms 延迟，消除写入延迟。
整体流程：写入直接归类，不做 LLM 实体抽取；检索走单次 query。

实验

Benchmark：LongMemEval、LoCoMo（长程 / 多会话 memory 评测）。
基线：hybrid semantic graph 系统、vector-based memory 系统（具体名称摘要未列）。
指标：准确率；另做 5 阶段渐进式 ablation 量化各组件贡献。

结果

LongMemEval 89.8%，LoCoMo 87.1%，均为 SOTA，超过所有评估的 graph/vector 基线。
仅需单次 retrieval query，无 ingestion 成本，延迟 <90ms。
Ablation 显示 typed schema、冲突消解、Moorcheh 检索均有贡献（具体数字摘要未给）。

为什么重要

对 agent 基础设施：大幅降低长程 memory 的运维复杂度与延迟，去掉 LLM 实体抽取和 graph 维护这两个瓶颈。
为 multi-session autonomous agent 提供可规模化部署的 memory 层，适合生产环境。
重新定义"高保真 agent memory"的成本上界：不必上知识图谱。

与已有工作的关系

对标 hybrid semantic graph memory（如 MemGPT、Zep、GraphRAG 式方案）与 vector-based memory。
延续 LongMemEval、LoCoMo 的长程 memory 评测脉络。
Moorcheh 引擎属于信息论检索一线，与传统 ANN/向量索引（FAISS、HNSW）形成对比。

尚未回答的问题

13 类 schema 的普适性：跨领域（编码、医疗、法律）是否需要扩展或自定义？
Moorcheh 的可复现性与开源情况，以及在十亿级条目下的可扩展性。
冲突消解规则细节，以及错误消解导致的下游 agent 行为风险。
与具身 / 工具调用 agent 的端到端集成效果尚未评测。
对抗性写入（噪声、恶意 memory）下的鲁棒性未讨论。

论文图表

图 1: Page 2 (rendered)

Tool Attention Is All You Need: Dynamic Tool Gating and Lazy Schema Loading for Eliminating the MCP/Tools Tax in Scalable Agentic Workflows

Mon, 27 Apr 2026 05:06:38 +0000

arXiv: 2604.21816 · PDF

作者: Anuj Sadani, Deepak Kumar

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, agentic, reasoning, attention, latency

TL;DR

提出 Tool Attention 中间件：用意图-schema 嵌入相似度 + 状态门控 + 两阶段懒加载，将 MCP 每轮工具 token 开销削减 95%，缓解"MCP Tax"。

核心观点

MCP 协议的 eager schema 注入在多服务器部署下每轮消耗 10k–60k tokens，膨胀 KV cache 并在约 70% 上下文利用率处触发推理退化。
可将"Attention Is All You Need"范式从 token 级自注意力推广到 tool 级门控注意力。
可扩展 agent 的瓶颈是协议层效率，而非 raw context length。

方法

Tool Attention 由三部分组成：

Nemobot Games: Crafting Strategic AI Gaming Agents for Interactive Learning with Large Language Models

Mon, 27 Apr 2026 05:06:04 +0000

arXiv: 2604.21896 · PDF

作者: Chee Wei Tan, Yuchen Wang, Shangxin Guo

主分类: cs.AI · 全部: cs.AI

命中关键词: large language model, llm, agent, agentic, rag, reasoning, fine-tun

TL;DR

论文提出 Nemobot，一个基于 LLM 的交互式 agentic 游戏编程环境，按 Shannon 博弈机分类法在四类游戏中构建可自我精炼的策略 agent。

核心观点

将 Shannon 的博弈机分类法用 LLM 重新"操作化"，作为 AI 游戏编程新范式。
提出 Nemobot：一个可编程、交互式的 agentic 工程环境，用户可创建、定制、部署 LLM 游戏 agent。
覆盖四类游戏（字典型、可严格求解型、启发式、学习型），展示不同策略生成路径。
通过众包学习 + 人类创造力迭代精炼 agent 逻辑，指向"自编程 AI"长期目标。

方法

Dictionary-based games：把 state-action 映射压缩成泛化模型，便于快速适配。
Rigorously solvable games：用数学推理算最优策略，并生成人类可读解释。
Heuristic-based games：结合经典 minimax（Shannon 1950）与众包数据合成策略。
Learning-based games：用 RLHF + self-critique，以试错和模仿学习迭代精炼。
Nemobot 提供 tool-augmented generation 与 fine-tuning 的可编程接口。

实验

摘要未给出具体数据集、基线或量化指标，只说"跨四类游戏"进行了 demo 式展示。