Lightweight Retrieval-Augmented Generation and Large Language Model-Based Modeling for Scalable Patient-Trial Matching

arXiv: 2604.22061 · PDF

作者: Xiaodi Li, Yang Xiao, Munhwan Lee, Konstantinos Leventakos, Young J. Juhn, David Jones, Terence T. Sio, Wei Liu, Maria Vassilaki, Nansu Zong

单位: Mayo Clinic, University of Tulsa

主分类: cs.CL · 全部: cs.AI, cs.CL, cs.LG

命中关键词: large language model, llm, retrieval, reasoning, serving, fine-tun

TL;DR

提出一个轻量级患者-试验匹配框架：用 RAG 从长 EHR 中抽取相关片段，再用 LLM 编码+降维+轻量预测器分类，在多个基准上接近端到端 LLM 效果但计算代价显著更低。

核心观点

将 patient-trial matching 拆解为两阶段：RAG 负责片段检索，LLM 负责语义编码，降低输入复杂度。
冻结 LLM 对结构化临床数据已能提供强表征；非结构化临床叙述则需要 fine-tuning。
轻量管线在多个公开基准与真实多模态数据集上达到与端到端 LLM 相当的性能，但计算成本大幅降低。

方法

显式分离两个组件：(1) RAG 从长 EHR 中筛出与 eligibility criteria 临床相关的片段，削减输入长度；(2) LLM 将选中片段编码为信息化向量，再通过 dimensionality reduction 精炼，最后喂给轻量预测器做下游分类。针对结构化数据使用 frozen LLM，针对非结构化叙述采用 fine-tuning。

实验

在公开基准 n2c2、SIGIR、TREC 2021/2022 上评测，并在 Mayo Clinic 的真实多模态数据集 MCPMD 上验证。对比基线为全文档 LLM 端到端方案与传统 ML 方法。

结果

基于检索的片段选择在保留临床有意义信号的同时显著降低计算负担；frozen LLM 在结构化数据上表现强，非结构化叙述需 fine-tuning；整体轻量管线性能可比端到端 LLM，但成本显著更低（论文未给出具体数字）。

为什么重要

为临床 AI 场景提供了一条可扩展的 patient-trial matching 路径：在长上下文 EHR + 复杂 eligibility 的现实约束下，用 RAG + 轻量下游头替代昂贵的长上下文 LLM 推理，对医疗 agent 与 LLM 基础设施的部署成本有直接参考价值。

与已有工作的关系

延续 RAG 在长文档理解中的用法，结合临床 NLP 里基于 LLM 表征的分类思路；相对端到端 LLM 方案（全 EHR 输入）和传统结构化 ML 基线（难以捕捉临床叙述）做了折中。基准选取 n2c2、SIGIR、TREC 是该任务的既有评测体系。

尚未回答的问题

具体的性能/延迟/成本数值与消融细节未在摘要中给出。
RAG 检索器对 eligibility criteria 复杂逻辑（否定、时间窗、组合条件）的鲁棒性如何。
在跨机构、跨人群分布下的泛化能力，以及临床部署时的安全与隐私约束如何处理。
多模态数据（影像、检验等）在 MCPMD 上具体如何融合尚不清楚。

原始摘要（中文翻译）

患者-试验匹配需要对长且异构的电子健康记录（EHR）和复杂的入组标准进行推理，这对可扩展性、泛化性和计算效率提出了重大挑战。现有方法要么依赖使用大语言模型（LLM）对完整文档进行处理，计算开销高昂；要么使用传统机器学习方法，难以捕捉非结构化的临床叙述。在本工作中，我们提出了一个轻量级框架，结合 retrieval-augmented generation 与基于大语言模型的建模，用于可扩展的患者-试验匹配。该框架显式地分离了两个关键组件：retrieval-augmented generation 用于从长 EHR 中识别临床上相关的片段，以降低输入复杂度；而大语言模型则用于将这些选中的片段编码为有信息量的表征。这些表征进一步通过降维加以精炼，并由轻量级预测器建模，从而实现高效、可扩展的下游分类。我们在多个公开基准（n2c2、SIGIR、TREC 2021/2022）和一个来自 Mayo Clinic 的真实世界多模态数据集（MCPMD）上评估了所提方法。结果表明，基于检索的信息选择在保留具有临床意义信号的同时，显著降低了计算负担。我们进一步证明，冻结的 LLM 能为结构化临床数据提供强有力的表征，而对于非结构化临床叙述，fine-tuning 则是必要的。重要的是，所提出的轻量级管线在显著更低的计算成本下，实现了与端到端 LLM 方法相当的性能。

论文图表

图 1: Page 2 (rendered)

图 1

图 2: Page 3 (rendered)

图 2

图 3: Page 4 (rendered)

图 3