arXiv: 2604.22061 · PDF
作者: Xiaodi Li, Yang Xiao, Munhwan Lee, Konstantinos Leventakos, Young J. Juhn, David Jones, Terence T. Sio, Wei Liu, Maria Vassilaki, Nansu Zong
单位: Mayo Clinic, University of Tulsa
主分类: cs.CL · 全部: cs.AI, cs.CL, cs.LG
命中关键词: large language model, llm, retrieval, reasoning, serving, fine-tun
TL;DR
提出一个轻量级框架,将 RAG 与 LLM 编码解耦用于患者-试验匹配,在多个公开数据集及 Mayo Clinic 真实数据上以显著更低算力达到与端到端 LLM 相当的效果。
核心观点
- 将 RAG(检索临床相关片段)与 LLM(编码成表示)明确解耦,降低长 EHR 输入复杂度。
- 冻结 LLM 足以处理结构化临床数据,而非结构化临床叙述必须微调。
- 通过降维 + 轻量预测器实现可扩展分类,性能接近端到端 LLM,但算力大幅下降。
方法
框架分两阶段:第一阶段 RAG 从长电子病历中检索与 eligibility criteria 临床相关的片段,缩短输入;第二阶段用 LLM 将所选片段编码为信息丰富的表示,再经降维后送入轻量预测器完成下游分类,支持结构化与非结构化数据。
实验
在公开基准 n2c2、SIGIR、TREC 2021/2022 上评测,并使用 Mayo Clinic 的真实多模态数据集 MCPMD。对比对象包括端到端 LLM 方法和传统 ML 方法,关注计算开销和匹配效果。
结果
- 基于检索的信息选择显著降低计算负担,同时保留临床有意义信号。
- 冻结 LLM 对结构化数据表示强;非结构化临床叙述需微调才能建模。
- 轻量 pipeline 在多个基准上达到与端到端 LLM 可比的性能,而成本大幅降低(论文未在摘要中给出具体数字)。
为什么重要
对医疗 AI 与 LLM 基础设施从业者,它展示了一条在长文档、敏感临床场景下把 RAG + 冻结/微调 LLM 做成可扩展管线的务实路径:不必为每条记录全量跑 LLM,也能达到近似效果,有利于院内部署与多中心扩展。
与已有工作的关系
延续 RAG 在长文档问答中的思路;对比端到端 LLM 的 patient-trial matching(如直接喂 EHR 给 GPT 类模型)以及传统 ML/TREC Clinical Trials track 风格的检索-分类方法;与 frozen LLM embedding + linear probe 的表示学习路线一致。
尚未回答的问题
- 检索器选择与 eligibility criteria 切分策略的敏感性未披露。
- 结构化 vs 非结构化判定"冻结 vs 微调"的边界具体在哪?
- 在更大规模、多医院的多模态数据上的泛化与公平性仍待验证。
- 与最新临床 LLM(如 Med-PaLM、临床微调 Llama 系列)直接对比缺失。
原始摘要(中文翻译)
患者-试验匹配需要在长且异构的电子健康档案(EHR)和复杂的入组标准之上进行推理,这在可扩展性、泛化能力和计算效率方面带来了重大挑战。现有方法要么依赖大语言模型(LLM)对完整文档进行处理,计算代价高昂;要么使用传统机器学习方法,难以捕捉非结构化的临床叙述。在本工作中,我们提出了一种轻量级框架,将 retrieval-augmented generation 与基于大语言模型的建模相结合,用于可扩展的患者-试验匹配。该框架显式地将两个关键组件分开:retrieval-augmented generation 用于从长 EHR 中识别临床相关片段,降低输入复杂度;而大语言模型用于将这些被选中的片段编码为具有信息量的表示。这些表示随后通过降维进一步精炼,并由轻量级预测器进行建模,从而实现高效、可扩展的下游分类。我们在多个公开基准(n2c2、SIGIR、TREC 2021/2022)以及来自 Mayo Clinic 的真实多模态数据集(MCPMD)上评估了所提出的方法。结果表明,基于检索的信息选择在保留临床有意义信号的同时,显著减轻了计算负担。我们进一步证明,冻结的 LLM 能够为结构化临床数据提供强有力的表示,而对非结构化临床叙述的建模则必须依赖微调。重要的是,所提出的轻量级流水线在计算代价大幅降低的情况下,取得了与端到端 LLM 方法相当的性能。