arXiv: 2604.21952 · PDF
作者: Muhammad Shafique, Abdul Basit, Muhammad Abdullah Hanif, Alberto Marchisio, Rachmad Vidya Wicaksana Putra, Minghao Shao
单位: New York University Abu Dhabi
主分类: cs.LG · 全部: cs.AI, cs.AR, cs.LG, cs.NE, cs.RO
命中关键词: llm, quantization, speculative decoding, attention, transformer, latency, fine-tun
TL;DR
提出面向多模态基础模型(MFM)的软硬件协同加速方法论,覆盖压缩、推理优化到专用加速器,在医疗 MFM 与代码生成任务上验证。
核心观点
- 以分层方法论同时在软件和硬件层加速 MFM。
- 针对 transformer block 的软硬件协同设计 + 全流程优化管线。
- 结合模型压缩、推理加速、数据流优化与专用加速器落地。
- 展望基于 spiking 神经网络的能效型 MFM。
方法
- 模型开发:领域微调以实现 domain-specific adaptation。
- 压缩:层级感知的 mixed-precision quantization,对 transformer block 与 MLP 通道做 structural pruning。
- 推理优化:speculative decoding;model cascading 用轻量 self-test 决定是否升级到更大模型;协同调优 sequence length、视觉分辨率与 stride、graph-level operator fusion。
- 执行层:按底层硬件架构优化 dataflow,使用 memory-efficient attention 匹配片上带宽与延迟预算。
- 硬件:面向 transformer 的专用加速器,可由专家设计或 LLM-aided design 生成。
实验
摘要只提到在 medical-MFMs 与 code generation 任务上做了方法有效性验证,未披露具体数据集、基线与指标。
结果
摘要未给出定量数字,仅声明方法论在上述两个任务上被证明有效。具体提升幅度无法从摘要判断。
为什么重要
为多模态基础模型在边缘/专用芯片的部署提供了端到端的协同优化菜单:压缩 + cascading + operator fusion + 专用加速器一体化,对需要控制算力与能耗的 MFM 推理基础设施有参考价值;spiking-MFM 延伸也指向能效前沿。
与已有工作的关系
延续 transformer 加速领域的 mixed-precision quantization、structural pruning、speculative decoding、FlashAttention 式 memory-efficient attention、model cascading 与 operator fusion 等方向,并与 LLM-aided hardware design(如近期用 LLM 生成 RTL 的工作)结合;属于综合/Focus Session 式总结。
尚未回答的问题
- 各子技术的相对贡献与组合收益缺乏量化拆解。
- 未说明在通用多模态基准上的泛化效果。
- 专用加速器的面积、功耗、实测吞吐未披露。
- spiking-MFM 的可训练性与精度损失如何权衡仍开放。
原始摘要(中文翻译)
本工作提出了一种多层次的方法论,用于高效加速多模态基础模型(MFM)。它将 transformer block 的软硬件协同设计与一条降低计算与内存需求的优化管线结合起来。在模型开发阶段,它通过面向特定领域适配的微调来提升性能。我们的方法论进一步融合了用于优化 MFM 的软硬件技术。具体来说,它采用层级感知的混合精度量化以及对 transformer block 和 MLP 通道的结构化剪枝来对 MFM 进行压缩。它还通过 speculative decoding、模型级联(model cascading,将查询经过一个从小到大的级联,并使用轻量级的自检来决定何时升级到更大的模型),以及对序列长度、视觉分辨率与 stride 以及图级算子融合的协同优化来优化运算。为了高效地执行模型,处理数据流会基于底层硬件架构进行优化,并配合内存高效的 attention 以满足片上带宽与延迟预算。为支持这一点,使用了一种面向 transformer 工作负载的专用硬件加速器,它可以通过专家设计或 LLM 辅助设计方法来开发。我们在 medical-MFMs 与代码生成任务上展示了所提方法论的有效性,并以面向能效型 spiking-MFMs 的扩展作为结尾。