arXiv: 2604.21952 · PDF

作者: Muhammad Shafique, Abdul Basit, Muhammad Abdullah Hanif, Alberto Marchisio, Rachmad Vidya Wicaksana Putra, Minghao Shao

单位: New York University Abu Dhabi

主分类: cs.LG · 全部: cs.AI, cs.AR, cs.LG, cs.NE, cs.RO

命中关键词: llm, quantization, speculative decoding, attention, transformer, latency, fine-tun


TL;DR

提出面向多模态基础模型(MFM)的软硬件协同加速方法论,覆盖压缩、推理优化到专用加速器,在医疗 MFM 与代码生成任务上验证。

核心观点

  • 以分层方法论同时在软件和硬件层加速 MFM。
  • 针对 transformer block 的软硬件协同设计 + 全流程优化管线。
  • 结合模型压缩、推理加速、数据流优化与专用加速器落地。
  • 展望基于 spiking 神经网络的能效型 MFM。

方法

  • 模型开发:领域微调以实现 domain-specific adaptation。
  • 压缩:层级感知的 mixed-precision quantization,对 transformer block 与 MLP 通道做 structural pruning。
  • 推理优化:speculative decoding;model cascading 用轻量 self-test 决定是否升级到更大模型;协同调优 sequence length、视觉分辨率与 stride、graph-level operator fusion。
  • 执行层:按底层硬件架构优化 dataflow,使用 memory-efficient attention 匹配片上带宽与延迟预算。
  • 硬件:面向 transformer 的专用加速器,可由专家设计或 LLM-aided design 生成。

实验

摘要只提到在 medical-MFMs 与 code generation 任务上做了方法有效性验证,未披露具体数据集、基线与指标。

结果

摘要未给出定量数字,仅声明方法论在上述两个任务上被证明有效。具体提升幅度无法从摘要判断。

为什么重要

为多模态基础模型在边缘/专用芯片的部署提供了端到端的协同优化菜单:压缩 + cascading + operator fusion + 专用加速器一体化,对需要控制算力与能耗的 MFM 推理基础设施有参考价值;spiking-MFM 延伸也指向能效前沿。

与已有工作的关系

延续 transformer 加速领域的 mixed-precision quantization、structural pruning、speculative decoding、FlashAttention 式 memory-efficient attention、model cascading 与 operator fusion 等方向,并与 LLM-aided hardware design(如近期用 LLM 生成 RTL 的工作)结合;属于综合/Focus Session 式总结。

尚未回答的问题

  • 各子技术的相对贡献与组合收益缺乏量化拆解。
  • 未说明在通用多模态基准上的泛化效果。
  • 专用加速器的面积、功耗、实测吞吐未披露。
  • spiking-MFM 的可训练性与精度损失如何权衡仍开放。

原始摘要(中文翻译)

本工作提出了一种多层次的方法论,用于高效加速多模态基础模型(MFM)。它将 transformer block 的软硬件协同设计与一条降低计算与内存需求的优化管线结合起来。在模型开发阶段,它通过面向特定领域适配的微调来提升性能。我们的方法论进一步融合了用于优化 MFM 的软硬件技术。具体来说,它采用层级感知的混合精度量化以及对 transformer block 和 MLP 通道的结构化剪枝来对 MFM 进行压缩。它还通过 speculative decoding、模型级联(model cascading,将查询经过一个从小到大的级联,并使用轻量级的自检来决定何时升级到更大的模型),以及对序列长度、视觉分辨率与 stride 以及图级算子融合的协同优化来优化运算。为了高效地执行模型,处理数据流会基于底层硬件架构进行优化,并配合内存高效的 attention 以满足片上带宽与延迟预算。为支持这一点,使用了一种面向 transformer 工作负载的专用硬件加速器,它可以通过专家设计或 LLM 辅助设计方法来开发。我们在 medical-MFMs 与代码生成任务上展示了所提方法论的有效性,并以面向能效型 spiking-MFMs 的扩展作为结尾。