arXiv: 2604.22577 · PDF
作者: Manyi Zhang, Ji-Fu Li, Zhongao Sun, Xiaohao Liu, Zhenhua Dong, Xianzhi Yu, Haoli Bai, Xiaobo Xia
单位: Huawei Technologies, National University of Singapore, University of Science and Technology of China
主分类: cs.AI · 全部: cs.AI, cs.CL
命中关键词: agent, reasoning, inference, serving, quantization, latency
TL;DR
QuantClaw 是针对 OpenClaw 智能体系统的即插即用精度路由插件,依据任务特征动态分配量化精度,在 GLM-5 的 FP8 基线上最多节省 21.4% 成本、降低 15.7% 延迟。
核心观点
- OpenClaw 这类自主 agent 系统因长上下文与多轮推理面临高昂的算力与金钱成本。
- 量化对 agent 性能的影响随任务不同而差异显著,精度需求是 task-dependent 的。
- 将精度视为动态资源,用路由策略按需分配,可在不牺牲性能的前提下显著降本增效。
方法
作者先系统分析 OpenClaw 在多种复杂工作流下的量化敏感度,观察到不同任务对精度的耐受度差异很大。基于此提出 QuantClaw:一个 plug-and-play 的 precision routing plugin,按任务特征把轻量任务路由到更低精度的配置,把高要求工作负载保留更高精度,对用户无额外复杂度。
下图展示了其核心机制——自动适配模块整合任务检测器,配合智能路由在推理时 on-the-fly 地做精度决策。

实验
在 OpenClaw 平台上覆盖多样化的 agent 任务工作流,以 GLM-5 FP8 为基线,衡量任务性能、推理延迟与计算/金钱成本。
结果
QuantClaw 在保持甚至提升任务性能的同时,实现最高 21.4% 成本节省 与 15.7% 延迟下降。此外,作者观察到 NVFP4 量化退化随模型规模呈幂律衰减 Δ ∝ N^(−0.293),说明更大的模型对低精度更鲁棒,这为按模型规模分配精度提供了依据。

为什么重要
对 agent / LLM 基础设施团队,这项工作把"精度"从静态部署参数变成可调度的动态资源,给长上下文、多轮 agent 系统提供了一条不需要重新训练、不增加用户复杂度的降本路径。
与已有工作的关系
延续 OpenClaw 等 autonomous agent 框架在效率优化上的讨论,并把 LLM 量化(如 FP8、NVFP4 等低精度格式)从静态压缩推广到 task-aware 的动态路由,与 mixture-of-precision / adaptive inference 的思路相通。
尚未回答的问题
- task detector 的泛化性:面对未见过或对抗性任务分布时,路由决策是否仍稳健?
- 除 GLM-5 FP8 外,在其他模型家族(如更小模型、MoE、推理型模型)上是否仍有同等收益?
- 幂律关系 Δ ∝ N^(−0.293) 是否跨架构、跨量化格式普遍成立?
- 在线路由本身的开销、误路由造成的质量回退如何量化与兜底?
原始摘要(中文翻译)
诸如 OpenClaw 之类的自主 agent 系统,由于长上下文输入和多轮推理,带来了显著的效率挑战。这在真实开发中造成了高得令人却步的计算与金钱成本。虽然量化是降低成本与延迟的标准手段,但它在真实场景下对 agent 性能的影响仍不清楚。在本工作中,我们在 OpenClaw 上跨多种复杂工作流分析了量化敏感性,并表明精度需求高度依赖于任务。基于这一观察,我们提出 QuantClaw——一个即插即用的精度路由插件,根据任务特征动态分配精度。QuantClaw 将轻量任务路由到更低成本的配置,同时为高要求的工作负载保留更高精度,在不增加用户复杂度的情况下节约成本并加速推理。实验表明,我们的 QuantClaw 能够保持甚至提升任务性能,同时降低延迟与计算成本。在一系列 agent 任务上,它在 GLM-5(FP8 基线)上实现了最高 21.4% 的成本节省与 15.7% 的延迟降低。这些结果凸显了在 agent 系统中将精度视为动态资源的收益。