QuantClaw: Precision Where It Matters for OpenClaw

arXiv: 2604.22577 · PDF

作者: Manyi Zhang, Ji-Fu Li, Zhongao Sun, Xiaohao Liu, Zhenhua Dong, Xianzhi Yu, Haoli Bai, Xiaobo Xia

单位: Huawei Technologies, National University of Singapore, University of Science and Technology of China

主分类: cs.AI · 全部: cs.AI, cs.CL

命中关键词: agent, reasoning, inference, serving, quantization, latency

TL;DR

QuantClaw 是针对 OpenClaw 智能体系统的即插即用精度路由插件，依据任务特征动态分配量化精度，在 GLM-5 的 FP8 基线上最多节省 21.4% 成本、降低 15.7% 延迟。

核心观点

OpenClaw 这类自主 agent 系统因长上下文与多轮推理面临高昂的算力与金钱成本。
量化对 agent 性能的影响随任务不同而差异显著，精度需求是 task-dependent 的。
将精度视为动态资源，用路由策略按需分配，可在不牺牲性能的前提下显著降本增效。

方法

作者先系统分析 OpenClaw 在多种复杂工作流下的量化敏感度，观察到不同任务对精度的耐受度差异很大。基于此提出 QuantClaw：一个 plug-and-play 的 precision routing plugin，按任务特征把轻量任务路由到更低精度的配置，把高要求工作负载保留更高精度，对用户无额外复杂度。

下图展示了其核心机制——自动适配模块整合任务检测器，配合智能路由在推理时 on-the-fly 地做精度决策。

图 2

实验

在 OpenClaw 平台上覆盖多样化的 agent 任务工作流，以 GLM-5 FP8 为基线，衡量任务性能、推理延迟与计算/金钱成本。

结果

QuantClaw 在保持甚至提升任务性能的同时，实现最高 21.4% 成本节省 与 15.7% 延迟下降。此外，作者观察到 NVFP4 量化退化随模型规模呈幂律衰减 Δ ∝ N^(−0.293)，说明更大的模型对低精度更鲁棒，这为按模型规模分配精度提供了依据。

图 1

为什么重要

对 agent / LLM 基础设施团队，这项工作把"精度"从静态部署参数变成可调度的动态资源，给长上下文、多轮 agent 系统提供了一条不需要重新训练、不增加用户复杂度的降本路径。

与已有工作的关系

延续 OpenClaw 等 autonomous agent 框架在效率优化上的讨论，并把 LLM 量化（如 FP8、NVFP4 等低精度格式）从静态压缩推广到 task-aware 的动态路由，与 mixture-of-precision / adaptive inference 的思路相通。

尚未回答的问题

task detector 的泛化性：面对未见过或对抗性任务分布时，路由决策是否仍稳健？
除 GLM-5 FP8 外，在其他模型家族（如更小模型、MoE、推理型模型）上是否仍有同等收益？
幂律关系 Δ ∝ N^(−0.293) 是否跨架构、跨量化格式普遍成立？
在线路由本身的开销、误路由造成的质量回退如何量化与兜底？

原始摘要（中文翻译）

诸如 OpenClaw 之类的自主 agent 系统，由于长上下文输入和多轮推理，带来了显著的效率挑战。这在真实开发中造成了高得令人却步的计算与金钱成本。虽然量化是降低成本与延迟的标准手段，但它在真实场景下对 agent 性能的影响仍不清楚。在本工作中，我们在 OpenClaw 上跨多种复杂工作流分析了量化敏感性，并表明精度需求高度依赖于任务。基于这一观察，我们提出 QuantClaw——一个即插即用的精度路由插件，根据任务特征动态分配精度。QuantClaw 将轻量任务路由到更低成本的配置，同时为高要求的工作负载保留更高精度，在不增加用户复杂度的情况下节约成本并加速推理。实验表明，我们的 QuantClaw 能够保持甚至提升任务性能，同时降低延迟与计算成本。在一系列 agent 任务上，它在 GLM-5（FP8 基线）上实现了最高 21.4% 的成本节省与 15.7% 的延迟降低。这些结果凸显了在 agent 系统中将精度视为动态资源的收益。