QuantClaw: Precision Where It Matters for OpenClaw

arXiv: 2604.22577 · PDF

作者: Manyi Zhang, Ji-Fu Li, Zhongao Sun, Xiaohao Liu, Zhenhua Dong, Xianzhi Yu, Haoli Bai, Xiaobo Xia

单位: Huawei Technologies, National University of Singapore, University of Science and Technology of China

主分类: cs.AI · 全部: cs.AI, cs.CL

命中关键词: agent, reasoning, inference, serving, quantization, latency

TL;DR

QuantClaw 是 OpenClaw 的即插即用精度路由插件，按任务复杂度动态分配量化精度，在 GLM-5 上相比 FP8 基线最多省 21.4% 成本、降 15.7% 延迟。

核心观点

Autonomous agent 系统（如 OpenClaw）因长上下文和多轮推理带来高昂计算与金钱成本。
量化对 agent 性能的影响高度任务相关，统一精度并非最优。
应把精度视为动态资源：轻量任务用低精度，复杂任务保留高精度。
提出 QuantClaw：plug-and-play 的精度路由插件，在不增加用户复杂度的情况下节省成本、加速推理。

方法

作者首先在 OpenClaw 的多样复杂工作流上系统分析量化敏感度，得出精度需求因任务而异的结论。基于此提出 QuantClaw：一个精度路由插件，将 task detector 与 intelligent routing 整合，on-the-fly 判断任务特征，把轻量任务路由到低成本（更低精度）配置，把 demanding workload 路由到更高精度，从而在 agent 系统内实现动态精度分配。

图 2

实验

载体系统：OpenClaw autonomous agent。
模型基线：GLM-5 的 FP8 baseline。
覆盖工作流：多种 agent 任务（long-context、multi-turn reasoning 等复杂场景）。
评估指标：任务性能、latency、computational / monetary cost。
另外对 NVFP4 下量化退化的 scaling 行为进行了分析（随模型参数增大而衰减，呈 power-law）。

结果

在一系列 agent 任务上最多 21.4% cost 节省与 15.7% latency 降低（相对 GLM-5 FP8 基线）。
任务性能维持或提升，未出现精度换性能的明显退化。
NVFP4 量化退化随模型规模呈 power-law 递减，大模型更耐量化。

图 1

为什么重要

对 agent / LLM infra 实践者，QuantClaw 展示了"精度即资源"的新思路：无需改用户代码，就能在生产 agent 流水线中按任务弹性切换精度，显著降低 serving 成本与延迟，适合长上下文、多轮 agent 场景。

与已有工作的关系

延续 post-training quantization（FP8、NVFP4）与 mixed-precision inference 的研究，将其由静态模型级策略推进为 agent 任务级动态路由；与 OpenClaw 等 autonomous agent 框架、以及 LLM routing / cascading 工作（按难度分配算力）相呼应。

尚未回答的问题

task detector 的泛化性：面对未见任务类型是否仍能准确判断精度需求？
路由错误的代价与回退机制？
在非 GLM-5 模型、非 FP8/NVFP4 精度组合下的普适性？
多模型 / 多硬件后端下的调度开销与收益边界？

原始摘要（中文翻译）

像 OpenClaw 这样的 autonomous agent 系统，由于长上下文输入与多轮推理，带来了显著的效率挑战。这在真实开发中导致了过高的计算与金钱成本。虽然 quantization 是降低成本与延迟的标准方法，但其在真实场景中对 agent 性能的影响尚不清楚。在本工作中，我们分析了 OpenClaw 上多种复杂工作流下的量化敏感度，并表明精度需求高度依赖于任务。基于这一观察，我们提出 QuantClaw，一个即插即用的精度路由插件，根据任务特征动态分配精度。QuantClaw 将轻量任务路由到低成本配置，同时为 demanding 的工作负载保留更高精度，从而在不增加用户复杂度的前提下节省成本并加速推理。实验表明，我们的 QuantClaw 在维持或提升任务性能的同时，降低了延迟和计算成本。在一系列 agent 任务上，它相对 GLM-5（FP8 基线）实现了最多 21.4% 的成本节省和 15.7% 的延迟降低。这些结果凸显了在 agent 系统中将精度视作动态资源的好处。