arXiv: 2604.22577 · PDF

作者: Manyi Zhang, Ji-Fu Li, Zhongao Sun, Xiaohao Liu, Zhenhua Dong, Xianzhi Yu, Haoli Bai, Xiaobo Xia

主分类: cs.AI · 全部: cs.AI, cs.CL

命中关键词: agent, reasoning, inference, serving, quantization, latency


TL;DR

QuantClaw 是为 OpenClaw agent 系统设计的即插即用"精度路由"插件,根据任务特征动态分配量化精度,在 GLM-5 FP8 基线上最多节省 21.4% 成本与 15.7% 延迟。

核心观点

  • Agent 工作流的量化敏感度高度任务依赖,统一精度会造成浪费或性能损失。
  • 将精度视为一种动态资源,而非全局静态配置。
  • 提出 QuantClaw:轻量任务走低精度,复杂推理保留高精度,用户无感知。

方法

图 1

作者先在 OpenClaw 上对多种复杂 workflow 做量化敏感度分析,发现不同任务对精度的需求差异显著。基于此设计 QuantClaw:一个 plug-and-play 路由层,依据任务特征把请求分发到不同精度的模型配置上,在保证质量的前提下压低平均成本。

图 2

实验

  • 平台:OpenClaw agent 系统。
  • 模型:GLM-5,FP8 为基线。
  • 覆盖多种 agent 任务(长上下文、多轮推理等复杂 workflow)。
  • 指标:任务性能、延迟、计算/金钱成本。
  • 基线:统一 FP8 全量部署。

结果

图 3

  • 成本节省最多 21.4%。
  • 延迟下降最多 15.7%。
  • 任务性能保持或略有提升,未观察到显著质量回退。
  • 摘要未披露具体任务级 breakdown 或不同精度组合的细节数字。

为什么重要

对 agent / LLM infra 从业者,QuantClaw 展示了一条低改造成本的优化路径:无需重训或改 prompt,只在服务层做精度路由即可降本增速,适合长上下文、多轮 agent 这类成本敏感场景。

与已有工作的关系

延续 LLM 量化主线(FP8、INT8/INT4 PTQ/QAT),但把关注点从"单模型精度压缩"转向"agent 系统级精度调度",与 model routing / cascade(如 FrugalGPT、RouteLLM)思路相通,并将 OpenClaw 这类 agent 框架的系统性能工程纳入视角。

尚未回答的问题

  • 路由决策器本身如何训练、泛化到新任务?
  • 路由错误时的 fallback 与质量保证机制?
  • 在非 GLM-5 或 INT4/INT2 等更激进精度上的表现?
  • 与 speculative decoding、KV cache 压缩等正交优化的叠加收益?
  • 长期在线部署的精度漂移与监控方案。

原始摘要

Autonomous agent systems such as OpenClaw introduce significant efficiency challenges due to long-context inputs and multi-turn reasoning. This results in prohibitively high computational and monetary costs in real-world development. While quantization is a standard approach for reducing cost and latency, its impact on agent performance in realistic scenarios remains unclear. In this work, we analyze quantization sensitivity across diverse complex workflows over OpenClaw, and show that precision requirements are highly task-dependent. Based on this observation, we propose QuantClaw, a plug-and-play precision routing plugin that dynamically assigns precision according to task characteristics. QuantClaw routes lightweight tasks to lower-cost configurations while preserving higher precision for demanding workloads, saving cost and accelerating inference without increasing user complexity. Experiments show that our QuantClaw maintains or improves task performance while reducing both latency and computational cost. Across a range of agent tasks, it achieves up to 21.4% cost savings and 15.7% latency reduction on GLM-5 (FP8 baseline). These results highlight the benefit of treating precision as a dynamic resource in agent systems.