arXiv: 2604.21794 · PDF
作者: Ye Yu, Heming Liu, Haibo Jin, Xiaopeng Yuan, Peng Kuang, Haohan Wang
单位: University of Illinois Urbana-Champaign
主分类: cs.AI · 全部: cs.AI, cs.CL, cs.MA
命中关键词: large language model, agent, multi-agent, reasoning, inference
TL;DR
DiffMAS 把多智能体之间的 latent 通信(KV cache)当作可学习组件,用参数高效监督训练端到端优化推理链,在数学、科学 QA、代码、常识基准上均优于单智能体与文本式多智能体。
核心观点
- 现有多 agent LLM 系统把 agent 间通信当作固定文本接口,未与推理联合优化。
- Latent 通信(如 KV cache)比文本协议更具潜力,但此前方法不做联合训练。
- 提出 DiffMAS:将 latent 通信作为可学习模块,端到端优化多 agent 轨迹。
- 在 AIME24、GPQA-Diamond、代码生成、常识基准上超越 single-agent、text MAS 与先前 latent 方法。
方法
DiffMAS 分两阶段:Stage I 中 agent 1 到 K–1 顺序预填充已有 KV cache 并追加各自生成的 KV 段,构造共享 KV trace 作为跨 agent 的隐通信介质,此阶段无梯度更新;Stage II 由最终 agent 基于该 trace 进行推理。训练采用参数高效的监督微调,在多 agent latent 轨迹上联合学习信息如何被编码与解读,使上游 agent 的隐状态与下游推理处于同一计算图中、联合优化。

图 1 展示了该两阶段流水线:前 K–1 个 agent 协作构建共享 KV trace,最后一个 agent 消费该 trace 完成任务。
实验
覆盖数学推理(AIME24)、科学 QA(GPQA-Diamond)、代码生成、常识推理多个基准;基线包括 single-agent 推理、text-based 多 agent 系统,以及先前的 latent 通信方法(如 LatentMAS)。评估指标为推理准确率与解码稳定性,并通过 judger agent 的 token 级 top-25 预测熵分析通信结构差异。
结果
DiffMAS 在 AIME24 达到 26.7%,GPQA-Diamond 达到 20.2%,在各推理基准上均稳定提升。

图 2 / 图 3 对比 LatentMAS 与 DiffMAS 上 judger agent 的 token 级预测熵:由于 DiffMAS 的跨 agent latent 状态处于共享计算图中并被联合优化,上游表示能够适配下游解码需求,呈现出比静态 latent 注入更稳定的熵分布。

为什么重要
对 agent/LLM 基础设施而言,把 inter-agent 通信从"文本 prompt 拼接"提升为"可训练的 latent 通道",意味着 multi-agent 系统可被当作一个端到端可微网络来优化,有望降低 token 开销、提升协作稳定性,并启发下一代 agent 编排与训练范式。
与已有工作的关系
延续 multi-agent LLM 协作(如 debate/orchestration 风格系统)与 latent 通信研究(如 LatentMAS)的脉络,借鉴参数高效监督微调思路,将两者合并为联合训练框架。
尚未回答的问题
KV trace 在异构模型 / 不同 tokenizer 间如何共享?规模扩展到更多 agent 或更长轨迹时的成本与稳定性?latent 通信的可解释性与安全审计如何做?与 RL 式 agent 训练如何结合?
原始摘要(中文翻译)
基于大语言模型构建的多智能体系统在复杂推理任务上表现出色,但大多数工作聚焦于 agent 角色与编排,而把 agent 间通信当作一个固定接口。通过诸如 key-value cache 等内部表示进行的 latent 通信,为基于文本的协议提供了一种有前景的替代方案,但现有方法并未将通信与多 agent 推理联合优化。因此我们提出 DiffMAS,一种将 latent 通信视为多 agent 系统中可学习组件的训练框架。DiffMAS 在多 agent latent 轨迹上执行参数高效的监督训练,使各 agent 能够联合学习如何在交互中对信息进行编码和解读。在数学推理、科学问答、代码生成以及常识基准上的实验表明,DiffMAS 相比单 agent 推理、基于文本的多 agent 系统以及此前的 latent 通信方法,持续提升了推理准确率与解码稳定性,在 AIME24 上取得 26.7%、在 GPQA-Diamond 上取得 20.2%,并在各推理基准上取得一致的增益。