Learning to Communicate: Toward End-to-End Optimization of Multi-Agent Language Systems

arXiv: 2604.21794 · PDF

作者: Ye Yu, Heming Liu, Haibo Jin, Xiaopeng Yuan, Peng Kuang, Haohan Wang

单位: University of Illinois Urbana-Champaign

主分类: cs.AI · 全部: cs.AI, cs.CL, cs.MA

命中关键词: large language model, agent, multi-agent, reasoning, inference

TL;DR

DiffMAS 把多智能体之间的 latent 通信（KV cache）当作可学习组件，用参数高效监督训练端到端优化推理链，在数学、科学 QA、代码、常识基准上均优于单智能体与文本式多智能体。

核心观点

现有多 agent LLM 系统把 agent 间通信当作固定文本接口，未与推理联合优化。
Latent 通信（如 KV cache）比文本协议更具潜力，但此前方法不做联合训练。
提出 DiffMAS：将 latent 通信作为可学习模块，端到端优化多 agent 轨迹。
在 AIME24、GPQA-Diamond、代码生成、常识基准上超越 single-agent、text MAS 与先前 latent 方法。

方法

DiffMAS 分两阶段：Stage I 中 agent 1 到 K–1 顺序预填充已有 KV cache 并追加各自生成的 KV 段，构造共享 KV trace 作为跨 agent 的隐通信介质，此阶段无梯度更新；Stage II 由最终 agent 基于该 trace 进行推理。训练采用参数高效的监督微调，在多 agent latent 轨迹上联合学习信息如何被编码与解读，使上游 agent 的隐状态与下游推理处于同一计算图中、联合优化。

图 1

图 1 展示了该两阶段流水线：前 K–1 个 agent 协作构建共享 KV trace，最后一个 agent 消费该 trace 完成任务。

实验

覆盖数学推理（AIME24）、科学 QA（GPQA-Diamond）、代码生成、常识推理多个基准；基线包括 single-agent 推理、text-based 多 agent 系统，以及先前的 latent 通信方法（如 LatentMAS）。评估指标为推理准确率与解码稳定性，并通过 judger agent 的 token 级 top-25 预测熵分析通信结构差异。

结果

DiffMAS 在 AIME24 达到 26.7%，GPQA-Diamond 达到 20.2%，在各推理基准上均稳定提升。

图 2

图 2 / 图 3 对比 LatentMAS 与 DiffMAS 上 judger agent 的 token 级预测熵：由于 DiffMAS 的跨 agent latent 状态处于共享计算图中并被联合优化，上游表示能够适配下游解码需求，呈现出比静态 latent 注入更稳定的熵分布。

图 3

为什么重要

对 agent/LLM 基础设施而言，把 inter-agent 通信从"文本 prompt 拼接"提升为"可训练的 latent 通道"，意味着 multi-agent 系统可被当作一个端到端可微网络来优化，有望降低 token 开销、提升协作稳定性，并启发下一代 agent 编排与训练范式。

与已有工作的关系

延续 multi-agent LLM 协作（如 debate/orchestration 风格系统）与 latent 通信研究（如 LatentMAS）的脉络，借鉴参数高效监督微调思路，将两者合并为联合训练框架。

尚未回答的问题

KV trace 在异构模型 / 不同 tokenizer 间如何共享？规模扩展到更多 agent 或更长轨迹时的成本与稳定性？latent 通信的可解释性与安全审计如何做？与 RL 式 agent 训练如何结合？

原始摘要（中文翻译）

基于大语言模型构建的多智能体系统在复杂推理任务上表现出色，但大多数工作聚焦于 agent 角色与编排，而把 agent 间通信当作一个固定接口。通过诸如 key-value cache 等内部表示进行的 latent 通信，为基于文本的协议提供了一种有前景的替代方案，但现有方法并未将通信与多 agent 推理联合优化。因此我们提出 DiffMAS，一种将 latent 通信视为多 agent 系统中可学习组件的训练框架。DiffMAS 在多 agent latent 轨迹上执行参数高效的监督训练，使各 agent 能够联合学习如何在交互中对信息进行编码和解读。在数学推理、科学问答、代码生成以及常识基准上的实验表明，DiffMAS 相比单 agent 推理、基于文本的多 agent 系统以及此前的 latent 通信方法，持续提升了推理准确率与解码稳定性，在 AIME24 上取得 26.7%、在 GPQA-Diamond 上取得 20.2%，并在各推理基准上取得一致的增益。