Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems

arXiv: 2604.22136 · PDF

作者: Jun He, Deying Yu

单位: OpenKedge.io

主分类: cs.CR · 全部: cs.CR, cs.LG

命中关键词: large language model, llm, agent, agentic, reasoning, latency

TL;DR

提出 Sovereign Agentic Loops (SAL)：让 LLM 只发"带理由的结构化意图"，由控制面校验策略与系统状态后再执行，在 OpenKedge 原型上阻断 100% 不安全意图，中位延迟仅增 12.4 ms。

核心观点

当前 agent 架构直接把随机模型输出送进执行层，无法保证正确性、上下文与对齐，存在安全风险。
应把推理与执行解耦：模型只输出结构化 intent + justification，由控制面验证后才能落地。
通过 obfuscation membrane 限制模型接触身份敏感状态，通过密码学链接的 Evidence Chain 保证可审计与可重放。
在设定假设下，SAL 可形式化证明 policy-bounded execution、identity isolation、deterministic replay。

方法

SAL 是一种 control-plane 架构：LLM 产出结构化意图并附推理说明，控制面将其与系统真实状态、策略比对后再决定是否执行。架构两个关键组件：(1) obfuscation membrane，隔离模型与身份敏感状态；(2) Evidence Chain，密码学链接每次决策证据，支持审计与 replay。作者对 SAL 做了形式化描述并给出三条安全性质的证明。

实验

在面向云基础设施的 OpenKedge 原型中部署 SAL，基于一个内部 benchmark 评测不安全意图拦截率、一致性检查、执行安全性与延迟开销。

结果

policy 层直接阻断 93% 的不安全意图；
剩余 7% 被一致性检查拒绝；
benchmark 中未发生不安全执行；
中位延迟增加 12.4 ms。

为什么重要

对 agent/LLM 基础设施从业者：提供了一条把"模型不可靠"与"真实系统可变更"解耦的工程化路径，让 API-calling agent 可以在审计、回放、策略边界下安全运行，尤其适合云基础设施等高风险场景。

与已有工作的关系

延续 tool-use / function-calling agent 的方向，但更贴近 policy-as-code、capability-based security 以及 audit log/provenance 研究；与 Constitutional AI 等对齐工作相比，SAL 强调的是执行时的外部约束而非模型内部对齐。

尚未回答的问题

policy 覆盖不到的新型意图如何处理？
obfuscation membrane 对 agent 任务完成率的影响？
Evidence Chain 的存储与性能在大规模部署中是否可扩展？
除云基础设施外，其它领域（金融、机器人）迁移成本如何？

原始摘要（中文翻译）

大语言模型（LLM）agent 正越来越多地发起会修改真实系统的 API 调用，然而当前许多架构直接把随机的模型输出传递给执行层。我们认为这种耦合制造了安全风险，因为在执行时无法假设模型的正确性、上下文感知能力和对齐性。我们提出 Sovereign Agentic Loops (SAL)，一种控制面架构：模型输出带有理由说明（justifications）的结构化意图（intents），控制面在执行前将这些意图与真实的系统状态和策略进行校验。SAL 结合了 obfuscation membrane（用于限制模型访问身份敏感状态）与一条密码学链接的 Evidence Chain（用于可审计性与重放）。我们对 SAL 做了形式化，并证明在所陈述的假设下，它提供 policy-bounded execution、身份隔离（identity isolation）和确定性重放（deterministic replay）。在面向云基础设施的 OpenKedge 原型中，SAL 在策略层阻断了 93% 的不安全意图，其余 7% 通过一致性检查被拒绝，在我们的 benchmark 中避免了不安全执行，并仅增加 12.4 ms 的中位延迟。

论文图表

图 1: Page 2 (rendered)

图 1

图 2: Page 3 (rendered)

图 2

图 3: Page 4 (rendered)

图 3