Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems

arXiv: 2604.22136 · PDF

作者: Jun He, Deying Yu

单位: OpenKedge.io

主分类: cs.CR · 全部: cs.CR, cs.LG

命中关键词: large language model, llm, agent, agentic, reasoning, latency

TL;DR

提出 Sovereign Agentic Loops (SAL)：将 LLM agent 的推理与执行解耦，通过控制平面对模型输出的结构化 intent 做策略与状态校验，实现可审计、可重放的安全执行。

核心观点

当前架构直接把随机性模型输出传给执行层，存在安全风险，因为执行时无法保证模型正确性、上下文感知和对齐。
SAL 是一种 control-plane 架构：模型只发出带 justification 的结构化 intent，由控制平面对照真实系统状态与策略校验后再执行。
引入 obfuscation membrane 限制模型接触身份敏感状态；用加密链接的 Evidence Chain 保证可审计与可重放。
在给定假设下可形式化证明 policy-bounded execution、identity isolation 和 deterministic replay。

方法

模型输出不是动作，而是结构化 intent + justification；执行权交给 control plane。
obfuscation membrane：对模型屏蔽 identity-sensitive 状态，降低信息暴露面。
Evidence Chain：用密码学链接把 intent、校验结果和执行记录串成可审计链，支持 replay。
对架构做形式化，证明三项安全性质（策略受限执行、身份隔离、确定性重放）。

实验

在 OpenKedge prototype（面向云基础设施场景）中落地 SAL，测量策略层拦截率、一致性检查拒绝率、不安全执行发生情况，以及延迟开销。具体 benchmark 细节与基线摘要未详述。

结果

93% 的不安全 intent 在 policy 层被拦截。
剩余 7% 通过 consistency checks 被拒。
在 benchmark 中未发生不安全执行。
中位延迟开销约 12.4 ms。

为什么重要

面向真正会改动生产系统的 LLM agent，它提供了一条把"模型自由发挥"和"系统执行保证"分离的工程范式，让策略、审计、回放都从 agent 外部强制，而不是依赖模型自觉。

与已有工作的关系

延续 agentic AI 安全、tool use 调度与 guardrail 研究；呼应 control-plane / policy engine 思路（如 OPA 式策略层）以及可审计 AI 日志链、confidential computing 中对 identity 状态隔离的理念。

尚未回答的问题

策略与 consistency checks 的完备性如何保证，会不会漏掉新型 unsafe intent？
obfuscation membrane 在多租户、复杂上下文下是否影响任务成功率？
SAL 在 OpenKedge 之外的领域（金融、机器人等）可迁移性如何？
12.4 ms 中位延迟在长链路 agent 与高并发下是否仍可接受？

原始摘要（中文翻译）

大语言模型 (LLM) agent 越来越多地发起会改动真实系统的 API 调用，但当前许多架构直接把具有随机性的模型输出传递到执行层。我们认为这种耦合带来安全风险，因为在执行时无法假定模型的正确性、上下文感知能力和对齐性。我们提出 Sovereign Agentic Loops (SAL)，一种 control-plane 架构：模型发出带有 justification 的结构化 intent，控制平面在执行前依据真实系统状态和策略对这些 intent 进行校验。SAL 结合了一个 obfuscation membrane（用于限制模型对身份敏感状态的访问）和一个以密码学方式链接的 Evidence Chain（用于可审计性和重放）。我们对 SAL 进行了形式化，并证明在所述假设下，它可提供 policy-bounded execution、identity isolation 以及 deterministic replay。在面向云基础设施的 OpenKedge 原型中，SAL 在策略层拦截了 93% 的不安全 intent，并通过一致性检查拒绝了剩余的 7%，在我们的 benchmark 中阻止了所有不安全执行，同时仅增加 12.4 ms 的中位延迟。