arXiv: 2604.22136 · PDF
作者: Jun He, Deying Yu
单位: OpenKedge.io
主分类: cs.CR · 全部: cs.CR, cs.LG
命中关键词: large language model, llm, agent, agentic, reasoning, latency
TL;DR
提出 Sovereign Agentic Loops (SAL):让 LLM 只发"带理由的结构化意图",由控制面校验策略与系统状态后再执行,在 OpenKedge 原型上阻断 100% 不安全意图,中位延迟仅增 12.4 ms。
核心观点
- 当前 agent 架构直接把随机模型输出送进执行层,无法保证正确性、上下文与对齐,存在安全风险。
- 应把推理与执行解耦:模型只输出结构化 intent + justification,由控制面验证后才能落地。
- 通过 obfuscation membrane 限制模型接触身份敏感状态,通过密码学链接的 Evidence Chain 保证可审计与可重放。
- 在设定假设下,SAL 可形式化证明 policy-bounded execution、identity isolation、deterministic replay。
方法
SAL 是一种 control-plane 架构:LLM 产出结构化意图并附推理说明,控制面将其与系统真实状态、策略比对后再决定是否执行。架构两个关键组件:(1) obfuscation membrane,隔离模型与身份敏感状态;(2) Evidence Chain,密码学链接每次决策证据,支持审计与 replay。作者对 SAL 做了形式化描述并给出三条安全性质的证明。
实验
在面向云基础设施的 OpenKedge 原型中部署 SAL,基于一个内部 benchmark 评测不安全意图拦截率、一致性检查、执行安全性与延迟开销。
结果
- policy 层直接阻断 93% 的不安全意图;
- 剩余 7% 被一致性检查拒绝;
- benchmark 中未发生不安全执行;
- 中位延迟增加 12.4 ms。
为什么重要
对 agent/LLM 基础设施从业者:提供了一条把"模型不可靠"与"真实系统可变更"解耦的工程化路径,让 API-calling agent 可以在审计、回放、策略边界下安全运行,尤其适合云基础设施等高风险场景。
与已有工作的关系
延续 tool-use / function-calling agent 的方向,但更贴近 policy-as-code、capability-based security 以及 audit log/provenance 研究;与 Constitutional AI 等对齐工作相比,SAL 强调的是执行时的外部约束而非模型内部对齐。
尚未回答的问题
- policy 覆盖不到的新型意图如何处理?
- obfuscation membrane 对 agent 任务完成率的影响?
- Evidence Chain 的存储与性能在大规模部署中是否可扩展?
- 除云基础设施外,其它领域(金融、机器人)迁移成本如何?
原始摘要(中文翻译)
大语言模型(LLM)agent 正越来越多地发起会修改真实系统的 API 调用,然而当前许多架构直接把随机的模型输出传递给执行层。我们认为这种耦合制造了安全风险,因为在执行时无法假设模型的正确性、上下文感知能力和对齐性。我们提出 Sovereign Agentic Loops (SAL),一种控制面架构:模型输出带有理由说明(justifications)的结构化意图(intents),控制面在执行前将这些意图与真实的系统状态和策略进行校验。SAL 结合了 obfuscation membrane(用于限制模型访问身份敏感状态)与一条密码学链接的 Evidence Chain(用于可审计性与重放)。我们对 SAL 做了形式化,并证明在所陈述的假设下,它提供 policy-bounded execution、身份隔离(identity isolation)和确定性重放(deterministic replay)。在面向云基础设施的 OpenKedge 原型中,SAL 在策略层阻断了 93% 的不安全意图,其余 7% 通过一致性检查被拒绝,在我们的 benchmark 中避免了不安全执行,并仅增加 12.4 ms 的中位延迟。
论文图表
图 1: Page 2 (rendered)

图 2: Page 3 (rendered)

图 3: Page 4 (rendered)
