arXiv: 2604.22136 · PDF
作者: Jun He, Deying Yu
单位: OpenKedge.io
主分类: cs.CR · 全部: cs.CR, cs.LG
命中关键词: large language model, llm, agent, agentic, reasoning, latency
TL;DR
提出 Sovereign Agentic Loops (SAL):将 LLM agent 的推理与执行解耦,通过控制平面对模型输出的结构化 intent 做策略与状态校验,实现可审计、可重放的安全执行。
核心观点
- 当前架构直接把随机性模型输出传给执行层,存在安全风险,因为执行时无法保证模型正确性、上下文感知和对齐。
- SAL 是一种 control-plane 架构:模型只发出带 justification 的结构化 intent,由控制平面对照真实系统状态与策略校验后再执行。
- 引入 obfuscation membrane 限制模型接触身份敏感状态;用加密链接的 Evidence Chain 保证可审计与可重放。
- 在给定假设下可形式化证明 policy-bounded execution、identity isolation 和 deterministic replay。
方法
- 模型输出不是动作,而是结构化 intent + justification;执行权交给 control plane。
- obfuscation membrane:对模型屏蔽 identity-sensitive 状态,降低信息暴露面。
- Evidence Chain:用密码学链接把 intent、校验结果和执行记录串成可审计链,支持 replay。
- 对架构做形式化,证明三项安全性质(策略受限执行、身份隔离、确定性重放)。
实验
在 OpenKedge prototype(面向云基础设施场景)中落地 SAL,测量策略层拦截率、一致性检查拒绝率、不安全执行发生情况,以及延迟开销。具体 benchmark 细节与基线摘要未详述。
结果
- 93% 的不安全 intent 在 policy 层被拦截。
- 剩余 7% 通过 consistency checks 被拒。
- 在 benchmark 中未发生不安全执行。
- 中位延迟开销约 12.4 ms。
为什么重要
面向真正会改动生产系统的 LLM agent,它提供了一条把"模型自由发挥"和"系统执行保证"分离的工程范式,让策略、审计、回放都从 agent 外部强制,而不是依赖模型自觉。
与已有工作的关系
延续 agentic AI 安全、tool use 调度与 guardrail 研究;呼应 control-plane / policy engine 思路(如 OPA 式策略层)以及可审计 AI 日志链、confidential computing 中对 identity 状态隔离的理念。
尚未回答的问题
- 策略与 consistency checks 的完备性如何保证,会不会漏掉新型 unsafe intent?
- obfuscation membrane 在多租户、复杂上下文下是否影响任务成功率?
- SAL 在 OpenKedge 之外的领域(金融、机器人等)可迁移性如何?
- 12.4 ms 中位延迟在长链路 agent 与高并发下是否仍可接受?
原始摘要(中文翻译)
大语言模型 (LLM) agent 越来越多地发起会改动真实系统的 API 调用,但当前许多架构直接把具有随机性的模型输出传递到执行层。我们认为这种耦合带来安全风险,因为在执行时无法假定模型的正确性、上下文感知能力和对齐性。我们提出 Sovereign Agentic Loops (SAL),一种 control-plane 架构:模型发出带有 justification 的结构化 intent,控制平面在执行前依据真实系统状态和策略对这些 intent 进行校验。SAL 结合了一个 obfuscation membrane(用于限制模型对身份敏感状态的访问)和一个以密码学方式链接的 Evidence Chain(用于可审计性和重放)。我们对 SAL 进行了形式化,并证明在所述假设下,它可提供 policy-bounded execution、identity isolation 以及 deterministic replay。在面向云基础设施的 OpenKedge 原型中,SAL 在策略层拦截了 93% 的不安全 intent,并通过一致性检查拒绝了剩余的 7%,在我们的 benchmark 中阻止了所有不安全执行,同时仅增加 12.4 ms 的中位延迟。