arXiv: 2604.22136 · PDF

作者: Jun He, Deying Yu

主分类: cs.CR · 全部: cs.CR, cs.LG

命中关键词: large language model, llm, agent, agentic, reasoning, latency


TL;DR

论文提出 Sovereign Agentic Loops (SAL),通过控制平面解耦 LLM 推理与真实系统执行,用策略校验与证据链保证 agent 调用的安全可审计。

核心观点

  • LLM agent 直接把随机输出送进执行层会带来不可接受的安全风险。
  • SAL 让模型只发出带 justification 的结构化 intent,由控制平面对照真实状态与策略再决定是否执行。
  • 引入 obfuscation membrane 做身份隔离,以及 cryptographically linked Evidence Chain 支持审计与 replay。
  • 在形式化假设下可保证 policy-bounded execution、identity isolation 与 deterministic replay。

方法

图 1

SAL 是一种 control-plane 架构:

  • Intent 接口:模型输出结构化 intent + justification,而不是直接 API call。
  • Obfuscation membrane:向模型暴露的状态被脱敏,限制其接触 identity-sensitive 字段。
  • Policy + consistency 校验:控制平面把 intent 对照真实系统状态和策略规则验证,两层把关。
  • Evidence Chain:对每次 intent、校验结果、执行动作做密码学链式记录,支持事后审计和 deterministic replay。
  • 作者给出形式化定义并证明上述三项安全性属性在假设下成立。

图 2

实验

在作者自建的 OpenKedge 云基础设施原型上评估,面向 unsafe intent 基准:

  • 系统:OpenKedge cloud infrastructure prototype。
  • 对比维度:policy 层拦截率、consistency 检查拦截率、最终 unsafe execution 数、延迟开销。
  • 指标:拦截比例、是否出现 unsafe execution、median latency。

摘要未披露数据集规模、基线架构或具体 workload 细节。

结果

图 3

  • 93% 的 unsafe intent 在 policy 层直接被拒。
  • 剩余 7% 被 consistency 检查识破。
  • 基准中最终 unsafe execution 为 0。
  • 中位延迟仅增加 12.4 ms,说明 control plane 成本可接受。
  • 结论建立在作者的形式化假设与自建 benchmark 上,外部有效性仍需验证。

为什么重要

对做 LLM agent / AI 基础设施的人来说,SAL 提供了一条可落地的"模型提议、系统裁决"范式:把不可信的随机输出关进 intent schema,把信任转移到可审计的控制平面;同时 Evidence Chain 让事故可 replay,契合合规与安全运营需求,对云控制面、DevOps agent、金融后台等 high-stakes 场景尤其有价值。

与已有工作的关系

延续 ReAct、Toolformer 等 tool-use agent 思路,但在执行侧更靠近 policy-as-code(OPA/Rego)、capability-based security 与 confidential computing 中的 reference monitor 思想;Evidence Chain 呼应 transparency log 与 tamper-evident audit(类 Sigstore / Merkle log);obfuscation membrane 与 differential privacy、PII redaction 研究有概念重叠。

尚未回答的问题

  • Policy 本身的完备性与维护成本:规则漏洞会否重新打开攻击面?
  • 对抗性 intent(prompt injection 驱动)下 consistency 检查的鲁棒性。
  • OpenKedge 之外的真实生产负载、长尾 API 表现仍未知。
  • Obfuscation membrane 对模型推理质量的影响缺乏量化。
  • 证据链在多租户、跨组织场景下的密钥与隐私治理方案。

原始摘要

Large language model (LLM) agents increasingly issue API calls that mutate real systems, yet many current architectures pass stochastic model outputs directly to execution layers. We argue that this coupling creates a safety risk because model correctness, context awareness, and alignment cannot be assumed at execution time. We introduce Sovereign Agentic Loops (SAL), a control-plane architecture in which models emit structured intents with justifications, and the control plane validates those intents against true system state and policy before execution. SAL combines an obfuscation membrane, which limits model access to identity-sensitive state, with a cryptographically linked Evidence Chain for auditability and replay. We formalize SAL and show that, under the stated assumptions, it provides policy-bounded execution, identity isolation, and deterministic replay. In an OpenKedge prototype for cloud infrastructure, SAL blocks 93% of unsafe intents at the policy layer, rejects the remaining 7% via consistency checks, prevents unsafe executions in our benchmark, and adds 12.4 ms median latency.