arXiv: 2604.22748 · PDF
作者: Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao, Jinhui Ye, Xinyu Lin, Xichen Zhang, Qisheng Hu, Shuai Yang, Leyang Shen, Wei Chow, Yifei Dong, Fengyi Wu, Quanyu Long, Bin Xia, Shaozuo Yu, Mingkang Zhu, Wenhu Zhang, Jiehui Huang, Haokun Gui, Haoxuan Che, Long Chen, Qifeng Chen, Wenxuan Zhang, Wenya Wang, Xiaojuan Qi, Yang Deng, Yanwei Li, Mike Zheng Shou, Zhi-Qi Cheng, See-Kiong Ng, Ziwei Liu, Philip Torr, Jiaya Jia
单位: Hong Kong University of Science and Technology, National University of Singapore, University of Oxford, Nanyang Technological University, Chinese University of Hong Kong, University of Hong Kong, University of Washington, Hong Kong University of Science and Technology (Guangzhou), Singapore University of Technology and Design, Singapore Management University
主分类: cs.AI · 全部: cs.AI
命中关键词: agent, agentic, multi-agent, ai system
TL;DR
提出"levels × laws"二维分类框架,把 agentic world model 划分为 L1/L2/L3 三级能力与物理、数字、社会、科学四类规律域,综述 400+ 工作并给出评测与治理建议。
核心观点
- 指出"world model"在不同社群含义混乱,需要统一分类学;文章给出了一个两轴框架:能力层级 × 规律域。
- 三个能力层级:L1 Predictor(单步局部转移)、L2 Simulator(多步、动作条件化 rollout 且遵循领域规律)、L3 Evolver(预测失败时能自我修订模型)。
- 四类 governing-law regimes:physical / digital / social / scientific,决定了模型必须满足的约束以及最可能失败的位置。

上图以四个代表性场景(机器人操控、代码 / UI 交互、多智能体对话、实验装置)直观说明了四类规律域各自的对象与边界。
- 贡献包括:统一分类、综述跨社群代表性系统、提出 decision-centric 评测原则与一个可复现的 minimal evaluation package,以及给出架构指引、开放问题与治理挑战。

图中按年份 × 能力层级排布 2018–2026 的 70 个代表性系统(每格最多 5 个),用于说明 world-modeling 系统的演进轨迹以及目前仍集中在 L1/L2 的现状。
方法
以文献综合为主:作者沿两轴(levels、laws)构建分类,把 model-based RL、视频生成、web/GUI agent、多智能体社会模拟、AI for science 等子领域系统映射到对应的 level-regime 单元格,并在每个单元格里分析方法论、典型失败模式和评测实践。
实验
非实证论文,而是系统综述:综合 400+ 工作,梳理 100+ 代表性系统,覆盖从 model-based RL 到 AI-driven scientific discovery 的多个方向;另提出 decision-centric 评测原则与 minimal reproducible evaluation package 作为评测工具。
结果
- 指出现有系统多停留在 L1/L2,L3 Evolver 仍是开放挑战。
- 不同 regime 下的失败模式差异显著(如物理世界受物理约束、社会世界受规范与多智能体交互约束)。
- 现有评测偏"下一步预测",对决策有用性不足,需要转向 decision-centric 评测。
为什么重要
为 agent / LLM 基础设施从业者提供统一语言:判断一个系统是 predictor、simulator 还是 evolver,以及它面向哪类规律域,从而选择合适的架构、评测指标和治理策略,把此前彼此隔离的社区连接起来。
与已有工作的关系
衔接 model-based RL(如 Dreamer 系列)、视频生成式世界模型、GUI/web agent、multi-agent 社会模拟(generative agents 路线)以及 AI-driven scientific discovery 等方向,将它们纳入同一分类坐标。
尚未回答的问题
- 如何真正实现 L3 Evolver 的自我修订闭环?
- 跨 regime 的统一世界模型是否可行,或必然专用化?
- decision-centric 评测的标准化指标与基准还需细化。
- 治理与安全挑战(特别是具备"重塑环境"能力的模型)。
原始摘要(中文翻译)
随着 AI 系统从生成文本转向通过持续交互来完成目标,对环境动力学建模的能力正成为核心瓶颈。操控物体、在软件中导航、与他人协作或设计实验的 agent 都需要具备预测能力的环境模型,但"world model"一词在不同研究社群中含义各异。我们提出一个"levels × laws"分类法,沿两个轴组织。第一轴定义三种能力层级:L1 Predictor,学习单步的局部转移算子;L2 Simulator,将其组合为多步、动作条件化的 rollout 并遵循领域规律;L3 Evolver,在预测与新证据冲突时能自主修订自身模型。第二轴识别出四种 governing-law regimes:physical、digital、social、scientific。这些 regime 决定了 world model 必须满足哪些约束以及在哪里最容易失败。基于该框架,我们综合了 400 多篇工作,并总结了 100 多个代表性系统,涵盖 model-based reinforcement learning、视频生成、web 与 GUI agent、多智能体社会模拟以及 AI 驱动的科学发现。我们分析了各 level-regime 组合下的方法、失败模式与评测实践,提出以决策为中心的评测原则和一个最小可复现的评测包,并给出架构指引、开放问题与治理挑战。最终形成的路线图连接了此前相互隔离的社区,勾勒出从被动的下一步预测迈向可以模拟、乃至最终重塑 agent 所处环境的 world model 的路径。
论文图表
图 1: Figure 4: Timeline of representative world-modeling systems (2018–2026) organized by capa- bility level. The roadmap shows 70 survey anchors, capped at five systems per year–level cell for readabil- ity. L1 Predictor denotes one-step dynamics, L2 Simulator denotes decision-usable multi-step rollout, and L3 Evolver denotes full evidence-driven model revision; partial L3 loops remain in Table 8. Each pill is
