LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

[arXiv 2603] LiveWorld：打破“视外冻结”，构建具有持续演化能力的 4D 视频世界模型

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 LiveWorld，一种旨在解决视频世界模型中“视外动力学销蚀”问题的创新框架。该方法通过解耦世界演化（Evolution）与观察渲染（Rendering），引入基于 Monitor 的机制来自主模拟视线外动态实体的时空进展，在 LiveBench 评估中实现了 SOTA 级的长跨度场景一致性。

TL;DR

传统的视频世界模型在交互式探索时存在一个致命 Bug：“没看见就不存在”。当你转过头，身后的世界就被“冻结”了。LiveWorld 首次正式定义并解决了这一 Out-of-sight Dynamics 痛点。它通过解耦物理世界的“演化”与观测者的“渲染”，让不在视野内的物体也能在后台“偷偷进步”，从而实现了真正具备时间流逝感的 4D 场景模拟。

背景定位：世界模型的“静止咒语”

目前的视频世界模型（如 Sora、Genie 等的后续工作）在通过相机控制探索环境时，本质上是将历史观测作为 2D 快照存储在缓存中。这种 Observer-centric（以观察者为中心）的范式默认了一个假设：世界只在被看见时才演化。

一旦某个动态实体（比如奔跑的柯基）进入了视野盲区，模型会将其状态锁定。当你再次回头时，它依然保持着几秒钟前的姿势。这种由于缺乏视外动力学（Out-of-sight Dynamics）导致的现实感崩塌，是通往高保真虚拟世界的巨大障碍。

核心动机：为什么要将演化与渲染解耦？

作者深刻指出，理想的世界模型应该满足两个独立过程：

世界演化（Evolution）： $W_{t} = E (W_{< t})$ ，这是物理规律的延续，与你看不看它无关。
观察渲染（Rendering）： $F_{t} = R (W_{t}, C_{t})$ ，这是根据当前相机位姿对世界状态的投影。

为了在计算上可行，LiveWorld 并没有暴力模拟整个宇宙，而是提出了一种结构化世界状态近似：将世界分为“万年不变”的 Static Background 和“不断变化”的 Dynamic Entities。

方法论深度解析：Monitor 机制与统一骨干

1. 虚拟监视器 (Monitors)

系统会根据用户的探索轨迹，在发现动态实体的区域自动“注册”一个监视器。

自主快进：即使主相机已经走远，这个 Monitor 依然会利用 Evolution Engine 持续生成该物体的后续动作视频。
异步同步：解决新出现物体与全局时间戳对齐的问题。

2. 统一的状态条件视频骨干 (Unified Backbone)

LiveWorld 设计了一个多才多艺的扩散模型接口，它通过：

State Adapter：注入像素级的显式投影引导。
Appearance References：利用 LoRA 注入历史参考帧以维持纹理细节。

同一个模型，换一套输入参数，既可以扮演“后台演化引擎（G-evo）”，也可以扮演“前台渲染器（G-render）”。

模型架构图 图 1: LiveWorld 框架流程图。展示了从物体检测、Monitor 注册、演化模拟到最终投影渲染的全过程。

实验战绩：LiveBench 上的降维打击

为了验证这种能力的真实性，作者推出了 LiveBench。它专门设计了“同一位置回归”和“不同视角回归”任务。

核心量化指标

在回归观测时，LiveWorld 的优势是统治级的： | 模型 | PSNR (背景) | CD (实体几何误差) | VQA-Acc (事件一致性) | | :--- | :--- | :--- | :--- | | Matrix-Game 2.0 | 16.32 | 6.631 | 7.7% | | Spatia (显式记忆基线) | 20.13 | 4.031 | 19.2% | | LiveWorld (Ours) | 20.07 | 0.068 | 59.1% |

数据分析：虽然 Spatia 也有 3D 空间记忆，但它只能记住“死”的背景，在处理离开视线的动态物体时，误差（CD 指标）比 LiveWorld 高出两个数量级。

实验结果可视化 图 2: 延迟出现事件的可视化展示。注意看即使在背景中， Monitor 如何完美同步了柯基犬离开视野后的持续动作。

深度洞察与总结

LiveWorld 的成功在于它精准捕捉到了当前视频生成模型的一个“逻辑漏洞”：将 2D 生成的连贯性误认为是 4D 物理的连贯性。

局限性与挑战

计算成本：虽然 Monitor 数量有限（M=3），但在多物体、大场景下的扩展性仍有提升空间。
交互反馈：目前主要是观测者看世界演化，未来如果能加入观测者对视外实体的反向干扰（如掷出一颗球击中盲区物体），将更接近真正的“世界模型”。

未来展望

LiveWorld 开启了一个新的方向：显式状态维护的视频生成。这种将 SLAM、物体跟踪与生成式 Diffusion 结合的路线，极大增强了生成环境的可预测性和物理合理性，对于自动驾驶仿真及沉浸式开放世界游戏具有深远的落地价值。

Find Similar Papers

Try Our Examples

查找最近其他试图解决生成式视频模型中长视距一致性（Long-horizon Consistency）或非视距动态（Out-of-sight Dynamics）问题的 SOTA 论文。
哪篇论文最早在生成式世界模型中提出了 3D 空间显式记忆（Explicit Spatial Memory）的概念，本文在哪些维度上对其进行了扩展？
目前有哪些研究尝试将 4D 时空状态表征（如 4D Gaussian Splatting 或 4D Point Clouds）与扩散模型结合，应用于自动驾驶或交互式游戏环境建模？

Contents

[arXiv 2603] LiveWorld：打破“视外冻结”，构建具有持续演化能力的 4D 视频世界模型

1. TL;DR

2. 背景定位：世界模型的“静止咒语”

3. 核心动机：为什么要将演化与渲染解耦？

4. 方法论深度解析：Monitor 机制与统一骨干

4.1. 1. 虚拟监视器 (Monitors)

4.2. 2. 统一的状态条件视频骨干 (Unified Backbone)

5. 实验战绩：LiveBench 上的降维打击

5.1. 核心量化指标

6. 深度洞察与总结

6.1. 局限性与挑战

6.2. 未来展望