Grounding World Simulation Models in a Real-World Metropolis

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

Grounding World Simulation Models in a Real-World Metropolis

[CVPR 2025] SWM：将世界模型植入真实城市，开启百米级高保真数字孪生生成

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了首个城市级真实世界接地（Grounded）视频世界模型 SWM（Seoul World Model）。该模型以首尔为原型，通过检索增强生成的策略，利用街景图像作为视觉锚点，实现了在长达数百米的真实城市轨迹上生成空间忠实、时间连贯且支持文本驱动场景变化的动态视频。

TL;DR

想象一下，在首尔街头实时生成一场电影级的追逐戏，且所有建筑与地标都与现实完全一致。KAIST 与 NAVER AI 联合推出的 SWM (Seoul World Model) 通过将预训练视频扩散模型与海量街景数据库结合，突破了传统世界模型只能“瞎想”的限制，实现了真实地理位置、相机轨迹与文本描述三位一体的精准生成。

背景定位

目前的世界模型（World Models）大多是“想象力过剩”的：给定一个起始帧，它们会构建逻辑自洽但地理虚构的环境。但在自动驾驶虚拟测试或智慧城市规划中，我们需要的是基于真实物理空间的模拟。SWM 的出现，填补了这一空白，将世界模型从“虚幻引擎”带入了“真实世界数据采集”。

痛点深挖：为什么“接地”这么难？

瞬时内容干扰 (Temporal Misalignment)：你去年拍的街景里停着一辆红车，但模拟器生成的是雨夜，这时参考图里的红车会变成“鬼影”干扰生成。
数据极其稀疏：街景车每隔十几米才拍一张，直接拿这些跳跃的图训练，模型会学会“瞬移”而非平滑移动。
长程漂移 (Drift)：自回归生成每一步都会错一点点，走两百米后，生成的街景早就对不上真实的地图坐标了。

核心方法论：SWM 的三板斧

1. 跨时空配对与语义参考

为了解决瞬时物体干扰，作者提出了 Cross-temporal pairing。在训练时，参考帧和目标帧来自同一地点但在不同时间拍摄。这意味着它们只有建筑布局（Persistent Structure）是重合的。通过这种设计，模型学会了“无视”参考图里的过往行人，只提取建筑底座等永久特征。

2. 模型架构与检索增强

SWM 基于 Cosmos-Predict 模型，通过几何参考（Geometric Referencing）和语义参考（Semantic Referencing）双通道进行调控。

几何参考：通过深度图将参考图 Warp 到目标视角。
语义参考：直接将原始参考图作为外挂 Token 喂给 Transformer，保留外观细节。

模型架构图 图 1：SWM 总体架构。左侧为基于当前位置的街景检索，中间为双通道引用的 DiT 结构。

3. 虚拟前瞻锚点 (Virtual Lookahead Sink)

这是本文最具启发性的设计。传统的 Attention Sink 会永久保留第一帧，但在开出两条街后，第一帧就没用了。SWM 会在生成的每段路径终点（未来位置）检索一张新图作为 Lookahead Sink。模型生成时就像在瞄准一个远处的靶标，保证生成的轨迹始终向真实地理坐标收敛。

Sink 机制对比 图 2：虚拟前瞻锚点（下）与传统固定锚点（上）的对比。通过动态更新未来锚点，实现了无限里程的生成精度。

实验与结果：统治级的性能

研究团队在首尔（训练集）以外的釜山和美国安娜堡进行了测试。结果显示，即便从未见过这些城市，SWM 依然能凭借强大的 RAG 能力准确还原当地建筑风格。

FID 指标：性能提升接近一倍。
相机跟随：在转向和长直道任务中，生成的视角与预设轨迹的对齐度极高。

实验结果对比 表 1：与 SOTA 模型的定量对比。SWM (TF) 在所有几何一致性指标（RotErr, TransErr）上均表现最佳。

深度洞察

SWM 的成功证明了：对于城市级的物理仿真，模型参数里的记忆不如外部数据库的检索可靠。 通过引入虚拟前瞻机制，SWM 给自回归生成戴上了“地理导航”，这彻底解决了视频生成模型在大规模场景下易“跑飞”的顽疾。

局限性

数据依赖：如果某个角落没有街景覆盖，生成的质量会退化到普通世界模型的水平。
动态性延迟：目前模型生成动态车辆时偶尔会出现“突然消失”的现象，这与底层视图插值流水线的质量有关。

未来展望

随着这类接地世界模型的成熟，未来我们或许可以足不出户，通过文字指令“让家门口的街道变成赛博朋克风格”或“模拟一场五十年一遇的特大洪水”，其对于城市韧性测试和高阶自动驾驶训练的价值不可估量。

Find Similar Papers

Try Our Examples

查找最近一年关于检索增强生成（RAG）在视频扩散模型或动态场景模拟中的应用研究。
针对视频生成的 Attention Sink (注意力槽) 机制，有哪些除了本文提到的虚拟前瞻锚点（Virtual Lookahead Sink）之外的改进方案？
调研基于 Diffusion Transformer (DiT) 架构的世界模型在处理超长时序一致性方面的 SOTA 方法及其局限性。

Contents

[CVPR 2025] SWM：将世界模型植入真实城市，开启百米级高保真数字孪生生成

1. TL;DR

2. 背景定位

3. 痛点深挖：为什么“接地”这么难？

4. 核心方法论：SWM 的三板斧

4.1. 1. 跨时空配对与语义参考

4.2. 2. 模型架构与检索增强

4.3. 3. 虚拟前瞻锚点 (Virtual Lookahead Sink)

5. 实验与结果：统治级的性能

6. 深度洞察

6.1. 局限性

7. 未来展望