VectorWorld: Efficient Streaming World Model via Diffusion Flow on Vector Graphs

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

VectorWorld: Efficient Streaming World Model via Diffusion Flow on Vector Graphs

[ICLR 2025] VectorWorld：突破公里级闭环仿真，一步生成 6ms 实时矢量世界模型

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 VectorWorld，一种专为自动驾驶闭环仿真设计的流式矢量图世界模型。该方法通过 MeanFlow 一步生成技术，实现了每帧 6ms 的极低延迟，支持公里级的轨迹外推（Outpainting）与实时交互仿真。

TL;DR

在自动驾驶仿真领域，如何兼顾“生成质量”与“闭环效率”一直是圣杯问题。VectorWorld 提出了一种基于矢量图（Vector Graph）的流式世界模型，通过 MeanFlow 一步生成技术将瓦片生成延迟压低至 6ms，并利用 运动感知 VAE 解决了 Policy 初始化的冷启动问题。它不仅是一项生成技术的进步，更是闭环仿真从“离线日志回放”向“无限长程交互”演进的关键拼图。

1. 痛点：为什么 SOTA 生成模型在闭环中会“翻车”？

尽管现有的 Diffusion 模型能生成精美的静态场景，但一旦投入闭环仿真（Closed-loop），就会暴露三个致命缺陷：

历史缺失（History-free Initialization）：大多数生成器只给出一个 $t=0$ 的快照，但下游的驾驶算法（Policy）通常需要前 2 秒的历史轨迹。强制置零会导致模型在起始时刻出现不自然的急刹或猛冲（Jerk Spike）。
采样时耗（Sampling Latency）：标准的扩散模型需要几十步迭代，这在实时流式外推（Streaming Outpainting）中完全无法接受。
动力学漂移（Compound Drift）：细微的动力学不合理（如车轮滑移、轨迹曲率不连续）在短时间内不明显，但在公里级的长程仿真中会迅速累积，导致整个场景崩溃。

2. 核心架构：Motion-aware VAE 与 Relational DiT

VectorWorld 的核心思路是将场景表达为异构矢量图。

交互状态接口 (Interaction-State Interface)

为了填补历史信息的空白，作者设计了一个带有**运动感知门控机制（Motion-aware Gating）**的 VAE。对于静止车辆，模型抑制噪声；对于运动车辆，则编码一段紧凑的运动代码（Motion Code）。这保证了 Policy 在仿真开始的第一帧就能获得“热启动”。

模型架构图

边缘门控关系 DiT (Edge-Gated Relational DiT)

在生成器后端，作者采用了关系感知的 Transformer。通过在 Attention 机制中加入边缘偏置（Logit Bias）和值门控（Value Gating），强制模型关注车道连通性（L2L）和车道-代理关系（L2A），从而在生成过程中保持严密的拓扑逻辑。

边缘门控 DiT 细节

3. 创新算法：JVP 增强的 MeanFlow 训练

为了实现真正的“秒开”仿真，VectorWorld 抛弃了多步 ODE 求解器。

作者使用了 MeanFlow（均值流） 策略，并引入了 JVP（Jacobian-vector product）大步长监督。传统的 Flow Matching 在步长较大时误差巨大，但通过 JVP 对预测的平均速度进行一阶修正，模型能够直接学习从噪声到矢量潜空间的一步映射。

效果：单次推理速度提升了一个数量级，仅需 6ms 即可生成 64m x 64m 的局部瓦片。

4. NPC 进化：ΔSim 动力学约束

仿真的长期稳定性取决于 NPC（非驾驶代理）的表现。ΔSim 通过以下两点确保物理真实性：

混合动作空间：离散 Token 定向 + 连续残差微调，兼顾多样性与精度。
DKAL 损失函数：在训练阶段将动力学代价（如过大的横向加速度、曲率不连续）直接反向传播给模型，从根源上减少物理违规。

5. 实验结果：公路级长程仿真的稳定性

在 nuPlan 和 Waymo 上的测试证明，VectorWorld 在地图结构保真度上显著优于 SLEDGE 等前作。

实验结果对比

闭环价值：使用 VectorWorld 进行 retrain 后的 PPO 算法，在极具挑战性的压力场景下成功率从 25% 翻倍至 56%。这说明 VectorWorld 生成的场景不仅真实，而且具有极高的“反事实测试”价值。

6. 总结与展望

VectorWorld 展示了如何通过矢量化表征 + 一步生成动力学 + 物理对齐策略构建新一代驾驶仿真器。它的局限性在于目前主要关注中心线表示，尚未涵盖路缘、施工区等复杂细节。

Senior Editor's Insight: VectorWorld 的真正贡献在于它对“交互一致性”的深刻理解。很多工作只在卷 FID 分数，而它在卷“Policy 能不能在这个世界里稳定活下来”。这种面向部署的设计哲学，正是生成式世界模型从学术玩具走向工程利器的必经之路。

Find Similar Papers

Try Our Examples

查找最近利用流匹配（Flow Matching）或一致性模型（Consistency Models）来加速自动驾驶场景生成的 SOTA 论文。
哪篇论文最早提出了在矢量化地图生成中引入边缘门控关系注意力（Edge-Gated Relational Attention），本文在此基础上做了哪些改进？
探索如何将 VectorWorld 的流式外推（Streaming Outpainting）机制扩展到包含传感器原始数据（如 LiDAR 点云或环视图像）的多模态仿真任务中。

Contents

[ICLR 2025] VectorWorld：突破公里级闭环仿真，一步生成 6ms 实时矢量世界模型

1. TL;DR

2. 1. 痛点：为什么 SOTA 生成模型在闭环中会“翻车”？

3. 2. 核心架构：Motion-aware VAE 与 Relational DiT

3.1. 交互状态接口 (Interaction-State Interface)

3.2. 边缘门控关系 DiT (Edge-Gated Relational DiT)

4. 3. 创新算法：JVP 增强的 MeanFlow 训练

5. 4. NPC 进化：ΔSim 动力学约束

6. 5. 实验结果：公路级长程仿真的稳定性

7. 6. 总结与展望