本文提出了 VectorWorld,一种专为自动驾驶闭环仿真设计的流式矢量图世界模型。该方法通过 MeanFlow 一步生成技术,实现了每帧 6ms 的极低延迟,支持公里级的轨迹外推(Outpainting)与实时交互仿真。
TL;DR
在自动驾驶仿真领域,如何兼顾“生成质量”与“闭环效率”一直是圣杯问题。VectorWorld 提出了一种基于矢量图(Vector Graph)的流式世界模型,通过 MeanFlow 一步生成技术将瓦片生成延迟压低至 6ms,并利用 运动感知 VAE 解决了 Policy 初始化的冷启动问题。它不仅是一项生成技术的进步,更是闭环仿真从“离线日志回放”向“无限长程交互”演进的关键拼图。
1. 痛点:为什么 SOTA 生成模型在闭环中会“翻车”?
尽管现有的 Diffusion 模型能生成精美的静态场景,但一旦投入闭环仿真(Closed-loop),就会暴露三个致命缺陷:
- 历史缺失(History-free Initialization):大多数生成器只给出一个 $t=0$ 的快照,但下游的驾驶算法(Policy)通常需要前 2 秒的历史轨迹。强制置零会导致模型在起始时刻出现不自然的急刹或猛冲(Jerk Spike)。
- 采样时耗(Sampling Latency):标准的扩散模型需要几十步迭代,这在实时流式外推(Streaming Outpainting)中完全无法接受。
- 动力学漂移(Compound Drift):细微的动力学不合理(如车轮滑移、轨迹曲率不连续)在短时间内不明显,但在公里级的长程仿真中会迅速累积,导致整个场景崩溃。
2. 核心架构:Motion-aware VAE 与 Relational DiT
VectorWorld 的核心思路是将场景表达为异构矢量图。
交互状态接口 (Interaction-State Interface)
为了填补历史信息的空白,作者设计了一个带有**运动感知门控机制(Motion-aware Gating)**的 VAE。对于静止车辆,模型抑制噪声;对于运动车辆,则编码一段紧凑的运动代码(Motion Code)。这保证了 Policy 在仿真开始的第一帧就能获得“热启动”。

边缘门控关系 DiT (Edge-Gated Relational DiT)
在生成器后端,作者采用了关系感知的 Transformer。通过在 Attention 机制中加入边缘偏置(Logit Bias)和值门控(Value Gating),强制模型关注车道连通性(L2L)和车道-代理关系(L2A),从而在生成过程中保持严密的拓扑逻辑。

3. 创新算法:JVP 增强的 MeanFlow 训练
为了实现真正的“秒开”仿真,VectorWorld 抛弃了多步 ODE 求解器。
作者使用了 MeanFlow(均值流) 策略,并引入了 JVP(Jacobian-vector product)大步长监督。传统的 Flow Matching 在步长较大时误差巨大,但通过 JVP 对预测的平均速度进行一阶修正,模型能够直接学习从噪声到矢量潜空间的一步映射。
- 效果:单次推理速度提升了一个数量级,仅需 6ms 即可生成 64m x 64m 的局部瓦片。
4. NPC 进化:ΔSim 动力学约束
仿真的长期稳定性取决于 NPC(非驾驶代理)的表现。ΔSim 通过以下两点确保物理真实性:
- 混合动作空间:离散 Token 定向 + 连续残差微调,兼顾多样性与精度。
- DKAL 损失函数:在训练阶段将动力学代价(如过大的横向加速度、曲率不连续)直接反向传播给模型,从根源上减少物理违规。
5. 实验结果:公路级长程仿真的稳定性
在 nuPlan 和 Waymo 上的测试证明,VectorWorld 在地图结构保真度上显著优于 SLEDGE 等前作。

- 闭环价值:使用 VectorWorld 进行 retrain 后的 PPO 算法,在极具挑战性的压力场景下成功率从 25% 翻倍至 56%。这说明 VectorWorld 生成的场景不仅真实,而且具有极高的“反事实测试”价值。
6. 总结与展望
VectorWorld 展示了如何通过矢量化表征 + 一步生成动力学 + 物理对齐策略构建新一代驾驶仿真器。它的局限性在于目前主要关注中心线表示,尚未涵盖路缘、施工区等复杂细节。
Senior Editor's Insight: VectorWorld 的真正贡献在于它对“交互一致性”的深刻理解。很多工作只在卷 FID 分数,而它在卷“Policy 能不能在这个世界里稳定活下来”。这种面向部署的设计哲学,正是生成式世界模型从学术玩具走向工程利器的必经之路。
