WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[ICLR 2025] VectorWorld:突破公里级闭环仿真,一步生成 6ms 实时矢量世界模型
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 VectorWorld,一种专为自动驾驶闭环仿真设计的流式矢量图世界模型。该方法通过 MeanFlow 一步生成技术,实现了每帧 6ms 的极低延迟,支持公里级的轨迹外推(Outpainting)与实时交互仿真。

TL;DR

在自动驾驶仿真领域,如何兼顾“生成质量”与“闭环效率”一直是圣杯问题。VectorWorld 提出了一种基于矢量图(Vector Graph)的流式世界模型,通过 MeanFlow 一步生成技术将瓦片生成延迟压低至 6ms,并利用 运动感知 VAE 解决了 Policy 初始化的冷启动问题。它不仅是一项生成技术的进步,更是闭环仿真从“离线日志回放”向“无限长程交互”演进的关键拼图。


1. 痛点:为什么 SOTA 生成模型在闭环中会“翻车”?

尽管现有的 Diffusion 模型能生成精美的静态场景,但一旦投入闭环仿真(Closed-loop),就会暴露三个致命缺陷:

  1. 历史缺失(History-free Initialization):大多数生成器只给出一个 $t=0$ 的快照,但下游的驾驶算法(Policy)通常需要前 2 秒的历史轨迹。强制置零会导致模型在起始时刻出现不自然的急刹或猛冲(Jerk Spike)。
  2. 采样时耗(Sampling Latency):标准的扩散模型需要几十步迭代,这在实时流式外推(Streaming Outpainting)中完全无法接受。
  3. 动力学漂移(Compound Drift):细微的动力学不合理(如车轮滑移、轨迹曲率不连续)在短时间内不明显,但在公里级的长程仿真中会迅速累积,导致整个场景崩溃。

2. 核心架构:Motion-aware VAE 与 Relational DiT

VectorWorld 的核心思路是将场景表达为异构矢量图

交互状态接口 (Interaction-State Interface)

为了填补历史信息的空白,作者设计了一个带有**运动感知门控机制(Motion-aware Gating)**的 VAE。对于静止车辆,模型抑制噪声;对于运动车辆,则编码一段紧凑的运动代码(Motion Code)。这保证了 Policy 在仿真开始的第一帧就能获得“热启动”。

模型架构图

边缘门控关系 DiT (Edge-Gated Relational DiT)

在生成器后端,作者采用了关系感知的 Transformer。通过在 Attention 机制中加入边缘偏置(Logit Bias)和值门控(Value Gating),强制模型关注车道连通性(L2L)和车道-代理关系(L2A),从而在生成过程中保持严密的拓扑逻辑。

边缘门控 DiT 细节


3. 创新算法:JVP 增强的 MeanFlow 训练

为了实现真正的“秒开”仿真,VectorWorld 抛弃了多步 ODE 求解器。

作者使用了 MeanFlow(均值流) 策略,并引入了 JVP(Jacobian-vector product)大步长监督。传统的 Flow Matching 在步长较大时误差巨大,但通过 JVP 对预测的平均速度进行一阶修正,模型能够直接学习从噪声到矢量潜空间的一步映射。

  • 效果:单次推理速度提升了一个数量级,仅需 6ms 即可生成 64m x 64m 的局部瓦片。

4. NPC 进化:ΔSim 动力学约束

仿真的长期稳定性取决于 NPC(非驾驶代理)的表现。ΔSim 通过以下两点确保物理真实性:

  • 混合动作空间:离散 Token 定向 + 连续残差微调,兼顾多样性与精度。
  • DKAL 损失函数:在训练阶段将动力学代价(如过大的横向加速度、曲率不连续)直接反向传播给模型,从根源上减少物理违规。

5. 实验结果:公路级长程仿真的稳定性

在 nuPlan 和 Waymo 上的测试证明,VectorWorld 在地图结构保真度上显著优于 SLEDGE 等前作。

实验结果对比

  • 闭环价值:使用 VectorWorld 进行 retrain 后的 PPO 算法,在极具挑战性的压力场景下成功率从 25% 翻倍至 56%。这说明 VectorWorld 生成的场景不仅真实,而且具有极高的“反事实测试”价值。

6. 总结与展望

VectorWorld 展示了如何通过矢量化表征 + 一步生成动力学 + 物理对齐策略构建新一代驾驶仿真器。它的局限性在于目前主要关注中心线表示,尚未涵盖路缘、施工区等复杂细节。

Senior Editor's Insight: VectorWorld 的真正贡献在于它对“交互一致性”的深刻理解。很多工作只在卷 FID 分数,而它在卷“Policy 能不能在这个世界里稳定活下来”。这种面向部署的设计哲学,正是生成式世界模型从学术玩具走向工程利器的必经之路。

Find Similar Papers

Try Our Examples

  • 查找最近利用流匹配(Flow Matching)或一致性模型(Consistency Models)来加速自动驾驶场景生成的 SOTA 论文。
  • 哪篇论文最早提出了在矢量化地图生成中引入边缘门控关系注意力(Edge-Gated Relational Attention),本文在此基础上做了哪些改进?
  • 探索如何将 VectorWorld 的流式外推(Streaming Outpainting)机制扩展到包含传感器原始数据(如 LiDAR 点云或环视图像)的多模态仿真任务中。
Contents
[ICLR 2025] VectorWorld:突破公里级闭环仿真,一步生成 6ms 实时矢量世界模型
1. TL;DR
2. 1. 痛点:为什么 SOTA 生成模型在闭环中会“翻车”?
3. 2. 核心架构:Motion-aware VAE 与 Relational DiT
3.1. 交互状态接口 (Interaction-State Interface)
3.2. 边缘门控关系 DiT (Edge-Gated Relational DiT)
4. 3. 创新算法:JVP 增强的 MeanFlow 训练
5. 4. NPC 进化:ΔSim 动力学约束
6. 5. 实验结果:公路级长程仿真的稳定性
7. 6. 总结与展望