DynFlowDrive: Flow-Based Dynamic World Modeling for Autonomous Driving

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

DynFlowDrive: Flow-Based Dynamic World Modeling for Autonomous Driving

[CVPR 2025/ICLR 2025] DynFlowDrive：从“静态生成”到“连续流”，重新定义自动驾驶世界模型

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 DynFlowDrive，一种基于 Rectified Flow（修正流）的自动驾驶潜空间世界模型。该方法通过显式建模环境状态随交互动作的连续演变过程，在 nuScenes 和 NavSim 榜单上均取得了 SOTA 性能，其中在 NavSim 上的 PDMS 得分达到了 88.7%。

TL;DR

传统的自动驾驶世界模型往往停留在“根据当前画面预测一张未来图”的思维定式中。本文提出的 DynFlowDrive 认为，未来的演化不应是一个静态的目标，而应该是一个由轨迹驱动的连续动力学过程。通过引入 Rectified Flow (修正流) 技术，DynFlowDrive 成功在潜空间内构建了一个受控的速度场，让模型学会“看”场景是如何随驾驶动作丝滑演进的。这一改动让规划误差降低了 20% 以上，且在推理时完全不增加算力负担。

1. 痛点：一步到位还是渐进演化？

在端到端（End-to-End）自动驾驶中，世界模型（World Model）被寄予厚望，希望它能像老司机一样预测“如果我这么开，环境会发生什么”。

然而，现有的 Latent World Models 普遍采用 One-step Regression（如上图 2a 所示）。这种方法直接将当前 latent mapping 到下一时刻。

忽略了过程：它只关注终点，不关注从 A 到 B 的物理演变轨迹。
难以评估安全性：比如面对行人，缓慢刹车和快撞上时死刹车，最终位置可能一样，但过程及其蕴含的风险完全不同。

2. 核心架构：Rectified Flow 进入潜空间

DynFlowDrive 不再只是“猜”下一帧的长相，而是学习一个速度场 (Velocity Field)。

2.1 基于流的动力学建模

通过 Rectified Flow 形式化，模型学习如何将当前的潜状态 $z_t$ 沿着由轨迹 $T$ 定义的路径转化为 $z_{t+1}$。

速度场预测：模型预测 $v_ heta = \mathcal{F}_ heta(x_s, s, h_t)$，其中 $s$ 是流的时间步（不同于真实的物理时间）。
ODE 积分：在预测未来时，通过 Euler 积分逐步推动 latent state 的演进。这使得模型能捕捉场景演化的“速率”和“趋势”。

模型架构图 图：DynFlowDrive 整体流程，包含轨迹规划分支（黄色部分）和基于流的世界模型分支（蓝色部分）。

2.2 稳定性感知（Stability-aware）选择

基于学习到的速度场，作者提出了一个极其直观的物理指标：方向一致性。如果一条候选轨迹导致预测的 latent 演进过程中速度场方向剧烈抖动，那这条轨迹及其导致的场景演化在物理上大概率是不连贯、不安全的。通过计算连续步长间速度因子的余弦相似度（角偏差），模型能自动选出最“稳”的那条路。

3. 实验战绩：全线飘红

DynFlowDrive 在 nuScenes（开环）和 NavSim（闭环）两大基准测试中表现极为强势。

规划性能：在 nuScenes 上，相比基线 SSR，平均 L2 位移误差从 0.39m 下降到 0.31m。
零开销推理：这是一大亮点。虽然训练时引入了复杂的流模型，但在 inference 阶段世界模型是不参与计算的。模型通过训练时的“稳定性引导”，已经让 Planning Head 学会了更好的特征表示。

实验结果对比 表：nuScenes 上的对比实验，可以看到 DynFlowDrive 在 L2 误差和碰撞率上均优于之前的世界模型方法。

4. 深度洞察：为什么这种方法更有效？

物理直觉的显式捕捉：传统的回归模型是在黑盒里学映射，而 Flow-based 模型被迫去理解“变化率”。这相当于给模型增加了一层关于运动学的 Inductive Bias。
解耦表示与动力学：作者使用了预训练的 foundation encoder（如 VAE）来提取特征，而不是让模型从头学图像编码。这保证了 latent space 的稳定性，让模型能专心于“演化规律”的学习。
多步积分的威力：消融实验（见表 5a）显示，随着积分步数从 1 增加到 5，误差持续下降。这证明了将复杂的场景演化拆解为多个微小步长，确实能显著缓解长程预测的漂移问题。

5. 总结与展望

DynFlowDrive 为端到端驾驶提供了一个非常优雅的范式：用连续流建模未来，用物理稳定性指导规划。

局限性：虽然精度提升明显，但目前主要还是依赖潜空间特征。未来如果能结合 Vision-Language Models (VLMs) 引入更高层的语义推理（例如：判断行人是否有过马路意图），其鲁棒性可能更上一层楼。

Takeaway: 自动驾驶的未来不在于画出最美的“未来图像”，而在于理解那隐藏在潜空间中、受物理定式约束的动力学“流”。

Find Similar Papers

Try Our Examples

查找最近其他将 Rectified Flow 或 Flow Matching 应用于机器人运动规划或自动驾驶轨迹生成的论文。
哪篇论文最早在自动驾驶领域提出了 Latent World Model (潜空间世界模型) 的架构，其主要演进路径是什么？
有哪些研究探讨了在自动驾驶中通过衡量物理稳定性（如方向一致性或加速度平滑度）来训练得分网络（Scoring Head）？

Contents

[CVPR 2025/ICLR 2025] DynFlowDrive：从“静态生成”到“连续流”，重新定义自动驾驶世界模型

1. TL;DR

2. 1. 痛点：一步到位还是渐进演化？

3. 2. 核心架构：Rectified Flow 进入潜空间

3.1. 2.1 基于流的动力学建模

3.2. 2.2 稳定性感知（Stability-aware）选择

4. 3. 实验战绩：全线飘红

5. 4. 深度洞察：为什么这种方法更有效？

6. 5. 总结与展望