Toward Physically Consistent Driving Video World Models under Challenging Trajectories

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Toward Physically Consistent Driving Video World Models under Challenging Trajectories

[CVPR 2025(?)] PhyGenesis：突破极端轨迹限制，构建具备物理直觉的驾驶世界模型

总结

问题

方法

结果

要点

摘要

本文提出了 PhyGenesis，一种具备物理一致性的自动驾驶世界模型。该模型结合了物理轨迹生成器（Physical Condition Generator）与增强型多视图视频生成器（PE-MVGen），通过在包含真实数据与 CARLA 模拟的异构物理丰富数据集上协同训练，显著提升了在碰撞、越野等极端轨迹下的视频生成保真度与物理真实性。

TL;DR

针对自动驾驶仿真中常见的“物理违约”现象（如轨迹碰撞导致的视频扭曲），PhyGenesis 提出了一套完整的物理感知生成框架。它不再盲目跟随输入的错误轨迹，而是先通过物理条件生成器进行轨迹纠偏，再由物理增强视频生成器渲染出符合现实物理规律的多视图视频。在包含碰撞、越野等极端场景的混合数据集训练下，该模型在真实感和物理一致性上均达到了 SOTA 性能。

1. 痛点：为什么当前的世界模型“不懂”物理？

目前大多数驾驶世界模型（如 MagicDrive, DiST-4D）在处理标准驾驶数据时表现优异。然而，一旦面临来自规划器（Planner）或用户交互产生的非法轨迹（例如两条轨迹重合，或者车速过快冲出道路），模型就会陷入困境。

原因有二：

缺乏物理纠偏能力：模型将其视为纯粹的翻译任务，被迫在重叠的坐标上渲染两个物体，导致严重的几何畸变或“物体熔化”。
长尾分布缺失：真实数据中几乎全是安全轨迹，模型从未见过真实的碰撞或翻车动态，因此无法渲染这类复杂的交互过程。

2. PhyGenesis 核心方法论：从修正轨迹到物理渲染

PhyGenesis 的设计哲学是：先修正逻辑，再渲染视觉。

2.1 物理条件生成器 (Physical Condition Generator)

该模块负责将输入的初始 2D 轨迹 $T_{or i g}$ 转化为物理上合理的 6-DoF 状态轨迹。

空间与代理交互：通过 Spatial Cross-Attn 结合视觉特征，通过 Agent Self-Attn 让车辆感知彼此的存在，识别潜在的穿透风险。
时间敏感输出头 (Time-Wise Output Head)：为了捕捉碰撞瞬间那种“速度突降至零”的高频动力学跳变，作者设计了结合 TCN 的逐时间步输出模块，避免了普通 MLP 带来的轨迹过度平滑现象。

模型架构图 图 1：PhyGenesis 整体流水线，左侧为物理条件生成器，右侧为基于 DiT 的视频生成器。

2.2 物理丰富异构数据集 (Heterogeneous Dataset)

为了补充真实数据的“长尾”缺失，团队利用 CARLA 模拟器生成了约 31 小时的驾驶数据，涵盖了：

CARLA Ego：主车导致的碰撞和偏离。
CARLA Adv：由周边冒进代理引发的冲突。这些数据提供了稠密的物理交互信号，让模型学会“物体不能穿透”和“碰撞后如何反弹”。

3. 实验结果：无惧物理违规的视效表现

在针对物理一致性的测试（PHY 分数）中，PhyGenesis 展现了显著优势。特别是在 CARLA ADV 场景下，传统方法（如 DiST-4D）的 PHY 分数仅为 0.56 左右，而 PhyGenesis 达到了 0.87。

实验结果对比 图 2：定性对比显示，PhyGenesis 在处理由于规划错误导致的碰撞轨迹时，能生成清晰的车辆形变与停止效果，而非产生混乱的伪影。

关键量化数据：

视觉质量 (FID/FVD)：在 nuScenes 上，FVD 从 baseline 的 45 左右降低至 40.41，证明了异构训练并未损害原有画质，反而增强了时序稳定性。
轨迹纠偏能力：在使用物理纠偏器后，车辆轨迹的 6-DoF L2 误差在极端场景下下降了 50% 以上（见表 3）。

4. 深度洞察与总结

PhyGenesis 的成功关键在于对物理一致性的显式建模。过去的世界模型研究者往往希望通过扩大数据集规模让模型“自发”学到物理，但本文证明，引入专门的物理轨迹修正层和针对性的合成碰撞数据，是解决生成模型在边缘案例（Edge Cases）表现不佳的高效路径。

局限性：尽管模型能够纠正轨迹，但其生成的物理效果仍受限于 CARLA 模拟器的物理引擎精度。未来若能引入更精细的变形体物理模型，生成效果将更加震撼。

总结：PhyGenesis 为自动驾驶闭环仿真提供了一个极其坚实的底层模型，它让“在虚拟世界中进行安全测试”变得更加真实且可信。

发现相似论文

试试这些示例

查找最近其他利用模拟器（如 CARLA）生成大规模极端场景数据以增强自动驾驶模型鲁棒性的相关论文。
哪篇论文最早探讨了生成式世界模型在处理反事实轨迹（Counterfactual Trajectories）时的物理坍缩问题，以及其后续改进方案有哪些？
在自动驾驶视频生成中，除了 6-DoF 轨迹修正，还有哪些研究通过引入显式动力学约束（如车辆动力学模型）来确保物理一致性？

[CVPR 2025(?)] PhyGenesis：突破极端轨迹限制，构建具备物理直觉的驾驶世界模型

1. TL;DR

2. 1. 痛点：为什么当前的世界模型“不懂”物理？

3. 2. PhyGenesis 核心方法论：从修正轨迹到物理渲染

3.1. 2.1 物理条件生成器 (Physical Condition Generator)

3.2. 2.2 物理丰富异构数据集 (Heterogeneous Dataset)

4. 3. 实验结果：无惧物理违规的视效表现

4.1. 关键量化数据：

5. 4. 深度洞察与总结