本文提出了 PhyGenesis,一种具备物理一致性的自动驾驶世界模型。该模型结合了物理轨迹生成器(Physical Condition Generator)与增强型多视图视频生成器(PE-MVGen),通过在包含真实数据与 CARLA 模拟的异构物理丰富数据集上协同训练,显著提升了在碰撞、越野等极端轨迹下的视频生成保真度与物理真实性。
TL;DR
针对自动驾驶仿真中常见的“物理违约”现象(如轨迹碰撞导致的视频扭曲),PhyGenesis 提出了一套完整的物理感知生成框架。它不再盲目跟随输入的错误轨迹,而是先通过物理条件生成器进行轨迹纠偏,再由物理增强视频生成器渲染出符合现实物理规律的多视图视频。在包含碰撞、越野等极端场景的混合数据集训练下,该模型在真实感和物理一致性上均达到了 SOTA 性能。
1. 痛点:为什么当前的世界模型“不懂”物理?
目前大多数驾驶世界模型(如 MagicDrive, DiST-4D)在处理标准驾驶数据时表现优异。然而,一旦面临来自规划器(Planner)或用户交互产生的非法轨迹(例如两条轨迹重合,或者车速过快冲出道路),模型就会陷入困境。
原因有二:
- 缺乏物理纠偏能力:模型将其视为纯粹的翻译任务,被迫在重叠的坐标上渲染两个物体,导致严重的几何畸变或“物体熔化”。
- 长尾分布缺失:真实数据中几乎全是安全轨迹,模型从未见过真实的碰撞或翻车动态,因此无法渲染这类复杂的交互过程。
2. PhyGenesis 核心方法论:从修正轨迹到物理渲染
PhyGenesis 的设计哲学是:先修正逻辑,再渲染视觉。
2.1 物理条件生成器 (Physical Condition Generator)
该模块负责将输入的初始 2D 轨迹 转化为物理上合理的 6-DoF 状态轨迹。
- 空间与代理交互:通过 Spatial Cross-Attn 结合视觉特征,通过 Agent Self-Attn 让车辆感知彼此的存在,识别潜在的穿透风险。
- 时间敏感输出头 (Time-Wise Output Head):为了捕捉碰撞瞬间那种“速度突降至零”的高频动力学跳变,作者设计了结合 TCN 的逐时间步输出模块,避免了普通 MLP 带来的轨迹过度平滑现象。
图 1:PhyGenesis 整体流水线,左侧为物理条件生成器,右侧为基于 DiT 的视频生成器。
2.2 物理丰富异构数据集 (Heterogeneous Dataset)
为了补充真实数据的“长尾”缺失,团队利用 CARLA 模拟器生成了约 31 小时的驾驶数据,涵盖了:
- CARLA Ego:主车导致的碰撞和偏离。
- CARLA Adv:由周边冒进代理引发的冲突。 这些数据提供了稠密的物理交互信号,让模型学会“物体不能穿透”和“碰撞后如何反弹”。
3. 实验结果:无惧物理违规的视效表现
在针对物理一致性的测试(PHY 分数)中,PhyGenesis 展现了显著优势。特别是在 CARLA ADV 场景下,传统方法(如 DiST-4D)的 PHY 分数仅为 0.56 左右,而 PhyGenesis 达到了 0.87。
图 2:定性对比显示,PhyGenesis 在处理由于规划错误导致的碰撞轨迹时,能生成清晰的车辆形变与停止效果,而非产生混乱的伪影。
关键量化数据:
- 视觉质量 (FID/FVD):在 nuScenes 上,FVD 从 baseline 的 45 左右降低至 40.41,证明了异构训练并未损害原有画质,反而增强了时序稳定性。
- 轨迹纠偏能力:在使用物理纠偏器后,车辆轨迹的 6-DoF L2 误差在极端场景下下降了 50% 以上(见表 3)。
4. 深度洞察与总结
PhyGenesis 的成功关键在于对物理一致性的显式建模。过去的世界模型研究者往往希望通过扩大数据集规模让模型“自发”学到物理,但本文证明,引入专门的物理轨迹修正层和针对性的合成碰撞数据,是解决生成模型在边缘案例(Edge Cases)表现不佳的高效路径。
局限性:尽管模型能够纠正轨迹,但其生成的物理效果仍受限于 CARLA 模拟器的物理引擎精度。未来若能引入更精细的变形体物理模型,生成效果将更加震撼。
总结:PhyGenesis 为自动驾驶闭环仿真提供了一个极其坚实的底层模型,它让“在虚拟世界中进行安全测试”变得更加真实且可信。
