本文提出了 Phys4D,一个通过三阶段训练将预训练视频扩散模型提升为物理一致性 4D 世界模型的框架。该方法结合了伪监督预训练、基于仿真的有监督微调及强化学习,显著增强了生成视频的几何连贯性与运动稳定性。
TL;DR
尽管 OpenAI 的 Sora 或 Google 的 Veo 能够生成极具视觉冲击力的视频,但它们经常在“微观物理”上翻车(如物体凭空变形、流体穿模)。Phys4D 提出了一种创新的三阶段训练范式,通过将视频扩散模型(Video Diffusion)与显式 4D 表征结合,利用物理仿真数据和强化学习,让模型不仅“画得像”,更“懂物理”。
1. 痛点:视觉上的“理所当然” VS 物理上的“一塌糊涂”
当前的视频生成模型本质上是外观匹配(Appearance Matching)的专家,而非物理模拟的专家。
- Prior Work 的局限性:由于训练数据大多是 2D 互联网视频,模型缺乏对物体 3D 几何和真实运动轨迹的感知。
- 研究直觉 (Insight):如果能让模型在生成像素的同时,显式地预测深度 (Depth) 和 运动 (Motion),并通过物理引擎给出的“真理”进行对比,就能纠正那些不符合物理规律的生成行为。
2. Phys4D 的核心架构:三阶段进化论
作者通过三步走战略,逐步将一个 2D 生成器“升维”成 4D 世界模型:
第一阶段:引导 (Bootstrapping)
在海量互联网视频上,利用现成的单目深度和光流估计算法生成“伪标签”。这一步不改动扩散模型参数,只训练新增的轻量化辅助头。目的是让模型先学会将像素内容映射到几何空间。
第二阶段:几何-运动一致性微调 (SFT)
这是最关键的一步。作者利用 Isaac Sim 构建了一个包含 25 万组环境的高精度仿真数据集。
- Warp-based Consistency:引入投影一致性损失,强制要求 时刻的深度图经过运动场投影后,必须与 时刻的深度图对齐。

第三阶段:仿真植根的强化学习 (RLFT)
有些细微的物理违规(如物体碰撞后的反弹轨迹不对)很难用公式定义。Phys4D 将去噪过程看作一个 MDP 决策过程,利用生成的 4D 点云与仿真器给出的真实轨迹对比,计算 4D Chamfer Distance 作为奖励函数,通过 PPO 优化模型。
3. 实验战绩:全方位的物理进化
3.1 Physics-IQ 表现
在专门测试物理直觉的 Physics-IQ 榜单上,Phys4D 让 CogVideoX 等开源模型直接跨越了一个量级,得分从 18.8 飙升至 30.2。这证明了即使是较小的开源模型,在经过物理对齐后也能展现出超越商业闭源模型的物理一致性。

3.2 4D 几何一致性
通过对生成视频进行“回溯重建”,Phys4D 展示了极低的轨迹漂移(Trajectory Drift)。如表格所示,其运动动力学指标(EPE/Fl-all)均显著优于传统的 Off-the-shelf 估计方案。

4. 深度洞察
Phys4D 的成功在于它不试图通过增加参数量来强制模型“背诵”物理,而是通过 显式结构约束 (Explicit Structure Consistency)。其核心贡献有三点:
- 数据红利:系统性地展示了如何利用仿真引擎产生超过 15TB 的万能物理标注。
- RL对齐:首次将 4D Chamfer Distance 作为强化学习的 Reward,解决了视频生成中物理效果“不可导”的问题。
- 4D 评估体系:提出了从 Per-frame Geometry 到 World-level Evolution 的三级评估协议,这比单纯看 FID/FVD 要科学得多。
总结与启示
生成式世界模型(Generative World Models)是通往通用人工智能(AGI)的关键。Phys4D 告诉我们,未来的世界模型不仅仅是更大规模的 Transformer,更应该是对物理规律有显式建模、能够自我验证物理正确性的“仿真生成器”。它为机器人具身智能(Embodied AI)提供了极佳的虚拟训练场生成方案。
局限性:尽管物理一致性大幅提升,但 RL 阶段的计算开销巨大,且对于极度复杂的非线性物理现象(如爆炸、高速流体)仍有建模上限。
