本文提出了 PSIVG,一种将物理模拟器集成到视频生成循环中的推理期框架。该方法通过从预训练模型生成的模板视频中重建 4D 场景并进行物理仿真,引导扩散模型生成符合重力、惯性和碰撞等物理法则的视频,实现了 SOTA 级的物理一致性表现。
TL;DR
尽管当前的视频生成模型(Sora, HunyuanVideo 等)在视觉上已臻幻境,但在物理真实性上经常“翻车”:球不会滚、碗会漂浮、物体碰撞如同幻影。本文提出的 PSIVG (Physical Simulator In-the-loop Video Generation) 首次将 3D 物理模拟器直接嵌入生成流程,不需额外训练,仅通过推理时的物理引导和纹理优化,就能生成符合重力、碰撞和运动学规律的完美视频。
1. 痛点:为什么 AI 视频总是“不讲物理”?
目前的扩散模型(Diffusion Models)本质上是在像素空间进行条件概率建模。它们擅长模仿训练集中的视觉模式,但并不理解物理世界的底层逻辑。
- 物体恒常性缺失:物体在旋转或遮挡后形状、纹理发生突变。
- 力学违背:惯性消失、碰撞反馈缺失、重力加速度不正确。
- 缺乏三维意识:2D 扩散模型难以维持复杂 3D 旋转时的空间特征。
作者敏锐地发现:与其指望模型通过大数据“悟出”物理,不如直接引入**物理模拟器(Physical Simulator)**作为显式约束。
2. PSIVG 核心架构:模拟器如何进入“闭环”?
PSIVG 的流程可以总结为:生成模板 -> 感知重建 -> 物理仿真 -> 引导生成。
图 1:PSIVG 框架概览,展示了从文本到物理指导视频生成的全过程
2.1 感知流水线 (Perception Pipeline)
为了驱动模拟器,首先要从扩散模型生成的初始“模板视频”中挖掘物理参数:
- 3D 重建:利用 InstantMesh 提取前景物体的 3D 几何,利用 ViPE 进行 4D 场景重建和相机位姿估计。
- 初始状态推断:通过 SuperGlue 特征匹配计算物体的初始线速度和角速度。
- 属性估计:调用 GPT-4o 等视觉语言模型,从画面推测物体的材质属性(如密度、杨氏模量)。
2.2 物理仿真引导
获得参数后,在基于 MPM (Material Point Method) 的仿真引擎(如 Taichi)中进行运算,得到绝对符合物理规律的微粒轨迹。这些轨迹被转化为**光流(Optical Flow)**和分割掩码,作为强有力的控制信号反馈给视频生成模型。
3. TTCO:消除纹理闪烁的黑科技
即便有了物理轨迹,模型在大幅度旋转物体时仍会出现纹理崩坏。为此,作者提出了 TTCO (Test-Time Texture Consistency Optimization)。
图 2:TTCO 优化流程,通过调节 Token 嵌入确保像素级别的纹理对齐
核心直觉:如果模拟器告诉我们像素 A 在下一帧应该移动到位置 B,我们就通过优化潜在空间的 embedding,强制模型生成的像素 B 与第一帧的像素 A 保持一致。
- 局部化优化:仅针对前景物体的 Text Embedding 和 DiT 特征进行微调,避免破坏完美的背景。
- 训练无关:这是一种 Inference-time 策略,意味着它可以直接适配各种现成的开源模型。
4. 实验战绩:SOTA 级的视觉表现
在定量对比中,PSIVG 在运动控制精度(SAM mIoU)和时空一致性上全面超越了包括 CogVideoX、HunyuanVideo 以及针对物理优化的 PISA 变体。
图 3:物理碰撞实验。PSIVG(右)完美还原了保龄球碰撞后的动力学反馈,而基线模型(左)物体运动杂乱无章。
| 方法 | 运动控制 (mIoU) ↑ | 像素一致性 (MSE) ↓ | 用户偏好率 ↑ | | :--- | :--- | :--- | :--- | | CogVideoX (Base) | 0.47 | 0.032 | 7.2% | | HunyuanVideo | 0.46 | 0.017 | 4.5% | | Ours (PSIVG) | 0.84 | 0.007 | 82.3% |
5. 总结与启示
PSIVG 并非试图去“教”神经网络学习物理公式,而是通过系统集成的方式,让神经网络负责视觉表现,让成熟的物理引擎负责逻辑。
局限性:
- 目前高度依赖 MPM 模拟器,涉及复杂关节(如人体)或极小物体时效果受限。
- 推理速度受限于模拟和测试时优化的计算开销。
未来展望: 随着物理模拟器向端到端可微方向发展,未来我们有望看到物理层与扩散层更深度的融合,最终实现真正具备“世界模型”属性的通用视频生成。
