Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

[Phys-AI] Phantom：突破“降落伞式”物理失效，让视频生成模型读懂牛顿力学

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Phantom，一种由物理注入的视频生成模型，通过在预训练的视频扩散模型（Wan2.2）中引入专门的潜物理动力学分支，实现了视觉内容与物理状态的联合建模，显著提升了生成视频的物理一致性。

TL;DR

传统的视频生成模型往往是“视觉上的巨人，物理上的矮子”——虽然画质惊艳，但球落地不会弹起、液体会凭空产生。UIUC 团队提出的 Phantom 通过引入一个专门参与“物理演算”的并行分支，与视频生成分支深度耦合。该模型在保持 Wan2.2 顶尖画质的同时，在物理常识评估（VideoPhy）中狂揽 50.4% 的性能增益，真正实现了“形神兼备”的动力学模拟。

痛点深挖：为什么 Scaling Law 救不了消失的物理定律？

目前的视频生成模型（如 Sora, Wan2.2, HunyuanVideo）本质上是在概率空间中寻找像素的统计规律。虽然大规模数据训练能让模型学会“模仿”物体的移动，但由于缺乏对质量、阻力、动量守恒等底层逻辑的建模，模型在处理超分布（OOD）场景时经常翻车。

作者认为，单纯的像素预测无法强迫模型内化物理学。目前的痛点在于：

缺乏内在推理：模型只看像素，不看物理状态演化。
外部引导开销大：依赖 LLM 辅助或外部模拟器会导致推理极慢，且难以泛化到复杂现实场景。

核心架构：Phantom 的双分支“视觉-物理”协同

Phantom 的核心方案是联合建模 (Joint Modeling)。它不再只是预测下一帧长什么样，而是同时预测下一帧的“潜物理状态”。

1. 双分支 Flow Matching 架构

Phantom 采用了一种优雅的对称设计：

视频分支：基于预训练的 Wan2.2-TI2V 权重，负责视觉细节。
物理分支：一个全新的潜动力学分支，其输入是经由 V-JEPA2（一种被证明能捕捉直觉物理的视频编码器）提取的物理特征。

2. 信息互换：双向交叉注意力

为了不让物理分支变成“空中楼阁”，作者在两个分支之间插入了 Dual Cross-Attention 层。视觉分支会参考物理状态来修正物体运动轨迹，而物理分支则根据视觉生成的细节来微调物理参数。

模型架构图

3. “递归损耗调度”训练策略

物理损失函数 $L_{z}$ 的梯度往往远大于视觉损失 $L_{v}$ ，直接训练会导致崩溃。作者创新性地采用了循环权重策略：当物理分支梯度过大时，暂时将其权重重置为零，确保训练过程的稳定性。

实验战绩：全方位的物理觉醒

在评估物理真实度的三大战场上，Phantom 展现了统治级的表现：

VideoPhy (物理常识)：PC 分数从 25.2 飙升至 37.9（+50.4%）。
Physics-IQ (物理推理)：单帧预测分数提升 33.9%。
VBench-2：在人类保真度 (+2.7%) 和物理评分 (+6.0%) 上均有显著进步。

实验结果对比

定性分析：拒绝“生硬”的模拟

从视觉对比来看：

弹性碰撞：基线模型生成的球落地后会诡异地静止，而 Phantom 能准确模拟出动量交换后的反弹过程。
复杂流体：在倒咖啡或粘性液体流动的场景中，Phantom 生成的折叠波纹和堆叠感远比基线模型真实，避免了流体“凭空消失”或“穿模”的现象。

定性对比

深度洞察与总结

Phantom 的意义在于它证明了视频生成不需要重走“手工物理引擎”的老路。通过将自监督的物理表征（如 V-JEPA2）作为潜空间引导，生成模型能够自发地从视频分布中提炼出动力学约束。

局限性分析：尽管物理表现大增，但 Phantom 在 VBench 的“多样性 (Diversity)”得分上有所下降。这可能是一个有趣的代价：当物理定律变得严苛时，模型不再被允许生成那些虽然华丽但违背物理的“创意”变体。

未来展望：这种双分支耦合架构极具启发性。未来，物理分支是否能够接受显式的物理参数输入（如具体的质量、摩擦系数）？如果可以，视频生成将真正转变为可交互的、高精度的世界模拟器。

本文主编点评：Phantom 的成功标志着视频生成模型正从“像素拼接师”向“物理模拟员”转型。它的双分支结构为未来构建具备强物理常识的 AI World Model 提供了极佳的范式。

Find Similar Papers

Try Our Examples

查找最近一年内其他试图在 Transformer 视频生成架构中融入显式或隐式物理约束的 SOTA 论文。
分析 V-JEPA2 模型的原始论文，探讨其潜在物理表征是如何通过自监督学习在自然视频中涌现的。
研究如何将类似 Phantom 的物理分支扩展到人形机器人动作控制或复杂多体协同仿真任务中。

Contents

[Phys-AI] Phantom：突破“降落伞式”物理失效，让视频生成模型读懂牛顿力学

1. TL;DR

2. 痛点深挖：为什么 Scaling Law 救不了消失的物理定律？

3. 核心架构：Phantom 的双分支“视觉-物理”协同

3.1. 1. 双分支 Flow Matching 架构

3.2. 2. 信息互换：双向交叉注意力

3.3. 3. “递归损耗调度”训练策略

4. 实验战绩：全方位的物理觉醒

4.1. 定性分析：拒绝“生硬”的模拟

5. 深度洞察与总结