WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[Phys-AI] Phantom:突破“降落伞式”物理失效,让视频生成模型读懂牛顿力学
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 Phantom,一种由物理注入的视频生成模型,通过在预训练的视频扩散模型(Wan2.2)中引入专门的潜物理动力学分支,实现了视觉内容与物理状态的联合建模,显著提升了生成视频的物理一致性。

TL;DR

传统的视频生成模型往往是“视觉上的巨人,物理上的矮子”——虽然画质惊艳,但球落地不会弹起、液体会凭空产生。UIUC 团队提出的 Phantom 通过引入一个专门参与“物理演算”的并行分支,与视频生成分支深度耦合。该模型在保持 Wan2.2 顶尖画质的同时,在物理常识评估(VideoPhy)中狂揽 50.4% 的性能增益,真正实现了“形神兼备”的动力学模拟。

痛点深挖:为什么 Scaling Law 救不了消失的物理定律?

目前的视频生成模型(如 Sora, Wan2.2, HunyuanVideo)本质上是在概率空间中寻找像素的统计规律。虽然大规模数据训练能让模型学会“模仿”物体的移动,但由于缺乏对质量、阻力、动量守恒等底层逻辑的建模,模型在处理超分布(OOD)场景时经常翻车。

作者认为,单纯的像素预测无法强迫模型内化物理学。目前的痛点在于:

  1. 缺乏内在推理:模型只看像素,不看物理状态演化。
  2. 外部引导开销大:依赖 LLM 辅助或外部模拟器会导致推理极慢,且难以泛化到复杂现实场景。

核心架构:Phantom 的双分支“视觉-物理”协同

Phantom 的核心方案是联合建模 (Joint Modeling)。它不再只是预测下一帧长什么样,而是同时预测下一帧的“潜物理状态”。

1. 双分支 Flow Matching 架构

Phantom 采用了一种优雅的对称设计:

  • 视频分支:基于预训练的 Wan2.2-TI2V 权重,负责视觉细节。
  • 物理分支:一个全新的潜动力学分支,其输入是经由 V-JEPA2(一种被证明能捕捉直觉物理的视频编码器)提取的物理特征。

2. 信息互换:双向交叉注意力

为了不让物理分支变成“空中楼阁”,作者在两个分支之间插入了 Dual Cross-Attention 层。视觉分支会参考物理状态来修正物体运动轨迹,而物理分支则根据视觉生成的细节来微调物理参数。

模型架构图

3. “递归损耗调度”训练策略

物理损失函数 的梯度往往远大于视觉损失 ,直接训练会导致崩溃。作者创新性地采用了循环权重策略:当物理分支梯度过大时,暂时将其权重重置为零,确保训练过程的稳定性。

实验战绩:全方位的物理觉醒

在评估物理真实度的三大战场上,Phantom 展现了统治级的表现:

  • VideoPhy (物理常识):PC 分数从 25.2 飙升至 37.9(+50.4%)。
  • Physics-IQ (物理推理):单帧预测分数提升 33.9%
  • VBench-2:在人类保真度 (+2.7%) 和物理评分 (+6.0%) 上均有显著进步。

实验结果对比

定性分析:拒绝“生硬”的模拟

从视觉对比来看:

  • 弹性碰撞:基线模型生成的球落地后会诡异地静止,而 Phantom 能准确模拟出动量交换后的反弹过程。
  • 复杂流体:在倒咖啡或粘性液体流动的场景中,Phantom 生成的折叠波纹和堆叠感远比基线模型真实,避免了流体“凭空消失”或“穿模”的现象。

定性对比

深度洞察与总结

Phantom 的意义在于它证明了视频生成不需要重走“手工物理引擎”的老路。通过将自监督的物理表征(如 V-JEPA2)作为潜空间引导,生成模型能够自发地从视频分布中提炼出动力学约束。

局限性分析: 尽管物理表现大增,但 Phantom 在 VBench 的“多样性 (Diversity)”得分上有所下降。这可能是一个有趣的代价:当物理定律变得严苛时,模型不再被允许生成那些虽然华丽但违背物理的“创意”变体。

未来展望: 这种双分支耦合架构极具启发性。未来,物理分支是否能够接受显式的物理参数输入(如具体的质量、摩擦系数)?如果可以,视频生成将真正转变为可交互的、高精度的世界模拟器。


本文主编点评:Phantom 的成功标志着视频生成模型正从“像素拼接师”向“物理模拟员”转型。它的双分支结构为未来构建具备强物理常识的 AI World Model 提供了极佳的范式。

Find Similar Papers

Try Our Examples

  • 查找最近一年内其他试图在 Transformer 视频生成架构中融入显式或隐式物理约束的 SOTA 论文。
  • 分析 V-JEPA2 模型的原始论文,探讨其潜在物理表征是如何通过自监督学习在自然视频中涌现的。
  • 研究如何将类似 Phantom 的物理分支扩展到人形机器人动作控制或复杂多体协同仿真任务中。
Contents
[Phys-AI] Phantom:突破“降落伞式”物理失效,让视频生成模型读懂牛顿力学
1. TL;DR
2. 痛点深挖:为什么 Scaling Law 救不了消失的物理定律?
3. 核心架构:Phantom 的双分支“视觉-物理”协同
3.1. 1. 双分支 Flow Matching 架构
3.2. 2. 信息互换:双向交叉注意力
3.3. 3. “递归损耗调度”训练策略
4. 实验战绩:全方位的物理觉醒
4.1. 定性分析:拒绝“生硬”的模拟
5. 深度洞察与总结