WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[CVPR 2025] PSIVG:物理模拟器入场,彻底解决 AI 视频的“牛顿棺材板”问题
总结
问题
方法
结果
要点
摘要

本文提出了 PSIVG,一种将物理模拟器集成到视频生成循环中的推理期框架。该方法通过从预训练模型生成的模板视频中重建 4D 场景并进行物理仿真,引导扩散模型生成符合重力、惯性和碰撞等物理法则的视频,实现了 SOTA 级的物理一致性表现。

TL;DR

尽管当前的视频生成模型(Sora, HunyuanVideo 等)在视觉上已臻幻境,但在物理真实性上经常“翻车”:球不会滚、碗会漂浮、物体碰撞如同幻影。本文提出的 PSIVG (Physical Simulator In-the-loop Video Generation) 首次将 3D 物理模拟器直接嵌入生成流程,不需额外训练,仅通过推理时的物理引导和纹理优化,就能生成符合重力、碰撞和运动学规律的完美视频。

1. 痛点:为什么 AI 视频总是“不讲物理”?

目前的扩散模型(Diffusion Models)本质上是在像素空间进行条件概率建模。它们擅长模仿训练集中的视觉模式,但并不理解物理世界的底层逻辑。

  • 物体恒常性缺失:物体在旋转或遮挡后形状、纹理发生突变。
  • 力学违背:惯性消失、碰撞反馈缺失、重力加速度不正确。
  • 缺乏三维意识:2D 扩散模型难以维持复杂 3D 旋转时的空间特征。

作者敏锐地发现:与其指望模型通过大数据“悟出”物理,不如直接引入**物理模拟器(Physical Simulator)**作为显式约束。

2. PSIVG 核心架构:模拟器如何进入“闭环”?

PSIVG 的流程可以总结为:生成模板 -> 感知重建 -> 物理仿真 -> 引导生成

PSIVG 总体架构图 图 1:PSIVG 框架概览,展示了从文本到物理指导视频生成的全过程

2.1 感知流水线 (Perception Pipeline)

为了驱动模拟器,首先要从扩散模型生成的初始“模板视频”中挖掘物理参数:

  • 3D 重建:利用 InstantMesh 提取前景物体的 3D 几何,利用 ViPE 进行 4D 场景重建和相机位姿估计。
  • 初始状态推断:通过 SuperGlue 特征匹配计算物体的初始线速度和角速度。
  • 属性估计:调用 GPT-4o 等视觉语言模型,从画面推测物体的材质属性(如密度、杨氏模量)。

2.2 物理仿真引导

获得参数后,在基于 MPM (Material Point Method) 的仿真引擎(如 Taichi)中进行运算,得到绝对符合物理规律的微粒轨迹。这些轨迹被转化为**光流(Optical Flow)**和分割掩码,作为强有力的控制信号反馈给视频生成模型。

3. TTCO:消除纹理闪烁的黑科技

即便有了物理轨迹,模型在大幅度旋转物体时仍会出现纹理崩坏。为此,作者提出了 TTCO (Test-Time Texture Consistency Optimization)

TTCO 机制图 图 2:TTCO 优化流程,通过调节 Token 嵌入确保像素级别的纹理对齐

核心直觉:如果模拟器告诉我们像素 A 在下一帧应该移动到位置 B,我们就通过优化潜在空间的 embedding,强制模型生成的像素 B 与第一帧的像素 A 保持一致。

  • 局部化优化:仅针对前景物体的 Text Embedding 和 DiT 特征进行微调,避免破坏完美的背景。
  • 训练无关:这是一种 Inference-time 策略,意味着它可以直接适配各种现成的开源模型。

4. 实验战绩:SOTA 级的视觉表现

在定量对比中,PSIVG 在运动控制精度(SAM mIoU)和时空一致性上全面超越了包括 CogVideoX、HunyuanVideo 以及针对物理优化的 PISA 变体。

对比效果图 图 3:物理碰撞实验。PSIVG(右)完美还原了保龄球碰撞后的动力学反馈,而基线模型(左)物体运动杂乱无章。

| 方法 | 运动控制 (mIoU) ↑ | 像素一致性 (MSE) ↓ | 用户偏好率 ↑ | | :--- | :--- | :--- | :--- | | CogVideoX (Base) | 0.47 | 0.032 | 7.2% | | HunyuanVideo | 0.46 | 0.017 | 4.5% | | Ours (PSIVG) | 0.84 | 0.007 | 82.3% |

5. 总结与启示

PSIVG 并非试图去“教”神经网络学习物理公式,而是通过系统集成的方式,让神经网络负责视觉表现,让成熟的物理引擎负责逻辑。

局限性

  • 目前高度依赖 MPM 模拟器,涉及复杂关节(如人体)或极小物体时效果受限。
  • 推理速度受限于模拟和测试时优化的计算开销。

未来展望: 随着物理模拟器向端到端可微方向发展,未来我们有望看到物理层与扩散层更深度的融合,最终实现真正具备“世界模型”属性的通用视频生成。

发现相似论文

试试这些示例

  • 查找最近其他尝试将物理引擎(如 MuJoCo 或 PhysX)与视频扩散模型结合以增强物理真实感的论文。
  • 哪篇论文最早提出了基于测试时优化(Test-Time Optimization)来改进扩散模型一致性的方法,本文的 TTCO 与之有何异同?
  • 有哪些研究将物理模拟指导的生成技术应用到了机器人仿真环境(如拟真自动驾驶场景生成)中?
目录
[CVPR 2025] PSIVG:物理模拟器入场,彻底解决 AI 视频的“牛顿棺材板”问题
1. TL;DR
2. 1. 痛点:为什么 AI 视频总是“不讲物理”?
3. 2. PSIVG 核心架构:模拟器如何进入“闭环”?
3.1. 2.1 感知流水线 (Perception Pipeline)
3.2. 2.2 物理仿真引导
4. 3. TTCO:消除纹理闪烁的黑科技
5. 4. 实验战绩:SOTA 级的视觉表现
6. 5. 总结与启示