Physical Simulator In-the-Loop Video Generation

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Physical Simulator In-the-Loop Video Generation

[CVPR 2025] PSIVG：物理模拟器入场，彻底解决 AI 视频的“牛顿棺材板”问题

总结

问题

方法

结果

要点

摘要

本文提出了 PSIVG，一种将物理模拟器集成到视频生成循环中的推理期框架。该方法通过从预训练模型生成的模板视频中重建 4D 场景并进行物理仿真，引导扩散模型生成符合重力、惯性和碰撞等物理法则的视频，实现了 SOTA 级的物理一致性表现。

TL;DR

尽管当前的视频生成模型（Sora, HunyuanVideo 等）在视觉上已臻幻境，但在物理真实性上经常“翻车”：球不会滚、碗会漂浮、物体碰撞如同幻影。本文提出的 PSIVG (Physical Simulator In-the-loop Video Generation) 首次将 3D 物理模拟器直接嵌入生成流程，不需额外训练，仅通过推理时的物理引导和纹理优化，就能生成符合重力、碰撞和运动学规律的完美视频。

1. 痛点：为什么 AI 视频总是“不讲物理”？

目前的扩散模型（Diffusion Models）本质上是在像素空间进行条件概率建模。它们擅长模仿训练集中的视觉模式，但并不理解物理世界的底层逻辑。

物体恒常性缺失：物体在旋转或遮挡后形状、纹理发生突变。
力学违背：惯性消失、碰撞反馈缺失、重力加速度不正确。
缺乏三维意识：2D 扩散模型难以维持复杂 3D 旋转时的空间特征。

作者敏锐地发现：与其指望模型通过大数据“悟出”物理，不如直接引入**物理模拟器（Physical Simulator）**作为显式约束。

2. PSIVG 核心架构：模拟器如何进入“闭环”？

PSIVG 的流程可以总结为：生成模板 -> 感知重建 -> 物理仿真 -> 引导生成。

PSIVG 总体架构图 图 1：PSIVG 框架概览，展示了从文本到物理指导视频生成的全过程

2.1 感知流水线 (Perception Pipeline)

为了驱动模拟器，首先要从扩散模型生成的初始“模板视频”中挖掘物理参数：

3D 重建：利用 InstantMesh 提取前景物体的 3D 几何，利用 ViPE 进行 4D 场景重建和相机位姿估计。
初始状态推断：通过 SuperGlue 特征匹配计算物体的初始线速度和角速度。
属性估计：调用 GPT-4o 等视觉语言模型，从画面推测物体的材质属性（如密度、杨氏模量）。

2.2 物理仿真引导

获得参数后，在基于 MPM (Material Point Method) 的仿真引擎（如 Taichi）中进行运算，得到绝对符合物理规律的微粒轨迹。这些轨迹被转化为**光流（Optical Flow）**和分割掩码，作为强有力的控制信号反馈给视频生成模型。

3. TTCO：消除纹理闪烁的黑科技

即便有了物理轨迹，模型在大幅度旋转物体时仍会出现纹理崩坏。为此，作者提出了 TTCO (Test-Time Texture Consistency Optimization)。

TTCO 机制图 图 2：TTCO 优化流程，通过调节 Token 嵌入确保像素级别的纹理对齐

核心直觉：如果模拟器告诉我们像素 A 在下一帧应该移动到位置 B，我们就通过优化潜在空间的 embedding，强制模型生成的像素 B 与第一帧的像素 A 保持一致。

局部化优化：仅针对前景物体的 Text Embedding 和 DiT 特征进行微调，避免破坏完美的背景。
训练无关：这是一种 Inference-time 策略，意味着它可以直接适配各种现成的开源模型。

4. 实验战绩：SOTA 级的视觉表现

在定量对比中，PSIVG 在运动控制精度（SAM mIoU）和时空一致性上全面超越了包括 CogVideoX、HunyuanVideo 以及针对物理优化的 PISA 变体。

对比效果图 图 3：物理碰撞实验。PSIVG（右）完美还原了保龄球碰撞后的动力学反馈，而基线模型（左）物体运动杂乱无章。

| 方法 | 运动控制 (mIoU) ↑ | 像素一致性 (MSE) ↓ | 用户偏好率 ↑ | | :--- | :--- | :--- | :--- | | CogVideoX (Base) | 0.47 | 0.032 | 7.2% | | HunyuanVideo | 0.46 | 0.017 | 4.5% | | Ours (PSIVG) | 0.84 | 0.007 | 82.3% |

5. 总结与启示

PSIVG 并非试图去“教”神经网络学习物理公式，而是通过系统集成的方式，让神经网络负责视觉表现，让成熟的物理引擎负责逻辑。

局限性：

目前高度依赖 MPM 模拟器，涉及复杂关节（如人体）或极小物体时效果受限。
推理速度受限于模拟和测试时优化的计算开销。

未来展望：随着物理模拟器向端到端可微方向发展，未来我们有望看到物理层与扩散层更深度的融合，最终实现真正具备“世界模型”属性的通用视频生成。

发现相似论文

试试这些示例

查找最近其他尝试将物理引擎（如 MuJoCo 或 PhysX）与视频扩散模型结合以增强物理真实感的论文。
哪篇论文最早提出了基于测试时优化（Test-Time Optimization）来改进扩散模型一致性的方法，本文的 TTCO 与之有何异同？
有哪些研究将物理模拟指导的生成技术应用到了机器人仿真环境（如拟真自动驾驶场景生成）中？

[CVPR 2025] PSIVG：物理模拟器入场，彻底解决 AI 视频的“牛顿棺材板”问题

1. TL;DR

2. 1. 痛点：为什么 AI 视频总是“不讲物理”？

3. 2. PSIVG 核心架构：模拟器如何进入“闭环”？

3.1. 2.1 感知流水线 (Perception Pipeline)

3.2. 2.2 物理仿真引导

4. 3. TTCO：消除纹理闪烁的黑科技

5. 4. 实验战绩：SOTA 级的视觉表现

6. 5. 总结与启示