Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning

[CVPR 2025] Physion-Eval：戳穿视频生成模型的“物理幻觉”，83% 以上的视频都在违背科学？

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 Physion-Eval，一个针对生成视频物理真实性的大规模评估基准。该基准包含 10,990 条由专家标注的推理轨迹，涵盖了 22 种细粒度物理类别，揭示了当前 SOTA 视频生成模型在物理规律遵循上的巨大缺陷。

TL;DR

虽然 Sora、Veo 等模型生成的视频在视觉上极其震撼，但它们真的理解物理吗？Physion-Eval 研究指出：当前顶尖视频生成模型在物理真实性上存在巨大缺口。 超过 83% 的 AI 生成视频包含肉眼可见的物理错误（如物体凭空消失、重力失效、因果倒置）。更糟糕的是，目前最强的多模态大模型（MLLM）作为裁判，竟然识别不出这些低级错误。

1. 背景：视觉上的“真实”不等于物理上的“正确”

当前的视频生成模型（如 Sora 2, Kling 2.5）已经实现了电影级的渲染质量。然而，将这些模型应用于具身机器人（Embodied AI）或科学模拟时，物理真实性（Physical Realism） 比视觉美感更重要。

现有的评估方法（如 FVD）主要关注像素分布的相似性，而无法判断：

水倒入杯子时，体积是否守恒？
球撞击地面时，反弹角度是否符合动量定理？
切割物体时，断裂面是否合理？

物理故障示例 图 1：AI 生成视频中的典型物理故障：物体穿模、物质状态异常、因果逻辑崩溃。

2. 痛点：为什么评估物理真实性这么难？

视角缺失：现有的研究多关注第三人称（Exocentric），缺乏对机器人操作至关重要的第一人称（Egocentric）视角评估。
自动指标失效：传统的剪辑相似度指标无法捕捉细微的动态违规。
MLLM 裁判的无能：研究发现，强如 Gemini 3.0 Pro 或 GPT-5.2，在面对违反重力或接触逻辑的视频时，往往会表现出“视而不见”或者产生错误的解释（Hallucinations）。

3. Physion-Eval：一套专家级的物理诊断系统

为了解决上述问题，研究团队构建了 Physion-Eval。其核心贡献在于：

双视角覆盖：从 WISA-80K（外中心）和 EPIC-KITCHENS（第一人称）中提取素材。
专家级标注：由 38 名拥有理工科背景的高级专家参与，对五个 SOTA 模型的 12,718 个视频进行双盲标注。
细粒度分类法：将物理错误分为物体持久性（Object Permanence）、时间相干性（Temporal Coherence）、材料属性（Material State）、接触交互（Contact Failure）等 8 大类。

图 2：Physion-Eval 的专家标注工作流，包含精确到 0.1 秒的时间戳定位。

4. 实验发现：令人不安的现状

研究者对比了 Kling 2.5、Veo 3.1、Sora 2、Hailuo 2.3 和 Wan 2.2 五大模型，得出了几项颠覆性的结论：

4.1 物理故障几乎无处不在

在物理关键场景中，93.5% 的第一人称视频和 83.3% 的外中心视频至少包含一个显著的物理故障。这说明目前的模型主要是在模仿图像序列的统计关联，而不是在模拟物理规律。

4.2 MLLM vs. 人类的“能力鸿沟”

下表展示了人类与 MLLM 在识别物理错误上的得分（J-statistic）。可以明显看到，人类在各个模型上的得分均在 25%-60% 之间，而 MLLM 裁判的得分惨不忍睹，大多低于 10%，甚至在某些模型上接近 0。

性能对比表 表 1：人类（Untrained Human）与各类 MLLM 裁判在物理真实性检测中的表现对比。

4.3 推理幻觉：AI 裁判在“一本正经胡说八道”

当要求 MLLM 解释为什么一个视频是不真实的，它们经常会脑补出一些视频中根本不存在的理由（如“阴影伪影”），而忽略了最明显的物体穿模或质量不守恒。

推理对比图 图 3：专家人类与 Gemini 3.1 Pro 的推理对比。人类精准识别了水量异常增加，AI 却在分析不存在的阴影。

5. 结论与启示

Physion-Eval 的出现证明了：要让视频生成模型成为真正的“世界模拟器”，我们还有很长的路要走。

核心启示：

数据质量 > 数据规模：互联网数据充满了剪辑和特效，模型需要更多纯粹、无剪辑的真实物理交互数据进行训练。
物理接地（Physics Grounding）：未来的研究方向应探索如何将物理方程或结构化约束集成到扩散模型中，而不是仅仅让它学习像素的“流动”。
开发更好的自动裁判：现有的 MLLM 缺乏时空推理能力，Physion-Eval 提供的专家数据正是训练新一代“物理增强型视频裁判”的最佳燃料。

论文信息： Zhang et al., "Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning", 2026. 开源地址： huggingface.co/datasets/PhysionLabs/Physion-Eval

Find Similar Papers

Try Our Examples

查找最近一年内除了 Physion-Eval 之外，还有哪些针对视频生成模型物理常识（Physical Commonsense）的评估基准或数据集？
哪篇论文最早探讨了视频生成模型作为“世界模拟器”（World Simulators）的理论框架，当前模型在实现这一目标上还存在哪些核心物理瓶颈？
有哪些最新的研究尝试通过引入物理损失函数或显式约束（如物理引擎集成）来提升扩散模型生成视频的物理一致性？

Contents

[CVPR 2025] Physion-Eval：戳穿视频生成模型的“物理幻觉”，83% 以上的视频都在违背科学？

1. TL;DR

2. 1. 背景：视觉上的“真实”不等于物理上的“正确”

3. 2. 痛点：为什么评估物理真实性这么难？

4. 3. Physion-Eval：一套专家级的物理诊断系统

5. 4. 实验发现：令人不安的现状

5.1. 4.1 物理故障几乎无处不在

5.2. 4.2 MLLM vs. 人类的“能力鸿沟”

5.3. 4.3 推理幻觉：AI 裁判在“一本正经胡说八道”

6. 5. 结论与启示