Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

[CVPR 2026] Omni-WorldBench：迈向交互中心化的 4D 世界模型深度评估

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 Omni-WorldBench，这是首个专门针对视频世界模型（World Models）交互响应能力设计的综合性评估基准。该基准包含层次化的提示词套件 Omni-WorldSuite 和基于智能体（Agent-based）的评估框架 Omni-Metrics，填补了现有指标在 4D 空间演化和因果一致性评价上的空白。

TL;DR

在视频生成领域，我们不仅需要视觉上的“精美”，更需要物理上的“逻辑”。阿里巴巴大地图（AMAP）团队联合中科院、北航等机构提出了 Omni-WorldBench，这是第一个拒绝“花架子”、硬核测试世界模型交互响应能力的基准测试。它通过 1,068 个精心设计的 Prompt 和一套基于 Agent 的自动化评分系统，戳破了当前 SOTA 模型在因果推理和物理模拟上的“幻觉”。

痛点深挖：视频生成不等于“模拟世界”

当前的视频生成模型（如 Sora 等）虽然能产出极具视觉冲击力的影像，但在学术界看来，它们距离真正的“世界模型”还有代差。

维度缺失：现有的 VBench 等偏向视觉质量，而 WorldScore 偏向相机的 3D 几何一致性。
因果断裂：当给出一个“打碎杯子”的指令时，模型往往能画出破碎的瞬间，却难以维持碎片在空间中的逻辑延续性，或是无法处理交互动作导致的局部环境连锁反应。
难以量化：如何科学地衡量一个模型是否“听懂”了复杂的物理交互指令？这是一个长期存在的学术空白。

核心架构：Omni-WorldSuite 与三级交互

作者认为，交互的深度决定了世界模型的上限。为此，他们将交互分为三个层级：

Level 1 (Acting Object)：动作仅涉及主体。例如：人在草地上走动。
Level 2 (Object-to-Object)：物体影响另一个物体。例如：球棒击中棒球。
Level 3 (Global/Environment)：复杂的因果链，改变整个场景。例如：整理杂乱的房间。

模型评估流程图 图 1：Omni-WorldBench 概览。左侧为提示词套件的分级定义，右侧为基于 Agent 的评分流。

方法论：Omni-Metrics 与 AgenticScore

为了实现全方位评估，Omni-Metrics 引入了四个反映“交互忠实度”的核心指标：

InterStab-L：长程稳定性，检查视频在经历一段动作后重回初始位置时，场景是否变形。
InterStab-N：非目标区稳定性，如果你在挥拳，背景的房子不应该抖动。
InterCov：动作覆盖率，利用 VLM 验证受影响实体是否产生了预期的语义响应。
InterOrder：判别事件发生的先后顺序是否符合物理逻辑（如：必须先点火再起烟）。

最精妙的设计在于 AgenticScore：系统不再死板地对所有指标取平均值，而是通过一个 MLLM（多模态大模型）作为“主考官”，根据 Prompt 的侧重点（是看重相机控制还是看重物理因果）自动调整各项指标的权重。

实验战绩：谁才是真正的 4D 霸主？

研究团队对 18 个模型进行了大规模评测，包括 Wan 2.2、Cosmos、HunyuanVideo 等。

实验结果对比 表 1：各模型在交互忠实度、视觉质量、可控性上的量化表现。

关键发现：

IT2V (Image-to-Video) 展现潜力：相比纯文本生成，给模型一张初始帧（Image prompt）能大幅提升其交互稳定性。Wan 2.2 在多项指标上刷榜。
物理认知的缺失：在图 5 的对比中可以明显看到，某些模型在生成“强力投球”动作时，人体由于无法承载复杂的运动学逻辑，直接发生了“塌陷”和消失。
相机与动态的权衡：类似于 WonderWorld 这样的模型在相机控制（Camera Control）上拿到了近乎满分，但在处理非目标区域的稳定性（InterStab-N）上表现糟糕，说明模型在追求大幅度相机运动时，难以兼顾背景的物理静止。

投球动作定性对比 图 2：Wan2.2 与 Matrix-Game2.0 在复杂物理动作下的表现差异。

深度洞察与总结

Omni-WorldBench 的出现标志着视频生成评估进入了 “因果时代”。

价值：它揭示了当前 SOTA 模型虽然能通过“补帧”骗过人的眼睛，但无法通过“物理一致性”骗过逻辑验证。
展望：未来的 4D 世界模型需要更紧密地耦合感知、动作与物理规律。对于机器人、自动驾驶等安全敏感领域，Omni-WorldBench 提供的这套评估框架将成为不可或缺的准入标准。

正如作者在结论中所述：“视觉保真度已成基操，交互响应才是未来。”

Find Similar Papers

Try Our Examples

查找最近一年内专门针对自动驾驶或机器人领域世界模型物理一致性进行量化评估的论文。
哪篇论文最早定义了“交互式世界模型”的概念，Omni-WorldBench 在其基础上增加了哪些维度？
调研当前 SOTA 视频生成模型（如 Sora 或 Gen-3）在处理长程因果链任务时的失败案例分析及改进研究。

Contents

[CVPR 2026] Omni-WorldBench：迈向交互中心化的 4D 世界模型深度评估

1. TL;DR

2. 痛点深挖：视频生成不等于“模拟世界”

3. 核心架构：Omni-WorldSuite 与三级交互

4. 方法论：Omni-Metrics 与 AgenticScore

5. 实验战绩：谁才是真正的 4D 霸主？

6. 深度洞察与总结