本文推出了 RoboWM-Bench,这是一个专注于机器人操控的视频世界模型评价基准。它通过将生成的视频转换为可执行的动作序列,并在高保真的 Real-to-Sim 仿真环境中验证物理实操成功率。
TL;DR
大模型生成的视频虽然看起来已经达到了“好莱坞级”的逼真度,但让机器人照着学,却可能发生“穿模”或“反关节”的物理灾难。北京大学团队推出的 RoboWM-Bench 建立了首个以动作为导向的基准,通过将视频转化为真实的物理执行指令,揭开了 SOTA 视频模型在具身智能任务中的“遮羞布”。
关键技术定位:该工作是衔接生成式 AI 与机器人控制的重要桥梁,将评估维度从“好不好看”提升到了“能不能用”。
1. 痛点:视觉反馈的“盛世美颜”与物理规律的“买家秀”
目前的视频世界模型(如 Sora, Wan 等)在处理通用场景时表现卓越,但在机器人操控任务中却面临致命伤:
- 逻辑断层:视频中手碰到了物体,物体就凭空飞起,缺乏真实的接触力学建模。
- 结构坍塌:机器人手臂在运动过程中会发生非物理的形变或扭曲(Structural Distortion)。
- 度量失效:传统的 PAI-Bench 或 VBench 在这些视频上能打高分,但机器人一旦执行,动作完全不可靠。
2. 核心架构:视频到动作的“具身翻译官”
RoboWM-Bench 的核心创新在于其 “视频-动作-仿真” 的全自动评估闭环:
2.1 双路径动作提取
为了兼容不同类型的视频,框架设计了两条路径:
- Human-Centric Retargeting:针对人类演示视频,利用三维手部姿态估计(HaMeR)捕捉关键点,并重定向至机器人抓取器的 6-DoF 位姿。
- Robot-Centric Execution:针对机器人视频,训练了一个强大的逆动力学模型(IDM),直接从连续视频帧中预测关节空间动作。
2.2 高保真 Real-to-Sim 框架
为了让评估具备可复现性且不损耗真机,作者利用 4D Gaussian Splatting 还原现实场景,并结合 LeHome 仿真引擎,确保了物体交互(如推挤、抓取、甚至是褶皱衣物的折叠)在仿真中具有真实的物理反馈。
图 1:RoboWM-Bench 整体流程,包含从视频预测到仿真执行的全过程。
3. 实验发现:谁才是真正的“具身王者”?
团队测试了包括 Wan 2.6, Veo 3.1, Cosmos 在内的多种 SOTA 模型,得出了一些颠覆性的结论:
- 人类视频好于机器人视频:现有模型对人类手的生成质量更高(受益于互联网海量数据),生成的动作更具可执行性。
- 复杂度是执行的杀手:在简单的“按按钮”任务中,Wan 2.6 能达到 100% 成功率;但到了“组装汉堡”或“折叠毛巾”等长程任务,成功率暴跌至 0% 左右。这是由于微小的空间推理错误在多步操作中会无限放大。
- 微调是良药,但非万能:作者通过对 Cosmos 进行特定任务微调(Cosmos-FT),显著提升了抓取成功率,但在处理形变物体(Deformable Objects)时依然束手无策。
图 2:不同模型在任务多样性、交互动力学以及视觉一致性上的量化表现对比。
4. 深度洞察:视觉逼真度不等于具身能力
文章通过一组有趣的实验(图 4)证明,PAI-Bench 等传统视觉评估指标的得分几乎是“饱和”的,无法区分不同模型的优劣。而 RoboWM-Bench 的执行成功率曲线却呈现巨大的阶梯状差异。
这就告诉我们:一个能生成好看视频的模型,并不一定能理解物理。 比如,视频中手指轻轻扫过物体,物体就被“吸”起来了,这种视觉上的合理在物理引擎中无法通过,直接导致任务失败(如图 3 所示的 Open Drawer 失败案例)。
图 3:左侧是预测视频,右侧是仿真模拟。注意视觉上的“抓取成功”在真实物理模拟中可能导致物体滑脱。
5. 总结与展望
RoboWM-Bench 的意义在于它为世界模型设立了一个**“具身图灵测试”**。
- 贡献:它不仅是一个数据集,更是一套开源的评估方法论,让研究者可以低成本、高效率地验证模型生成的视频是否具有真正的“物理灵魂”。
- 局限:目前的动作提取仍依赖深度姿态估计,对细微接触力的还原还不够完美。
- 未来:随着更多具身交互数据(Interactive Data)的加入,我们期待看到能真正模拟力学反馈、支持复杂多步规划的“真正”世界模型。
学术启示:不要再卷视频的分辨率和时长了,去卷物理一致性和动作反馈吧!这才是具身智能通往 AGI 的必经之路。
