WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
HumanScore:即使视觉满分,你的 AI 动作可能也违反物理定律
总结
问题
方法
结果
要点
摘要

本文推出了 HumanScore,一个专门用于评估 AI 生成视频中人体动作物理真实性的系统性评测框架。该框架涵盖解剖学正确性、运动学可行性和动力学 consistency 六大维度,填补了现有 SOTA 模型(如 Sora-2, KlingAI)在生物力学评估领域的空白。

在 AI 生成视频领域,我们曾惊叹于 Sora 的细腻质感,也曾被 Kling 的流畅转场折服。然而,斯坦福与北大联合提出的 HumanScore 给行业浇了一盆冷水:视觉上的“看起来真”和生物力学上的“动作真”之间,依然存在巨大的鸿沟。

TL;DR

现在的 AI 视频模型在处理“人体”时,经常会出现人体解剖结构的坍塌:比如跳舞时手臂在拉长、跑步时关节向后弯曲、或者动作像“瞬移”一样不连贯。HumanScore 是第一个系统性利用生物力学(Biomechanics)标准来量化这些隐形瑕疵的评测方案。

痛点深挖:为何我们需要生物力学视角?

现有的评估指标(如 VBench, FVD)主要关注像素层面的平滑度或文本对齐。但在实际应用中,如动作教学、医疗康复或电影工业,物理真实性 (Physical Plausibility) 至关重要。

目前的模型在复杂动作(如跑酷、芭蕾)中常表现出三种失败模式:

  1. 解剖学异常:鬼影肢体(多出一只手)或骨骼在运动中像橡皮筋一样收缩。
  2. 运动学冲突:膝盖像向外翻转(超伸),或者手臂直接穿过了躯干。
  3. 动力学违和:加速度突变导致动作看起来像是在“抽搐”或“丢帧”。

核心机制:三层生物力学金字塔

作者基于人体生物力学,建立了一个严密的三层检测体系:

模块化评估流程

  1. 解剖层 (Anatomy)

    • 使用 HADM 专门检测额外肢体。
    • 引入 OpenSim 骨架模型,强制执行刚体约束。如果 AI 生成的视频里小腿变长了,这个指标就会骤降。
  2. 运动层 (Kinematic)

    • 规定了每个关节旋转的极限角度(Joint Range of Motion)。
    • 检测 Self-collision,即 AI 是否让两个 3D 几何体发生了重合。
  3. 动力层 (Kinetic)

    • 基于牛顿第二定律 (),分析角速度和角加速度。如果动作超出了人类肌肉所能爆发的极限,将被判定为“违和”。

骨骼拟合示范

战绩:谁才是真正的“生力冠军”?

实验对 13 个顶级模型进行了 102 个维度的压测。

核心发现:

  • 国产力量占优Seedance 1.0 Pro FastHunyuanVideo 1.5KlingAI 2.5 Turbo Pro 位列前三,在动作稳定性上超过了部分国际主流模型。
  • 开源不输闭源:混元(Hunyuan)在解剖正确性上表现惊人,甚至在某些指标上超越了闭源模型。
  • 物理鸿沟:即便是得分最高的 AI 模型(91.1),距离真实视频的得分(94.3)仍有显著差距,尤其是在运动学可行性上表现较弱。

排行榜单对比

局限性与展望

虽然 HumanScore 提供了极其深度的见解,但它也受限于现有的 Monocular 3D Human Pose Estimation 技术。如果估计器本身对深度的恢复不准,可能会给真实的视频也打出较低的分数。这也是为什么论文中真实视频也不是 100 分的原因。

未来启示:单纯卷算力和数据规模可能已经触及了天花板。下一代视频生成模型必须将物理引擎或生物力学 Prior 植入到网络架构中,才能让 AI 造出真正符合自然法则的世界。


总结:HumanScore 的出现标志着视频生成从“拼画质”阶段正式步入“拼物理律”的新阶段。

发现相似论文

试试这些示例

  • 查找最近除了 HumanScore 之外,还有哪些将物理模拟(Physics Simulation)或生物力学约束引入生成模型训练阶段的研究?
  • 哪篇论文最早在计算机视觉领域使用了 OpenSim 进行人体动作分析,HumanScore 如何改进了针对生成视频的骨骼拟合流程?
  • 除了人体动作,最近是否有针对物体物理交互(如流体力学、碰撞响应)的 AI 生成视频评估框架推出?
目录
HumanScore:即使视觉满分,你的 AI 动作可能也违反物理定律
1. TL;DR
2. 痛点深挖:为何我们需要生物力学视角?
3. 核心机制:三层生物力学金字塔
4. 战绩:谁才是真正的“生力冠军”?
5. 局限性与展望