本文提出了 ArtHOI,这是首个通过 4D 重建从视频先验中合成有关节人体-物体交互(Articulated HOI)的 Zero-shot 框架。该方法将交互合成建模为逆渲染问题,在无需 3D 监督的情况下,实现了橱柜、冰箱等具有运动约束物体的物理一致性交互。
TL;DR
传统的 Zero-shot 人体-物体交互(HOI)生成往往只能处理“拿取”刚性物体,而面对“开门”、“拉抽屉”等涉及物体内部关节运动的场景则显得无能为力。ArtHOI 首次将这一问题定义为单目视频驱动的 4D 重建任务。通过将物体运动学约束(Articulation)与人体姿态优化解耦,它不仅能从一段生成的视频中“反推”出真实的 3D 运动,还大幅提升了接触的物理真实性。
背景定位:从“盲目生成”到“理学重建”
在合成 HOI 时,前人工作(如 ZeroHSI)倾向于利用扩散模型直接蒸馏出 4D 高斯表示。然而,这种方法往往忽略了物体的内在物理结构。当你尝试打开一个冰箱门时,门应该绕着合页转动,而不是像一个漂浮的方块。ArtHOI 的核心直觉在于:2D 视频已经提供了足够的运动线索(光流),通过逆渲染将其转化为 3D 的运动学链,可以消除单目视角的深度模糊性。
核心痛点:单目歧义性与梯度冲突
在单目视频中,一个点在图像上的位移可能来自三种可能:人体在动、物体部件在动、或者相机在动。如果将人体和物体放在一起联合优化(Joint Optimization),模型会因为无法区分这些运动来源而产生梯度冲突,导致物体几何坍塌或手部悬空。
Methodology:两阶段解耦重建流程
ArtHOI 提出了一个优雅的闭环方案,分为部件分割与解耦优化两个核心环节。
1. 基于光流的部件分割 (Flow-based Segmentation)
作者认为运动是区分有关系部件最可靠的信号。
- 动态捕捉:利用 CoTracker 跟踪 2D 轨迹,将位移大的点标记为“动态”,小的标记为“静态”。
- SAM 引导:将这些稀疏点作为 Prompt 喂给 SAM,生成高精度的部件掩码。
- 3D 绑定:在 3D 空间中,利用“准静态点”(Quasi-static points)将旋转轴附近的动态高斯点与静态基座锁定,强制维持合页结构。

2. 两阶段优化策略
- Stage I:物体运动学重建。先固定人体,专门优化物体的旋转和平移参数。这一步为后续的人体动作提供了一个“物理脚手架(Scaffold)”。
- Stage II:人体姿态精修。在物体运动确定的前提下,通过 3D 接触点引导(Kinematic Loss)拉动 SMPL-X 的手部关节,使其完美贴合在物体表面。

实验战绩:精度与真实感的双重飞跃
在针对有关节物体运动预测的实验中,ArtHOI 的平均旋转误差仅为 6.71°,相比于专门做此类任务的基线模型 D3D-HOI(25.13°)实现了量级上的提升。
关键实验数据对比
| 指标 | ZeroHSI (基线) | ArtHOI (本文) | 提升幅度 | | :--- | :--- | :--- | :--- | | Contact% (接触率) | 61.95% | 75.64% | +22% | | Penetration (穿透值) | 1.49 | 0.08 | -94% | | Rotation Error (旋转误差) | N/A | 6.71° | 显著领先 |
在视觉呈现上(如下图所示),ArtHOI 生成的动作告别了“隔空移物”,手部精准地扣在把手上,且门板的旋转完全符合物理常识。

深度洞察
ArtHOI 的成功证明了:在纯生成式 AI 时代,传统的几何与物理约束依然不可或缺。单纯依靠扩散模型的“幻觉”难以生成高质量的 4D 内容。通过将 2D 扩散模型视为“观测器”,将 4D 重建视为“优化器”,ArtHOI 找到了一条通往高保真虚拟交互数据的捷径。
局限性与展望
尽管表现出色,ArtHOI 在处理低纹理、强反射表面(如不锈钢冰箱)时仍依赖于光流质量。此外,目前的框架假设相机是静止的,未来如何处理移动相机下的多自由度(Multi-DOF)复杂机构重建,将是该领域的下一个高地。
总结:ArtHOI 为 4D 场景重建插上了运动学的翅膀,使得 Zero-shot HOI 从简单的“抓取”进化到了复杂的“操纵”。
