ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

[CVPR 2026] ArtHOI：突破刚体限制，从视频先验中重建有关节的人机交互系统

总结

问题

方法

结果

要点

摘要

本文提出了 ArtHOI，这是首个通过 4D 重建从视频先验中合成有关节人体-物体交互（Articulated HOI）的 Zero-shot 框架。该方法将交互合成建模为逆渲染问题，在无需 3D 监督的情况下，实现了橱柜、冰箱等具有运动约束物体的物理一致性交互。

TL;DR

传统的 Zero-shot 人体-物体交互（HOI）生成往往只能处理“拿取”刚性物体，而面对“开门”、“拉抽屉”等涉及物体内部关节运动的场景则显得无能为力。ArtHOI 首次将这一问题定义为单目视频驱动的 4D 重建任务。通过将物体运动学约束（Articulation）与人体姿态优化解耦，它不仅能从一段生成的视频中“反推”出真实的 3D 运动，还大幅提升了接触的物理真实性。

背景定位：从“盲目生成”到“理学重建”

在合成 HOI 时，前人工作（如 ZeroHSI）倾向于利用扩散模型直接蒸馏出 4D 高斯表示。然而，这种方法往往忽略了物体的内在物理结构。当你尝试打开一个冰箱门时，门应该绕着合页转动，而不是像一个漂浮的方块。ArtHOI 的核心直觉在于：2D 视频已经提供了足够的运动线索（光流），通过逆渲染将其转化为 3D 的运动学链，可以消除单目视角的深度模糊性。

核心痛点：单目歧义性与梯度冲突

在单目视频中，一个点在图像上的位移可能来自三种可能：人体在动、物体部件在动、或者相机在动。如果将人体和物体放在一起联合优化（Joint Optimization），模型会因为无法区分这些运动来源而产生梯度冲突，导致物体几何坍塌或手部悬空。

Methodology：两阶段解耦重建流程

ArtHOI 提出了一个优雅的闭环方案，分为部件分割与解耦优化两个核心环节。

1. 基于光流的部件分割 (Flow-based Segmentation)

作者认为运动是区分有关系部件最可靠的信号。

动态捕捉：利用 CoTracker 跟踪 2D 轨迹，将位移大的点标记为“动态”，小的标记为“静态”。
SAM 引导：将这些稀疏点作为 Prompt 喂给 SAM，生成高精度的部件掩码。
3D 绑定：在 3D 空间中，利用“准静态点”（Quasi-static points）将旋转轴附近的动态高斯点与静态基座锁定，强制维持合页结构。

模型架构图

2. 两阶段优化策略

Stage I：物体运动学重建。先固定人体，专门优化物体的旋转和平移参数。这一步为后续的人体动作提供了一个“物理脚手架（Scaffold）”。
Stage II：人体姿态精修。在物体运动确定的前提下，通过 3D 接触点引导（Kinematic Loss）拉动 SMPL-X 的手部关节，使其完美贴合在物体表面。

接触引导机制

实验战绩：精度与真实感的双重飞跃

在针对有关节物体运动预测的实验中，ArtHOI 的平均旋转误差仅为 6.71°，相比于专门做此类任务的基线模型 D3D-HOI（25.13°）实现了量级上的提升。

关键实验数据对比

| 指标 | ZeroHSI (基线) | ArtHOI (本文) | 提升幅度 | | :--- | :--- | :--- | :--- | | Contact% (接触率) | 61.95% | 75.64% | +22% | | Penetration (穿透值) | 1.49 | 0.08 | -94% | | Rotation Error (旋转误差) | N/A | 6.71° | 显著领先 |

在视觉呈现上（如下图所示），ArtHOI 生成的动作告别了“隔空移物”，手部精准地扣在把手上，且门板的旋转完全符合物理常识。

实验结果展示

深度洞察

ArtHOI 的成功证明了：在纯生成式 AI 时代，传统的几何与物理约束依然不可或缺。单纯依靠扩散模型的“幻觉”难以生成高质量的 4D 内容。通过将 2D 扩散模型视为“观测器”，将 4D 重建视为“优化器”，ArtHOI 找到了一条通往高保真虚拟交互数据的捷径。

局限性与展望

尽管表现出色，ArtHOI 在处理低纹理、强反射表面（如不锈钢冰箱）时仍依赖于光流质量。此外，目前的框架假设相机是静止的，未来如何处理移动相机下的多自由度（Multi-DOF）复杂机构重建，将是该领域的下一个高地。

总结：ArtHOI 为 4D 场景重建插上了运动学的翅膀，使得 Zero-shot HOI 从简单的“抓取”进化到了复杂的“操纵”。

发现相似论文

试试这些示例

查找最近利用视频扩散模型（Video Diffusion Models）辅助进行 4D 场景重建或人体动作捕捉的 SOTA 论文。
追溯非监督部件发现（Unsupervised Part Discovery）在有关节物体建模中的核心理论，并分析本文如何利用人体交互作为额外的运动学先验。
探索在该框架中引入物理模拟引擎（如 PhysX 或 MuJoCo）以进一步增强长序列生成物理一致性的相关研究。

[CVPR 2026] ArtHOI：突破刚体限制，从视频先验中重建有关节的人机交互系统

1. TL;DR

2. 背景定位：从“盲目生成”到“理学重建”

3. 核心痛点：单目歧义性与梯度冲突

4. Methodology：两阶段解耦重建流程

4.1. 1. 基于光流的部件分割 (Flow-based Segmentation)

4.2. 2. 两阶段优化策略

5. 实验战绩：精度与真实感的双重飞跃

5.1. 关键实验数据对比

6. 深度洞察

7. 局限性与展望