WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
AnyLift:突破 MoCap 限制,从海量互联网视频中“炼出” 3D 运动与交互
总结
问题
方法
结果
要点
摘要

本文提出了 AnyLift,一个利用 2D 扩散模型从互联网动态摄像头视频中重建 3D 人体运动和人模型交互(HOI)的统一框架。通过两阶段工作流,AnyLift 首次实现了在无 3D 标注情况下,从非受限单目视频中恢复具有全局一致性的世界坐标系 3D 运动。

TL;DR

斯坦福大学的研究团队推出了 AnyLift,这是一个能直接从 YouTube 或 TikTok 视频中提取高精度 3D 人体动作及人机交互(HOI)的 AI 框架。它解决了两个长期存在的痛点:对 3D 标注数据的依赖以及动态相机下的全局定位难题。即使视频里的人在翻跟头、镜头在乱晃,AnyLift 也能在世界坐标系下完美重现 3D 轨迹。

背景定位

传统的 3D 动捕(MoCap)虽然精准,但只能在实验室里抓取有限的动作。想要训练一个能翻滚、能搬运物体的智能体,我们需要海量的真实数据。AnyLift 属于 弱监督/无监督 3D 提升(3D Lifting) 领域,它不依赖昂贵的 3D 标签,而是通过 2D 扩散模型学习视频中的运动规律,属于该领域的最新 SOTA。

痛点深挖:为什么从视频中“抠” 3D 这么难?

  1. 分布外动作(OOD):MoCap 数据集中几乎没有高难度体操或极限武术。
  2. 相机抖动(Dynamic Camera):大多数算法假设相机不动,一旦镜头跟随人物移动,算法就会分不清是人在动还是相机在动,导致 3D 根轨迹(Root Trajectory)错乱。
  3. 视角缺失:互联网视频通常只有正面视角,缺乏侧面和背面信息,导致深度估计存在多义性。

核心方法论:AnyLift 的三板斧

1. 相机条件化的 2D 扩散模型

不同于传统的直接回归 3D 坐标,AnyLift 训练一个 2D 扩散模型来预测“如果换个视角看,这段动作长什么样”。它将 相机轨迹(Camera Trajectory)极线(Epipolar Lines) 作为输入条件。

模型架构图 AnyLift 整体流程:从单目视频输入,到 2D 扩散合成多视角,最后优化出 3D 结果。

2. 混合数据源训练(Hybrid Training)

为了解决视角单一的问题,作者想了个奇招:

  • 使用互联网视频提取的 2D 序列学习真实世界的全局移动。
  • 使用成熟的单图姿态估计器(如 GVHMR)生成的、但旋转过视角的局部 2D 投影来学习动作细节。 这种“虚实结合”的方法极大地增强了模型对各种视角和极端动作的鲁棒性。

3. 人机互动(HOI)的统建模

AnyLift 不仅仅盯着人看,它还将物体(如椅子、盒子)的关键点与人体骨骼点拼接在一起进入扩散模型。这样模型就能学习到“人坐在椅子上”或“人搬起桌子”时的人物同步协调性,避免了物体与人在 3D 空间中各飞各的。

性能复盘:它是如何超越 SOTA 的?

在针对体操(Gymnastics)和武术(Martial Arts)的测试中,AnyLift 展现了压倒性优势。

  • 根轨迹精度:在 AIST++ 数据集上,其根轨迹误差比 WHAM 等强基线方法降低了 60% 以上。
  • 物理一致性:因为它学习的是全局运动,生成的动作几乎没有“滑步(Foot Sliding)”或“地面穿透”现象。

实验结果对比 定性对比:可以看出 AnyLift (最右) 在复杂动作下生成的 3D 姿态最为稳健,避免了基线方法常见的身体扭曲。

在 HOI 任务(如 BEHAVE 数据集)中,AnyLift 解决了复杂的物体遮挡和对称性歧义。

HOI 重建结果 即便是在动态相机下,人与物体的接触点也处理得非常自然。

深度洞察与总结

AnyLift 的核心价值在于它打通了 “大规模视频数据 -> 高质量 3D 运动资产” 的链路。

局限性

  • 类别依赖:模型目前仍需针对体操、武术等特定类别进行微调以获得最佳效果。
  • 预处理开销:两阶段的扩散与优化过程在处理超长视频时计算成本较高。

未来展望: 这项工作为构建“人体动作的大规模预训练模型”铺平了道路。想象一下,如果能将整个 YouTube 的人类活动转换为 3D 数据,我们将拥有一个全能的虚拟人训练场。这对于元宇宙、动作电影制作、乃至教机器人像人一样在现实世界中交互,都具有巨大的产业想象空间。

发现相似论文

试试这些示例

  • 查找最近利用生成式先验(Generative Priors)进行单目 3D 人体动作捕捉或全局轨迹恢复的其它论文。
  • 哪篇论文最早提出了利用 2D 扩散模型(2D Diffusion)进行 3D 提升(Lifting)的概念,AnyLift 在相机条件化方面做了哪些改进?
  • 调研目前将 3D 人体动作恢复技术应用到具身智能(Embodied AI)或机器人操作任务中的最新进展。
目录
AnyLift:突破 MoCap 限制,从海量互联网视频中“炼出” 3D 运动与交互
1. TL;DR
2. 背景定位
3. 痛点深挖:为什么从视频中“抠” 3D 这么难?
4. 核心方法论:AnyLift 的三板斧
4.1. 1. 相机条件化的 2D 扩散模型
4.2. 2. 混合数据源训练(Hybrid Training)
4.3. 3. 人机互动(HOI)的统建模
5. 性能复盘:它是如何超越 SOTA 的?
6. 深度洞察与总结