AnyLift: Scaling Motion Reconstruction from Internet Videos via 2D Diffusion

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

AnyLift: Scaling Motion Reconstruction from Internet Videos via 2D Diffusion

AnyLift：突破 MoCap 限制，从海量互联网视频中“炼出” 3D 运动与交互

总结

问题

方法

结果

要点

摘要

本文提出了 AnyLift，一个利用 2D 扩散模型从互联网动态摄像头视频中重建 3D 人体运动和人模型交互（HOI）的统一框架。通过两阶段工作流，AnyLift 首次实现了在无 3D 标注情况下，从非受限单目视频中恢复具有全局一致性的世界坐标系 3D 运动。

TL;DR

斯坦福大学的研究团队推出了 AnyLift，这是一个能直接从 YouTube 或 TikTok 视频中提取高精度 3D 人体动作及人机交互（HOI）的 AI 框架。它解决了两个长期存在的痛点：对 3D 标注数据的依赖以及动态相机下的全局定位难题。即使视频里的人在翻跟头、镜头在乱晃，AnyLift 也能在世界坐标系下完美重现 3D 轨迹。

背景定位

传统的 3D 动捕（MoCap）虽然精准，但只能在实验室里抓取有限的动作。想要训练一个能翻滚、能搬运物体的智能体，我们需要海量的真实数据。AnyLift 属于 弱监督/无监督 3D 提升（3D Lifting） 领域，它不依赖昂贵的 3D 标签，而是通过 2D 扩散模型学习视频中的运动规律，属于该领域的最新 SOTA。

痛点深挖：为什么从视频中“抠” 3D 这么难？

分布外动作（OOD）：MoCap 数据集中几乎没有高难度体操或极限武术。
相机抖动（Dynamic Camera）：大多数算法假设相机不动，一旦镜头跟随人物移动，算法就会分不清是人在动还是相机在动，导致 3D 根轨迹（Root Trajectory）错乱。
视角缺失：互联网视频通常只有正面视角，缺乏侧面和背面信息，导致深度估计存在多义性。

核心方法论：AnyLift 的三板斧

1. 相机条件化的 2D 扩散模型

不同于传统的直接回归 3D 坐标，AnyLift 训练一个 2D 扩散模型来预测“如果换个视角看，这段动作长什么样”。它将 相机轨迹（Camera Trajectory） 和 极线（Epipolar Lines） 作为输入条件。

模型架构图 AnyLift 整体流程：从单目视频输入，到 2D 扩散合成多视角，最后优化出 3D 结果。

2. 混合数据源训练（Hybrid Training）

为了解决视角单一的问题，作者想了个奇招：

使用互联网视频提取的 2D 序列学习真实世界的全局移动。
使用成熟的单图姿态估计器（如 GVHMR）生成的、但旋转过视角的局部 2D 投影来学习动作细节。这种“虚实结合”的方法极大地增强了模型对各种视角和极端动作的鲁棒性。

3. 人机互动（HOI）的统建模

AnyLift 不仅仅盯着人看，它还将物体（如椅子、盒子）的关键点与人体骨骼点拼接在一起进入扩散模型。这样模型就能学习到“人坐在椅子上”或“人搬起桌子”时的人物同步协调性，避免了物体与人在 3D 空间中各飞各的。

性能复盘：它是如何超越 SOTA 的？

在针对体操（Gymnastics）和武术（Martial Arts）的测试中，AnyLift 展现了压倒性优势。

根轨迹精度：在 AIST++ 数据集上，其根轨迹误差比 WHAM 等强基线方法降低了 60% 以上。
物理一致性：因为它学习的是全局运动，生成的动作几乎没有“滑步（Foot Sliding）”或“地面穿透”现象。

实验结果对比 定性对比：可以看出 AnyLift (最右) 在复杂动作下生成的 3D 姿态最为稳健，避免了基线方法常见的身体扭曲。

在 HOI 任务（如 BEHAVE 数据集）中，AnyLift 解决了复杂的物体遮挡和对称性歧义。

HOI 重建结果 即便是在动态相机下，人与物体的接触点也处理得非常自然。

深度洞察与总结

AnyLift 的核心价值在于它打通了 “大规模视频数据 -> 高质量 3D 运动资产” 的链路。

局限性：

类别依赖：模型目前仍需针对体操、武术等特定类别进行微调以获得最佳效果。
预处理开销：两阶段的扩散与优化过程在处理超长视频时计算成本较高。

未来展望：这项工作为构建“人体动作的大规模预训练模型”铺平了道路。想象一下，如果能将整个 YouTube 的人类活动转换为 3D 数据，我们将拥有一个全能的虚拟人训练场。这对于元宇宙、动作电影制作、乃至教机器人像人一样在现实世界中交互，都具有巨大的产业想象空间。

发现相似论文

试试这些示例

查找最近利用生成式先验（Generative Priors）进行单目 3D 人体动作捕捉或全局轨迹恢复的其它论文。
哪篇论文最早提出了利用 2D 扩散模型（2D Diffusion）进行 3D 提升（Lifting）的概念，AnyLift 在相机条件化方面做了哪些改进？
调研目前将 3D 人体动作恢复技术应用到具身智能（Embodied AI）或机器人操作任务中的最新进展。

AnyLift：突破 MoCap 限制，从海量互联网视频中“炼出” 3D 运动与交互

1. TL;DR

2. 背景定位

3. 痛点深挖：为什么从视频中“抠” 3D 这么难？

4. 核心方法论：AnyLift 的三板斧

4.1. 1. 相机条件化的 2D 扩散模型

4.2. 2. 混合数据源训练（Hybrid Training）

4.3. 3. 人机互动（HOI）的统建模

5. 性能复盘：它是如何超越 SOTA 的？

6. 深度洞察与总结