EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

[ECCV 2024] EgoPoseFormer v2：AR/VR 视角下的高性能实时全身动捕新标杆

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 EgoPoseFormer v2 (EPFv2)，这是一种专为 AR/VR 场景设计的端到端 Transformer 自我中心（Egocentric）人体动作估计方法。该方法结合了单查询（Single-query）时空推理架构与基于不确定性的自动标注（Auto-labeling）系统，在 EgoBody3M 基准测试中实现了 SOTA 性能，推理延迟仅为 0.8ms。

TL;DR

Meta 与 KAUST 的研究团队推出了 EgoPoseFormer v2 (EPFv2)，这是一款为 AR/VR 头显量身定制的自我中心人体动作估计框架。它通过改进的 Transformer 架构和高达 70M 帧的自动标注数据，大幅刷新了 EgoBody3M 的技术指标，将误差降低至 4cm 级别，并在 A100 GPU 上实现了 0.8ms 的极速推理。

背景定位

在元宇宙交互中，让虚拟化身（Avatar）精准同步用户的动作是刚需。然而，头显摄像头拍到的画面往往是“缺胳膊少腿”的（视角受限、频繁自遮挡）。EPFv2 的出现，标志着该领域从“依赖复杂算子和有限数据集”转向了“硬件友好架构 + 大规模半监督学习”的新阶段。

痛点深挖：为什么前作在移动端不够好？

计算瓶颈：前代模型（EPFv1）为每个关节分配一个 Query，预测 20 个关节就要跑 20 次，计算量随关节数线性增长，效率低下。
硬件不友好：EPFv1 核心依赖的可变形注意力（Deformable Attention）在移动端算力芯片上存在大量随机内存读取，难以跑满性能。
时序缺失：单帧回归方法容易产生视觉“抖动”，在手腕等高速运动部位表现尤为明显。

核心方法论：EPFv2 的三大进化

1. 单整体查询 (Holistic Pose Query)

不再为每个关节单独设置 Query。EPFv2 使用一个单一的、包含用户身份和头显位姿信息的 Query 来聚合全身特征。这种设计使计算成本与预测的关节数量彻底解耦，不仅提高了效率，还增强了预测物理一致性。

2. 硬件友好的 3D 空间细化

作者抛弃了复杂的 Deformable Attention，发明了 Conditioned Multi-view Cross-attention。它先将粗略预测的 3D 点投影到 2D 图像平面作为“锚点”，并将其坐标嵌入为 Query 的条件。这样，标准的 Cross-attention 就能精准捕捉空间特征，同时保证了底层算子的跨平台通用性。

模型架构图

3. 因果时间注意力 (Causal Temporal Attention)

通过引入时序维度，模型能够利用“历史记忆”补全当前帧下被遮挡的部位（如脚部、背后手部），极大减少了动作跳变带来的不真实感。

自动标注系统（ALS）：数据规模的暴力美学

高质量 3D 动捕标签在野外场景极难获取。EPFv2 采用 Teacher-Student 模式：

Teacher: 强力的全尺寸模型（如基于 DINOv3），预先在带标签数据上训练。
Student: 轻量化实时模型（ResNet-18/MobileNetV4）。
不确定性蒸馏: 教师模型不仅教学生“位姿是什么”，还教学生“我对这个预测有多大信心”，这让学生模型能自动忽略低质量的伪标签噪声。

自动标注系统流程图

实验战绩

在 EgoBody3M 大规模数据集上，EPFv2 展现了统治级的表现：

高精度：整体 MPJPE 仅 4.02 cm，比 EgoBody3M 原生方法提升 22.4%。
丝滑稳定：时间速度误差（MPJVE）相比 EPFv1 降低了 51.7%，视觉上几乎看不到抖动。
数据红利：在加入 7000 万帧无标签数据后，即便是 MobileNetv4 这样的小模型也能获得显著的精度跃迁。

实验结果对比图

总结与洞察

EPFv2 的成功在于其对“工程落地”和“学术深度”的完美平衡。它告诉我们，在 AR/VR 领域，复杂的几何推导可以转化为 Transformer 的条件编码，而数据稀缺问题可以通过结构化的半监督学习来突破。

局限性：尽管目前在推理侧非常高效，但对于极端的身体截断或多人交互场景，仍有进一步优化的空间。未来，将该框架扩展到多模态（结合 IMU）可能是下一个突破点。

Find Similar Papers

Try Our Examples

查找最近一年在自我中心人体姿态估计领域中，通过扩展无标签数据集来提升模型泛化能力的最新论文。
哪篇论文最早在 Transformer 架构中引入了 Conditioned Query 概念，本文在单查询人体表征方面做了哪些具体改进？
探索基于 Transformer 的实时姿态估计方法在感知交互、机器人遥操作或其他头戴式设备任务中的应用潜力。

Contents

[ECCV 2024] EgoPoseFormer v2：AR/VR 视角下的高性能实时全身动捕新标杆

1. TL;DR

2. 背景定位

3. 痛点深挖：为什么前作在移动端不够好？

4. 核心方法论：EPFv2 的三大进化

4.1. 1. 单整体查询 (Holistic Pose Query)

4.2. 2. 硬件友好的 3D 空间细化

4.3. 3. 因果时间注意力 (Causal Temporal Attention)

5. 自动标注系统（ALS）：数据规模的暴力美学

6. 实验战绩

7. 总结与洞察