E-3DPSM: A State Machine for Event-Based Egocentric 3D Human Pose Estimation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

E-3DPSM: A State Machine for Event-Based Egocentric 3D Human Pose Estimation

[CVPR 2026] E-3DPSM：打破抖动与漂移，事件驱动的第一视角 3D 姿态估计新高度

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 E-3DPSM，一种基于事件相机的第一视角 3D 人体姿态估计连续状态机。通过将人体运动建模为与事件流同步的连续状态演化，并在两个主流数据集上实现了 SOTA 性能，精度提升达 19% 且时间稳定性提升 2.7 倍。

TL;DR

在增强现实（AR/VR）领域，佩戴式设备的 3D 人体姿态估计一直是核心痛点。本文提出的 E-3DPSM 摒弃了传统逐帧处理的逻辑，首次引入连续状态机概念，利用事件相机（Event Camera）的高频特性，结合 State Space Model (SSM) 和可学习卡尔曼融合，实现了高达 80Hz 的超平滑、高精度 3D 姿态追踪。

痛点深挖：为什么第一视角 3D 姿态估计这么难？

第一视角（Egocentric）姿态估计面临三大挑战：

极度自遮挡：摄像头位于头端，下肢经常被躯干遮挡。
剧烈运动模糊：快速转头或奔跑时，传统 RGB 相机产生的 Motion Blur 会让特征匹配失效。
计算冗余与延迟：为了平滑姿态，传统方法常需复杂的后处理（如离线 Kalman），难以满足 VR 交互实时性。

此前最强的 EventEgo3D 虽然引入了事件相机，但其本质上仍是将事件堆叠成“伪图像”，用传统的 CNN/Transformer 搬砖公式去解，忽略了事件流本质上的连续变化特性。

核心直觉：从“看图像”到“演化状态”

作者认为，既然事件相机捕捉的是“变化（Changes）”，那么模型也应该进化为状态机。

1. 时空姿态编码器 (SPEM)

SPEM 不仅仅提取空间特征，它通过 S5 状态空间层 (SSM) 维护了一个内部潜状态 (Latent State)。即便在某些时刻事件稀疏（如肢体静止），SSM 也能通过历史累积的运动信息实现“逻辑补全”。

模型架构图

2. 增量回归与可学习融合 (PRM)

这是本文最惊艳的设计：

Direct Pose (锚点)：预测绝对坐标，防止整体跑偏。
Delta Pose (细节)：预测帧间微小的位移量。事件相机对这种位移极其敏感，这正是其强项。
Neural Kalman Filter：不再使用人为设定的噪声参数，而是通过网络自动学习：什么时候该听 Direct Pose 的，什么时候该信任 Delta Pose。

实验结果：全方位的霸榜

在 EE3D-R 和 EE3D-W 两个高难度数据集上，E-3DPSM 展现了压倒性的优势。特别是在遮挡严重的关节（如踝关节、手腕），精度提升尤为明显。

实验结果对比

关键战绩：

稳定性：时间平滑度（eSmooth）提升了 2.7 倍。
抗遮挡：在仅针对遮挡关节的测试中，MPJPE 误差大幅下降。
实时性：即便在移动端 NVIDIA 3050Ti 上也能跑到 52Hz。

结论与展望：走向全天候沉浸式交互

E-3DPSM 成功证明了：事件相机 + 状态空间模型 才是动态视觉任务的“天作之合”。它不仅解决了传统方法在暗光、高速运动下的无力感，更通过端到端的卡尔曼融合，消除了暴力堆叠帧带来的漂移顽疾。

尽管目前对于极其极端的自遮挡（如完全趴在地上的动作）仍有改进空间，但其展示的底层架构逻辑——将视觉看作连续流而非切片集合——无疑将启发未来更多的感知任务。

注：本文为学术前沿解读，源代码与预训练模型已由原作者公开于项目主页。

Find Similar Papers

Try Our Examples

查找其他最近将状态空间模型 (State Space Models) 应用于事件相机 (Event Camera) 视频理解或运动追踪的学术论文。
哪篇论文最早在第一视角人体姿态估计中引入了可变形注意力机制 (Deformable Attention)，本文在处理鱼眼镜头畸变时做了哪些改进？
调研当前可微分卡尔曼滤波器 (Differentiable Kalman Filter) 在深度学习姿态估计任务中解决长序列漂移问题的最新应用研究。

Contents

[CVPR 2026] E-3DPSM：打破抖动与漂移，事件驱动的第一视角 3D 姿态估计新高度

1. TL;DR

2. 痛点深挖：为什么第一视角 3D 姿态估计这么难？

3. 核心直觉：从“看图像”到“演化状态”

3.1. 1. 时空姿态编码器 (SPEM)

3.2. 2. 增量回归与可学习融合 (PRM)

4. 实验结果：全方位的霸榜

4.1. 关键战绩：

5. 结论与展望：走向全天候沉浸式交互