WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026 预演] SFGS:结构感知的高逼真 3D 数字人重建,实时驱动指尖艺术
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 SFGS(Structure-aware Fine-grained Gaussian Splatting),一种用于从单目视频重建高逼真、可驱动 3D 重写人体数字分身的方法。该方法基于 3D Gaussian Splatting 框架,通过引入结构感知模块和细粒度手部重建,在保持 30 FPS 实时渲染的同时,显著提升了手部动作和面部表情的精度。

TL;DR

在元宇宙与增强现实(AR)的浪潮下,如何从一段普通的单目视频中提取出一个“栩栩如生”且“可实时驱动”的数字人?今日分享的论文 SFGS (Structure-aware Fine-grained Gaussian Splatting) 给出了目前的优解。它不仅解决了人体运动的连贯性,更通过结构感知(Structure-aware)机制,攻克了数字人重建中“最难啃的骨头”——手部细节与面部表情,并成功在 RTX 4090 上跑出了 30 FPS 的实时性能。

背景定位:从神经辐射场(NeRF)到高斯泼溅(3DGS)

早期的人体重建方法(如 Vid2Avatar, NeuMan)多基于 NeRF。尽管效果尚可,但其极慢的渲染速度(通常 1 FPS 以下)限制了交互可能。3D Gaussian Splatting (3DGS) 的出现改变了游戏规则。然而,现有的 Human-3DGS 方法(如 HUGS, ExAvatar)在处理手部这种非刚性、高自由度的微小部件时,经常出现“手指融合”或“肢体闪烁”的惨状。SFGS 的核心动机便是:如何在 3DGS 框架下,利用人体解剖学结构先验,实现更高精度的骨架绑定与形变。

核心痛点:为什么手部总是“糊”的?

  1. 拓扑建模不足:SMPL-X 虽然提供了手部参数,但由于全局优化的局限,手部网格往往过于粗糙。
  2. 时空不一致性:单帧重建容易导致视频播放时产生明显的闪烁(Flicker)。
  3. 非刚性变形难点:衣服褶皱、肌肉隆起等依赖姿态的变化,难以用简单的线性混合剥离(LBS)表达。

技术深挖:SFGS 的三大必杀技

1. Triplane-Hexplane 联合建模

作者不满足于只建模空间特征,引入了 Hexplane(包含 XY, XZ, XT, YZ, YT, ZT 六个平面)来捕捉时间维度的动态特征。通过一个自适应的 Fusion Module,模型能根据像素点的动态程度,自动调节静态 Triplane 和动态 Hexplane 的权重,大幅缓解了快速运动下的画面抖动。

2. 结构感知偏移预测 (Structure-Aware Offset)

这是本文的灵魂。SFGS 为每个 Gaussian 点分配一个“主导关节”(Dominant Joint)。在预测 Gaussian 的位置和缩放偏移时,不仅参考空间特征,还输入了该关节的 6D 旋转和位置向量。这种局部坐标系敏感的设计,让模型能理解物体的动作意图,从而产生更精准的皮肤拉伸和颜色变化(如握拳时皮肤颜色的改变)。

模型架构图 图 1:SFGS 的核心 pipeline,展示了从 SMPL-X 采样到 Hexplane 特征融合,再到结构感知预测的全过程。

3. 基于 MANO 的残差修正

针对手部,SFGS 引入了专门用于手部建模的 MANO 模板。通过计算 MANO 模型与 SMPL-X 之间的几何残差(Residual),并用一个小型的 MLP 根据当前手势动态修正这些残差,从而补偿了原有参数模型在精度上的先天不足。

实验战果:更准、更快、更自然

在与 SOTA 方法 ExAvatar 的对比中,SFGS 展现了压倒性的细节优势。从定性结果看,SFGS 渲染出的手指根根分明,且具有正确的阴影投射;从定量数据看,PSNR 在 Bike 等复杂序列上提升了近 6dB。

实验结果对比 图 2:在 X-Humans 数据集上的对比,SFGS 在手部阴影和边缘清晰度上明显优于基线。

更令人惊喜的是其效率。表 7 显示,SFGS 是目前为数不多能突破 30 FPS 大关的高精度人体重建方案,这意味着将其部署在 VR 环境中进行实时驱动已成为可能。

总结与洞察:走向通用数字人

SFGS 证明了 “结构化先验 + 显式点云渲染” 是当前动态数字人方案的黄金搭档。它不仅解决了局部细节丢失的问题,还通过 Hexplane 平衡了流畅度。

局限性:尽管 SFGS 在紧身服装上表现卓越,但对于极其肥大的衣物(如长裙、斗篷),由于初始采样点的密度受限于人体表皮网格,可能会出现局部模糊。未来的研究可能会引入动态点云增殖技术,以应对这些非人体的外部几何形态。

正如作者在结论中所述,SFGS 为从单目视频构建可交互、高真实感的数字分身铺平了道路,或许很快,我们只需要用手机自拍一段视频,就能生成一个精细到指尖的元宇宙化身。

Find Similar Papers

Try Our Examples

  • 查找最近其他结合 3D Gaussian Splatting 与 SMPL-X 模型进行人体表情和手部细节增强的论文。
  • 哪篇论文最早提出了 Hexplane 结构用于动态场景表示,本项目是如何在人体肢体建模中改进其 fusion 机制的?
  • 针对大体量服装(Loose garment)和极端体型,有哪些研究提出了比 SFGS 更具自适应性的 Gaussian 点云加密或采样策略?
Contents
[CVPR 2026 预演] SFGS:结构感知的高逼真 3D 数字人重建,实时驱动指尖艺术
1. TL;DR
2. 背景定位:从神经辐射场(NeRF)到高斯泼溅(3DGS)
3. 核心痛点:为什么手部总是“糊”的?
4. 技术深挖:SFGS 的三大必杀技
4.1. 1. Triplane-Hexplane 联合建模
4.2. 2. 结构感知偏移预测 (Structure-Aware Offset)
4.3. 3. 基于 MANO 的残差修正
5. 实验战果:更准、更快、更自然
6. 总结与洞察:走向通用数字人