Structure-Aware Fine-Grained Gaussian Splatting for Expressive Avatar Reconstruction

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Structure-Aware Fine-Grained Gaussian Splatting for Expressive Avatar Reconstruction

[CVPR 2026 预演] SFGS：结构感知的高逼真 3D 数字人重建，实时驱动指尖艺术

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 SFGS（Structure-aware Fine-grained Gaussian Splatting），一种用于从单目视频重建高逼真、可驱动 3D 重写人体数字分身的方法。该方法基于 3D Gaussian Splatting 框架，通过引入结构感知模块和细粒度手部重建，在保持 30 FPS 实时渲染的同时，显著提升了手部动作和面部表情的精度。

TL;DR

在元宇宙与增强现实（AR）的浪潮下，如何从一段普通的单目视频中提取出一个“栩栩如生”且“可实时驱动”的数字人？今日分享的论文 SFGS (Structure-aware Fine-grained Gaussian Splatting) 给出了目前的优解。它不仅解决了人体运动的连贯性，更通过结构感知（Structure-aware）机制，攻克了数字人重建中“最难啃的骨头”——手部细节与面部表情，并成功在 RTX 4090 上跑出了 30 FPS 的实时性能。

背景定位：从神经辐射场（NeRF）到高斯泼溅（3DGS）

早期的人体重建方法（如 Vid2Avatar, NeuMan）多基于 NeRF。尽管效果尚可，但其极慢的渲染速度（通常 1 FPS 以下）限制了交互可能。3D Gaussian Splatting (3DGS) 的出现改变了游戏规则。然而，现有的 Human-3DGS 方法（如 HUGS, ExAvatar）在处理手部这种非刚性、高自由度的微小部件时，经常出现“手指融合”或“肢体闪烁”的惨状。SFGS 的核心动机便是：如何在 3DGS 框架下，利用人体解剖学结构先验，实现更高精度的骨架绑定与形变。

核心痛点：为什么手部总是“糊”的？

拓扑建模不足：SMPL-X 虽然提供了手部参数，但由于全局优化的局限，手部网格往往过于粗糙。
时空不一致性：单帧重建容易导致视频播放时产生明显的闪烁（Flicker）。
非刚性变形难点：衣服褶皱、肌肉隆起等依赖姿态的变化，难以用简单的线性混合剥离（LBS）表达。

技术深挖：SFGS 的三大必杀技

1. Triplane-Hexplane 联合建模

作者不满足于只建模空间特征，引入了 Hexplane（包含 XY, XZ, XT, YZ, YT, ZT 六个平面）来捕捉时间维度的动态特征。通过一个自适应的 Fusion Module，模型能根据像素点的动态程度，自动调节静态 Triplane 和动态 Hexplane 的权重，大幅缓解了快速运动下的画面抖动。

2. 结构感知偏移预测 (Structure-Aware Offset)

这是本文的灵魂。SFGS 为每个 Gaussian 点分配一个“主导关节”（Dominant Joint）。在预测 Gaussian 的位置和缩放偏移时，不仅参考空间特征，还输入了该关节的 6D 旋转和位置向量。这种局部坐标系敏感的设计，让模型能理解物体的动作意图，从而产生更精准的皮肤拉伸和颜色变化（如握拳时皮肤颜色的改变）。

模型架构图 图 1：SFGS 的核心 pipeline，展示了从 SMPL-X 采样到 Hexplane 特征融合，再到结构感知预测的全过程。

3. 基于 MANO 的残差修正

针对手部，SFGS 引入了专门用于手部建模的 MANO 模板。通过计算 MANO 模型与 SMPL-X 之间的几何残差（Residual），并用一个小型的 MLP 根据当前手势动态修正这些残差，从而补偿了原有参数模型在精度上的先天不足。

实验战果：更准、更快、更自然

在与 SOTA 方法 ExAvatar 的对比中，SFGS 展现了压倒性的细节优势。从定性结果看，SFGS 渲染出的手指根根分明，且具有正确的阴影投射；从定量数据看，PSNR 在 Bike 等复杂序列上提升了近 6dB。

实验结果对比 图 2：在 X-Humans 数据集上的对比，SFGS 在手部阴影和边缘清晰度上明显优于基线。

更令人惊喜的是其效率。表 7 显示，SFGS 是目前为数不多能突破 30 FPS 大关的高精度人体重建方案，这意味着将其部署在 VR 环境中进行实时驱动已成为可能。

总结与洞察：走向通用数字人

SFGS 证明了 “结构化先验 + 显式点云渲染” 是当前动态数字人方案的黄金搭档。它不仅解决了局部细节丢失的问题，还通过 Hexplane 平衡了流畅度。

局限性：尽管 SFGS 在紧身服装上表现卓越，但对于极其肥大的衣物（如长裙、斗篷），由于初始采样点的密度受限于人体表皮网格，可能会出现局部模糊。未来的研究可能会引入动态点云增殖技术，以应对这些非人体的外部几何形态。

正如作者在结论中所述，SFGS 为从单目视频构建可交互、高真实感的数字分身铺平了道路，或许很快，我们只需要用手机自拍一段视频，就能生成一个精细到指尖的元宇宙化身。

Find Similar Papers

Try Our Examples

查找最近其他结合 3D Gaussian Splatting 与 SMPL-X 模型进行人体表情和手部细节增强的论文。
哪篇论文最早提出了 Hexplane 结构用于动态场景表示，本项目是如何在人体肢体建模中改进其 fusion 机制的？
针对大体量服装（Loose garment）和极端体型，有哪些研究提出了比 SFGS 更具自适应性的 Gaussian 点云加密或采样策略？

Contents

[CVPR 2026 预演] SFGS：结构感知的高逼真 3D 数字人重建，实时驱动指尖艺术

1. TL;DR

2. 背景定位：从神经辐射场（NeRF）到高斯泼溅（3DGS）

3. 核心痛点：为什么手部总是“糊”的？

4. 技术深挖：SFGS 的三大必杀技

4.1. 1. Triplane-Hexplane 联合建模

4.2. 2. 结构感知偏移预测 (Structure-Aware Offset)

4.3. 3. 基于 MANO 的残差修正

5. 实验战果：更准、更快、更自然

6. 总结与洞察：走向通用数字人