本文提出了 PackUV,一种将 3D Gaussian Splatting (3DGS) 属性映射到结构化 2D UV 图谱的 4D 容积视频表征方法,并配套了 PackUV-GS 拟合算法。该方法实现了与标准视频编解码器(如 HEVC, FFV1)的无缝兼容,支持长达 30 分钟的高质容积视频流式传输。
TL;DR
传统的容积视频(Volumetric Video)重建方法虽然效果惊艳,但在面对“长视频、大运动、难传输”这三座大山时力不从心。布朗大学与 Meta 等机构联合提出的 PackUV 给出了一套优雅的解决方案:通过将非结构化的 3D Gaussian 属性打包成结构化的 2D UV Atlas(图谱),使高达 4D 的容积内容能够像普通 MP4 视频一样进行压缩、存储和流式传输,同时保持了 SOTA 级别的渲染精度。
背景定位:从“点云堆砌”到“像素化思考”
3D Gaussian Splatting (3DGS) 近年来统治了神经渲染领域,但在 4D(动态场景)应用中,它始终面临一个尴尬的局面:属性是散乱的。为了压缩这些属性,前人往往需要开发专门的压缩算法(如量化、剪枝),但这与现有的视频工业标准(HEVC, AVC)完全脱节。
PackUV 的核心直觉是:如果能把 3D 空间中的 Gaussian 均匀地映射到 2D 画布上,那么我们就能直接白嫖过去三十年视频编码技术(如帧间预测、光流补偿)的所有红利。
痛点深挖:为什么长序列 4DGS 这么难?
- 显存灾难:随着视频时长增加,Gaussian 的数量呈指数级增长。
- 时间漂移 (Temporal Drift):在长时间序列中,物体的运动会导致 Gaussian 逐渐“失准”,产生重影。
- 遮挡与新物体进入:当一个新模特走进镜头,传统的形变场(Deformation Field)方法往往会因为无法预测未见过的几何结构而崩溃。
核心方法论:PackUV-GS 架构解析
1. 金字塔 UV 图谱 (Pyramid UV Atlas)
即便将 3D 映射到 2D,直接存储多层 UV 图也会产生巨大的空间浪费。作者观察到,靠近表面的层(Layer 0)最致密,而深层(处理遮挡的层)极其稀疏。因此,他们设计了一种递归细分的四叉树布局,将多层不同分辨率的 UV 图打包成一个紧凑的 Atlas,空间利用率高达 88.5%。

2. 光流引导的关键帧与标注系统
为了解决运动一致性问题,PackUV-GS 并不采用脆弱的神经网络形变,而是引入了**关键帧(Keyframing)**机制。
- 动态/静态分离:利用 RAFT 计算光流,识别出画面中的动态区域。
- 梯度冻结:在反向传播时,冻结静态区域 Gaussian 的参数,仅优化动态部分。这不仅加速了训练,更保证了背景在长达数分钟的视频中绝不“乱抖”。
3. 低比特量化训练 (LPO)
为了配合常规视频 8-bit 的特性,PackUV-GS 在训练阶段就加入了量化感知。位置属性采用 16-bit(后拆分为两个 8-bit 通道),颜色、缩放等属性统统 8-bit。这使得最终生成的每一个 Atlas 都可以直接视为一帧普通的 8-bit 图像,完美适配 FFmpeg 链路。
实验战绩:史上最大的 4D 数据集 PackUV-2B
为了验证该方法在极限场景下的表现,作者发布了 PackUV-2B 数据集:包含 100 个序列,总计超过 20 亿帧 数据,使用了多达 88 个同步摄像头。

从定量结果看,PackUV-GS 在各项指标上均处于霸榜地位。尤其是在处理“有人进入房间”这种突发掩模改变的情况时,其 PSNR 相比于传统的 3DGStream 提升了近 4dB。在存储效率上,PackUV 利用 FFV1 编码实现的 10MB 存储比率,比同类方法缩减了近 20 倍。
深度洞察:为什么这种做法有效?
PackUV 的成功证明了 Inductive Bias(归纳偏置) 的重要性。它并没有试图用一个复杂的网络去学习运动规律,而是通过 UV 映射将 3D 物理世界的连续性,转化为了 2D 图像域的空间局部性(Spatial Locality)。当 Gaussian 被整齐地排列在像素点上时,传统的卷积算子和视频编码器才能真正发挥其强大的去冗余能力。
局限性与展望
尽管 PackUV 实现了 4D 视频的“标准化”,但目前 UV 映射的投影方式(球面投影)在面对极端复杂的重叠物体(如密集的森林或毛发)时,仍可能存在层数不足的问题。未来,如何探索非球面的、自适应的 UV 展开,或许是通往更写实 4D 模拟的关键。
总结:PackUV 填补了 4D 场景重建与传统流媒体协议之间的鸿沟,是容积视频走向产业化、可分发化的里程碑式工作。
