WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] THFM:视频扩散模型变身 4D 感知通才,合成数据训练即胜过 SOTA
Summary
Problem
Method
Results
Takeaways
Abstract

本文推出了 THFM,这是一个基于预训练视频扩散模型(Text-to-Video Diffusion)构建的统一视频感知基础模型。它通过单一架构同时处理密集型任务(深度、法线、分割)和稀疏型任务(2D/3D 关键点),在仅使用合成数据训练的情况下,在多个 4D 人体感知基准测试中达到或超越了专门定制的 SOTA 模型。

TL;DR

来自 Google DeepMind 的研究团队推出了 THFM (Unified Video Foundation Model)。它跳出了“一个任务一个模型”的传统怪圈,将预训练的文本-视频生成模型(WAN)改造成了一个全能感知器。只需给出一个文本指令(如 "surface normal"),模型就能在一次前向计算中输出整段视频的深度、法线、分割掩码,甚至是 3D 人体骨架。最令人惊讶的是:它完全在合成数据上训练,却在真实世界评估中碾压了许多用真实数据训练的专用模型。

背景定位:从“生成”到“感知”的华丽转身

在 CV 领域,我们习惯了用特定的 ResNet 或 ViT 去跑特定的任务。然而,性能强大的视频扩散模型(Video Diffusion Models, VDM)为了生成逼真的视频,其实早已在潜意识里学习到了世界的几何结构、光影变化和物体运动规律。

THFM 的核心直觉在于:如果你能生成一段完美的人体运动视频,那你必然已经感知到了人体的骨架和深度。作者的目标就是将这些隐性知识显性化

痛点深挖:通用视频感知的难题

  1. 时序一致性:单帧模型处理视频时,帧与帧之间往往会像闪烁的霓虹灯一样不连贯。
  2. 数据匮乏:真实世界中很难获得带精准 3D 标注或深度图的视频。
  3. 模态异构:如何让同一个网络既能输出像素级的图片(密集任务),又能输出几十个坐标点(稀疏任务)?

核心架构:模型结构详解

THFM 基于 DiT (Diffusion Transformer) 架构。它抛弃了扩散模型昂贵的迭代去噪过程,将其简化为单步确定性推理(Single-step Inference)

模型架构图

1. 统一的 RGB 环境空间 (Ambient Space)

对于密集感知任务(深度、法线、分割),THFM 将它们全部规范化到 RGB 图像空间。这意味着模型像在“画”出一张法线图或深度图。作者发现,直接在解码后的图像像素级(Ambient Space)施加监督,比在压缩的潜空间(Latent Space)训练效果要精细得多,尤其是在处理头发和衣物褶皱等细节时。

2. 用于稀疏任务的可学习 Token

为了解决 2D/3D 关键点预测,THFM 引入了额外的 learnable tokens。这些 Token 像导游一样,通过 3D RoPE(旋转位置编码)感知视频的时空分布,最后经过一个简单的 MLP 喷射出关键点坐标。这种设计完美兼容了 DiT 的原生注意力机制。

实验战绩:合成数据的逆袭

THFM 的训练完全依赖于用 Blender 制作的 20,000 段合成视频(利用 RenderPeople 资产)。

实验结果对比

Hi4DGoliath 等严格的真实世界基准测试中:

  • 法线估计:误差(Median Error)仅 8.96°,优于参数量巨大的 Sapiens-2B。
  • 3D 姿态估计:在 H3.6M 数据集上,MPJPE 达到 38.3mm,创下新纪录。
  • 时序平滑度:由于原生继承了 VDM 的时序建模能力,其产生的深度图和关键点序列在视觉上极其稳定。

深度洞察:突现的泛化能力 (Emergent Behaviors)

这是本文最“硬核”的部分:

  • 分类跨越:模型训练时只看过了合成的“人类”,但在测试时,它能完美识别出动画片里的拟人角色,甚至是穿衣服的猴子和猫。这说明视频扩散模型学习到的是一种通用的几何逻辑
  • 多目标泛化:训练数据全是单人,但测试时面对多人滑雪场景,模型能自动适应,表现出极强的鲁棒性。

需替换为泛化展示图

总结与未来展望

THFM 标志着视频理解进入了一个新阶段:生成即感知。它证明了利用合成数据在大模型时代并非“走捷径”,而是通过提供无限的高质量监督信号,去激活预训练模型中沉睡的感知潜力。

尽管目前在一个模型里强行塞进所有任务(Dense + Sparse)会导致轻微的性能下降(可能是任务冲突),但这为未来构建真正的“视觉通用智能(Generalist Vision System)”指明了方向。

Find Similar Papers

Try Our Examples

  • 查找最近其他利用预训练生成模型(如 Stable Diffusion 或 Video Diffusion)执行多任务视觉感知(Multitask Perception)的研究论文。
  • 哪篇论文最早提出了“将扩散模型作为感知任务的先验(Repurposing Diffusion Models)”,THFM 在处理稀疏 Token 方面与其有何改进?
  • 调研目前将基于合成数据(Synthetic Data)训练的视频感知模型应用到真实世界多目标追踪(MOT)或动物行为分析中的相关研究。
Contents
[CVPR 2026] THFM:视频扩散模型变身 4D 感知通才,合成数据训练即胜过 SOTA
1. TL;DR
2. 背景定位:从“生成”到“感知”的华丽转身
3. 痛点深挖:通用视频感知的难题
4. 核心架构:模型结构详解
4.1. 1. 统一的 RGB 环境空间 (Ambient Space)
4.2. 2. 用于稀疏任务的可学习 Token
5. 实验战绩:合成数据的逆袭
6. 深度洞察:突现的泛化能力 (Emergent Behaviors)
7. 总结与未来展望