本文提出了 Track4World,这是一个前馈式(Feedforward)视觉大模型,旨在实现对单目视频中所有像素的高效、密集 3D 轨迹跟踪。该方法基于 VGGT 风格的 Vision Transformer 提取全局 3D 场景表示,通过创新的 2D-to-3D 相关性机制,在世界坐标系下实现了 SOTA 级别的像素级 4D 重建性能。
TL;DR
在计算机视觉领域,从单目视频中恢复所有像素的 3D 轨迹被视为“圣杯”任务之一。传统的 3D 跟踪要么太稀疏、要么由于 3D K-NN 搜索的复杂度而极其缓慢。Track4World 彻底改变了这一现状:它通过一种高效的 2D-to-3D Correlation 机制,实现了对视频中每一个像素在前馈过程中的密集 3D 跟踪,且支持在统一的世界坐标系(World-centric)中运行。
痛点深挖:为什么密集的 3D 跟踪这么难?
要从平面视频推断 4D 动态(空间 3D + 时间 1D),主要面临三大瓶颈:
- 计算复杂度爆炸:传统的 3D 相关性计算需要进行 3D 空间的 K 近邻搜索,复杂度为 或 。面对百万像素级的全图跟踪,这种方法会瞬间撑爆显存。
- 新老像素交替:现有方法大多只能“跟死”第一帧的点(Point tracking),对于视频中间新出现的物体(如侧面转入)往往束手无策。
- 数据极度饥渴:高质量的 3D 轨迹标注极难获取,纯 3D 训练的模型往往在真实世界(In-the-wild)视频中泛化性极差。
核心逻辑:从 2D 提升至 3D 的“升维策略”
Track4World 的核心直觉是:2D 像素匹配在图像域已经非常成熟且高效,为什么不先做 2D 匹配,再将其映射回 3D 空间进行细化?
1. 整体架构 (Global Scene Representation)
模型首先使用一个强化版的 ViT(基于 VGGT/Pi3)提取每一帧的几何特征、点云和相机位姿。这是后续所有运动估计的基础。
图 1: Track4World 总体流程,从全局表示提取到 2D-3D 联合流估计及其轨迹融合
2. 2D-to-3D Correlation 模块
这是本文最精妙的设计。它不再构建昂贵的 3D 空间体积,而是:
- 在图像平面执行迭代式的 2D 细化。
- 利用 2D 位移(Flow)作为索引,从预测的点云图中提取(Lift)对应的 3D 坐标变化。
- 通过一个轻量级的 3D Head 计算残差,最终合成高精度的 3D 场景流。
- 优势:复杂度降至线性的 ,且由于模块结构对齐,可以直接用海量的 2D 光流数据进行预训练!
图 2: Track4World 的 2D 提升机制与传统 3D 匹配在效率上的对比
实验战绩:全方位的 SOTA
Track4World 在多个任务上展现了统治力:
- 场景流估计:在 Kubric-3D 和 KITTI 上超越了 ZeroMSF 等强力基线。
- 3D 跟踪:在世界坐标系下的跟踪精度(APD)远超 STV2,且能处理 STV2 无法应对的密集长序列(STV2 在密集模式下会 OOM)。
表 2: 在 PointOdyssey 和 DriveTrack 等 3D 跟踪数据集上的定量对比
密集轨迹的可视化
如下所示,模型能够产生平滑且物理一致的轨迹。尤其是在世界坐标系下,它能成功解耦相机运动,让背景保持静止,仅保留物体的真实 3D 运动轨迹。
图 4: 真实视频中的密集轨迹跟踪效果。第一行:2D/3D 场景流;第二行:相机坐标系/世界坐标系下的全像素轨迹
深度洞察与总结
Track4World 的成功给了我们两个重要启示:
- Inductive Bias 的权衡:与其追求纯粹的 3D 处理,不如利用 2D 图像域的先验知识来加速 3D 任务。
- 前馈即未来:大规模预训练的前馈模型(Foundation Model)正在逐步取代需要逐视频优化的方法,这对于自动驾驶等实时性要求极高的场景至关重要。
局限性:尽管提升了效率,但对于极端剧烈的拓扑变化(如物体撕裂或融合)以及遮挡时间极长的区域,模型仍面临挑战。未来的方向可能会引入更强的物理引擎先验或生成式扩散模型来填补被遮挡的轨迹。
Takeaway:Track4World 为全场景 4D 理解树立了新的标杆,它不仅快,而且能“看清”视频中流动的每一个像素。
