CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

[CVPR 2026] CT-1：打破文本与像素的壁垒，用空间推理重塑相机控制视频生成

总结

问题

方法

结果

要点

摘要

本文提出了 CT-1 (Camera Transformer 1)，这是一种新型的视觉-语言-相机 (VLC) 模型，旨在将空间推理能力转移到视频生成任务中。通过结合 Diffusion Transformer 和基于小波的正则化损失 (Wavelet-based Regularization Loss)，CT-1 能够根据参考图像和文本指令精准预测相机轨迹，并在 CameraBench 上实现了 25.7% 的相机控制准確率提升。

TL;DR

在视频生成领域，如何让相机像专业摄影师一样按照导演意图（文本）和转场需求（场景）精准移动？复旦大学与腾讯等团队提出的 CT-1 (Camera Transformer 1) 给出了答案。它不仅是一个视频生成模型，更是一个具备“空间推理”能力的视觉-语言-相机 (VLC) 专家，能将模糊的指令转化为精确的 3D 轨迹，使控制精度大幅提升 25.7%。

痛点深挖：导演意图与参数配置的断层

目前的相机控制方法存在两个极端：

语义模糊性：像 Sora 或 Wan2.1 这种模型虽然支持文本控制，但在处理“向左平移并同时前推”这种复合动作时，常常表现得像“听不懂话”，运动轨迹随机且扭曲。
人工依赖：像 CameraCtrl 需要用户手动输入精确的相机外参矩阵。对于普通用户来说，这几乎是不可能完成的任务。

CT-1 的核心直觉：相机运动不应只是像素的平移，它必须基于对场景深度、物体布局的空间推理。

核心架构：Diffusion Transformer + 小波域正则化

CT-1 的设计极为精巧，分为语义嵌入、分布建模和视频生成三个阶段。

1. 视觉-语言双引擎

CT-1 采用了双支路视觉编码器（DINOv2 + SigLIP）来兼顾局部细节与全局语义。最关键的设计是引入了一个特殊的 <CAM> token，它在 LLaMA-2 骨干网络中吸收视觉和文本信息，作为后续轨迹生成的“精神支柱”。

2. 轨迹建模：为什么是 Diffusion？

传统的回归模型倾向于输出“平均轨迹”，导致运动死板。CT-1 意识到：同一条指令在不同场景下对应无数种合理的运动。因此，它使用 Diffusion Transformer (DiT) 来学习相机轨迹的概率分布，确保生成的轨迹既符合物理逻辑又具有多样性。

3. WavReg：频域的降维打击

为了防止相机运动出现抖动（高频噪声），作者提出了基于小波的正则化损失 (WavReg)。

低频部分：捕捉全局运动趋势（如：相机正在向前走）。
高频部分：捕捉局部微动或干扰。通过在训练中给予低频分量更大的权重系数，模型被诱导学习更平滑、更具结构性的轨迹。

模型架构图 图 1：CT-1 整体架构：从多模态输入到 DiT 轨迹生成，再到视频合成的流水线。

实验与结果：全方位的跨越

研发团队构建了 CT-200K 数据集，包含 4700 万帧视频，涵盖了从日常生活到复杂驾驶场景的丰富数据。

1. 相机控制大胜

在 CameraBench100 测试中，CT-1 的平均成功率达到了 81.6%。对比目前最强的开源模型 Wan2.2，CT-1 在处理“复杂运动”分类下展现出断代式的领先优势。

2. 消融实验证明 WavReg 的有效性

实验表明，当 β（小波正则化权重）设定为 0.1 时，模型的成像质量和运动平滑度达到最优平衡。这验证了在物理轨迹建模中，频域约束远比单纯的时域平滑（如速度/加速度惩罚）更有效。

实验结果对比 表 1：CT-1 在各种运动类型下的成功率对比，其 Average 值显著优于竞争对手。

深度洞察与总结

CT-1 的成功标志着视频生成正在从“像素模拟”向“物理推理”进化。其模块化设计极具前瞻性：CT-1 预测出的轨迹可以直接插入现有的 CameraCtrl 或 MotionCtrl 插件中，成为一种通用的“相机大脑”。

局限性：尽管 CT-1 在空间推理上表现优异，但在处理极致动态的物体（如高速碰撞）时，相机轨迹与物体交互的协同推理仍有提升空间。

未来启示：这一工作预示着，未来的 Generative World Models 将不再仅仅依赖海量像素的喂养，而是通过引入像 CT-1 这样具有显式几何感知能力的微调模块，实现真正的“导演级”控制。

发现相似论文

试试这些示例

查找最近其他将大语言模型（LLM）与相机控制轨迹预测结合，用于提升视频生成可控性的 SOTA 研究。
哪篇论文最早在扩散模型中应用了小波变换（Wavelet Transform）进行频域正则化，CT-1 对其损失函数做了哪些针对性改进？
目前是否有研究将 CT-1 这种视觉-语言-相机（VLC）架构扩展到 3D 场景重建或机器人第一视角（Egocentric）路径规划任务中？

[CVPR 2026] CT-1：打破文本与像素的壁垒，用空间推理重塑相机控制视频生成

1. TL;DR

2. 痛点深挖：导演意图与参数配置的断层

3. 核心架构：Diffusion Transformer + 小波域正则化

3.1. 1. 视觉-语言双引擎

3.2. 2. 轨迹建模：为什么是 Diffusion？

3.3. 3. WavReg：频域的降维打击

4. 实验与结果：全方位的跨越

4.1. 1. 相机控制大胜

4.2. 2. 消融实验证明 WavReg 的有效性

5. 深度洞察与总结