本文提出了 ShotVerse,一个专门用于文本驱动的多镜头(Multi-shot)电影级视频生成的“规划-控制”框架。该方法通过 VLM 规划器生成全局统一的 3D 摄像机轨迹,并利用控制器实现高保真视频合成,在电影感审美和镜头控制精度上达到了 SOTA 水平。
TL;DR
传统的视频生成模型往往是“黑盒”,用户很难精确控制摄像头的运镜,尤其是在需要多个镜头(Multi-shot)协同的复杂电影场景中。ShotVerse 提出了一种创新的 “先规划,后控制” (Plan-then-Control) 框架。它首先利用视觉语言模型 (VLM) 充当“导演”规划出精确的 3D 轨迹,再由扩散模型 (DiT) 充当“摄影师”执行拍摄,彻底解决了长久以来运镜不准、镜头间坐标系杂乱的难题。
1. 痛点:失控的“摄影机”
在电影制作中,运镜(Cinematography)是叙事的灵魂。然而当前的 Text-to-Video 模型面临两大困境:
- 语义模糊性:只靠关键词(如 "Pan Left")无法定义运动的速率和弧度。
- 坐标系孤立:现有的模型在生成多个镜头时,每个镜头的空间坐标是断裂的。这导致你无法在一个全局视角下安排第一镜头的终点与第二镜头的起点,破坏了电影的连贯性。
2. 核心架构:解耦“认知”与“执行”
ShotVerse 的核心直觉在于:(描述, 轨迹, 视频) 是一个联合分布。通过将这个分布解耦,模型可以更专一地处理逻辑。
2.1 规划器 (Planner):VLM 作为大脑
作者认为,VLM(如 Qwen3-VL)天生具有极强的空间推理能力。规划器接收分镜描述(Hierarchical Prompts),通过 轨迹查询 Token (Query Tokens) 提取空间特征,再由一个轻量级的 Transformer 解码器输出离散化的摄像机位姿序列。
- Insight: 这种设计避免了直接用语言模型输出长序列数字可能导致的崩溃(Degeneration),通过“埋点”Token 确保了生成的稳定性。
2.2 控制器 (Controller):几何驱动的摄影师
控制器基于 HoloCine 基础模型。为了让模型听命于规划出的轨迹,ShotVerse 引入了两项关键技术:
- 摄像机适配器 (Camera Adapter):在 DiT 的每一层直接注入 12D 的外参矩阵特征。
- 4D 旋转位置编码 (4D RoPE):这是本文的亮点之一。传统的 RoPE 只处理 (T, H, W),而 4D RoPE 引入了 镜头索引 (Shot Index)。
图 1:ShotVerse 框架概览,展示了从数据校准到规划、执行的全流程。
3. 数据基石:ShotVerse-Bench
任何数据驱动的模型都离不开高质量数据。作者构建了一个包含 20,500 个电影片段的数据集,并开发了一套多镜头摄像机校准流水线:
- 动态背景消除:利用 SAM 掩盖动态物体,只利用静态背景做 Pose Estimation。
- 全局坐标对齐:通过采样关键帧进行联合重建,将不同镜头的轨迹“缝合”到同一个全局坐标系下。
4. 实验见证:精准执行与审美跃迁
在与 Sora2、VEO3 等顶级模型的对比中,ShotVerse 展示了极强的统治力。
4.1 几何精度
如表 3 所示,ShotVerse 在轨迹误差上几乎只有同类模型(如 CameraCtrl)的 1/3 到 1/5。这主要归功于其在全局对齐数据上的训练。
表 3:在多镜头环境下,ShotVerse 展现了最低的平移与旋转误差。
4.2 视觉定性对比
在处理复杂的“环绕(Orbit)”镜头时,Sora2 等模型往往倾向于生成近乎静态的场景,而 ShotVerse 能精准执行规划出的曲线轨迹,并保持主体的视觉显著性。
图 3:ShotVerse 与 SOTA 模型的定性对比,可见其在复杂运镜下的稳定性。
5. 深度洞察
ShotVerse 的成功揭示了:对于电影生成而言,“空间智能”优于单纯的“像素预测”。
- 消融实验证明:如果去掉 VLM 规划器,模型的语义一致性会大幅下降;如果去掉 4D RoPE,镜头切换就会变得模糊(Accuracy 从 0.933 跌至 0.429)。
- 局限性:虽然在单场景多镜头表现近乎完美,但在处理跨场景(Multi-scene)或极高密度的群众场面时仍有提升空间。
总结
ShotVerse 不仅仅是一个视频生成模型,它更像是一个初具雏形的“数字导演系统”。它第一次系统性地解决了多镜头生成中的空间一致性问题,为未来 AI 驱动的长片创作奠定了坚实的几何与逻辑基础。
