Camera Control for Text-to-Image Generation via Learning Viewpoint Tokens

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Camera Control for Text-to-Image Generation via Learning Viewpoint Tokens

相机令牌化：让 T2I 生成模型听懂“视角”指挥

总结

问题

方法

结果

要点

摘要

本文提出了一个通过学习参数化视角 Token（Viewpoint Tokens）实现精确相机控制的文本到图像（T2I）生成框架。该方法通过在包含 3D 渲染几何监督和光影增强图像的混合数据集上微调，实现了对方位角、仰角、半径、俯仰角和偏航角等 5 个参数的精细控制，在保持图像质量的同时达到了 SOTA 级别的相机指向精度。

TL;DR

虽然 DALL-E 3 或 Midjourney 能生成惊艳的图像，但在面对“从后方三刻度视角、仰角 10 度看这辆车”这类精确几何指令时，它们往往会“翻车”。加州大学欧文分校的研究团队提出了一种全新的视角 Token（Viewpoint Tokens）机制，通过将相机参数直接编码进文本嵌入空间，让模型能够像专业摄影师一样通过 5 参数（方位角、仰角、距离、俯仰、偏航）精确控制成像角度。

痛点深挖：为什么模型总是“正对着你”？

现有的文本生成图像模型在解析几何指令时主要面临三大挑战：

语言歧义性：简单的“左侧视角”对模型来说是一个模糊的分布，而非确切的弧度值。
数据偏差：互联网上的图片大多是“证件照”式的正视角或眼平视高（Eye-level），导致模型对极端角度（如俯角、背部视角）缺乏认知。
解耦难题：以前的方法（如 Compass Control）虽然引入了方位角控制，但往往将物体外观与视角深度耦合。如果你让它生成一个没见过的“圣诞老人”侧脸，它可能会因为没见过侧面的圣诞老人而直接生成一只侧面的“狮子”。

核心方法论：5 参数相机编码与双元数据策略

1. 架构解析：将相机变成一个“Token”

研究者没有使用复杂的物理引擎或深度图（Depth map）作为输入，而是采用了一种更轻量化的方案：

参数化表示：定义 $ heta = ( heta_{az}, heta_{el}, r, heta_{pitch}, heta_{yaw})$。
MLP 编码器：使用一个微型 3 层 MLP 将这些连续数值映射为与文本 Embedding 维度一致的特征向量。
融合机制：这个“视角 Token”被直接插在物体描述文本之后（例如："A red car [VIEW_TOKEN] in the snow"），让 Transformer 的注意力机制能自动处理几何信息。

模型架构图

2. 数据驱动：几何监督与真实感的平衡

如果只用 3D 渲染图训练，生成出来的图会像过时的 CG；如果只用真实图片，几何精度又不够。作者设计了双元数据集（Two-part Dataset）：

渲染子集：来自 TexVerse 的 3100 多个 3D 模型，提供分度极其精细的几何基准。
增强子集：利用 Gemini (Nano Banana) 对渲染图进行背景和纹理的“洗白”处理，在保留原始几何姿态的同时，加入真实光影和背景，防止模型退化。

实验与结果：全方位的跨越

几何精度与泛化性

在方位角测试中，该方法相比之前的 SOTA 方案错误率降低了近 40%。最令人惊叹的是它的跨类别泛化能力。如图 4 所示，面对训练集中从未出现的“高达（Gundam）”、“凤凰”或“圣诞老人”，模型依然能准确执行背部视角或高俯瞰角，而对比方法则出现了严重的过拟合现象（例如把圣诞老人强行扭成了鞋子或泰迪熊）。

实验结果对比

高角度挑战

在极具挑战性的 45° 仰角场景下，由于该方法在训练中引入了背景感知，生成的物体能与背景保持连贯的透视关系，而非简单的平移缩放。

高角度生成示例

深度洞察：为什么这种做法有效？

之所以这种“简单的 MLP 编码”比复杂的“Plücker 射线”或“旋转矩阵”更有效，是因为论文抓住了 T2I 模型的核心——语义嵌入空间。对于 Transformer 来说，学习解析一个具有语义含义的“方位-旋转”信号，比通过物理一致性强行回归相机参数要容易得多。

总结与局限

Takeaway: 本文成功展示了如何将显式的 3D 相机结构“缝合”进现有的 T2I 模型。这不仅仅是控制了视角，更是为未来的“生成式虚拟相机摄影”奠定了基础。

局限性:

偏置依然存在：在面对如“泰姬陵”等著名地标时，模型自带的“正面强偏置”有时会覆盖视角 Token。
参数限制：目前的实验范围主要局限在 0°-45° 仰角，且未涉及相机焦距和 Roll 角的控制。

这篇论文标志着 T2I 模型正在从“语义可控”向“物理几何可控”迈进，未来的创作者可能不再需要寻找合适的底图，只需输入一组相机坐标，AI 就能给出理想的构图。

发现相似论文

试试这些示例

查找最近一年内其他通过在 Text-to-Image 模型中引入连续控制参数（如视角、光照、距离）来增强几何控制性的论文。
哪篇论文最早探讨了使用 learnable tokens 或 prompt tuning 来控制扩散模型（Diffusion Models）的空间属性，本文与其在 Token 插入逻辑上有何异同？
有哪些研究将类似 Viewpoint Tokens 的理念应用到了视频生成（Video Generation）或 3D 表示学习（如 3D Gaussian Splatting）的跨帧一致性控制中？

相机令牌化：让 T2I 生成模型听懂“视角”指挥

1. TL;DR

2. 痛点深挖：为什么模型总是“正对着你”？

3. 核心方法论：5 参数相机编码与双元数据策略

3.1. 1. 架构解析：将相机变成一个“Token”

3.2. 2. 数据驱动：几何监督与真实感的平衡

4. 实验与结果：全方位的跨越

4.1. 几何精度与泛化性

4.2. 高角度挑战

5. 深度洞察：为什么这种做法有效？

6. 总结与局限