ScrollScape: Unlocking 32K Image Generation With Video Diffusion Priors

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

ScrollScape: Unlocking 32K Image Generation With Video Diffusion Priors

[CVPR 2026] ScrollScape：将视频先验转化为 32K 超长卷轴生成的“神笔”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 ScrollScape，一种将超高分辨率极端长宽比（EAR）图像生成重构为连续视频扫描过程的创新框架。通过利用预训练视频扩散模型的时空先验和新颖的扫描位置编码（ScanPE），该方法在保持全球结构连贯性的同时，实现了前所未有的 32K 分辨率生成。

TL;DR

在生成类似清明上河图那样的超长卷轴或 360° 全景图时，传统的 AI 绘图模型经常会“复读”——在屏幕上画出无数个重复的树木或行人。ScrollScape 另辟蹊径，将静态长图生成看作一段视频平移扫描过程。它巧妙地借用了视频模型自带的“时间连贯性”来平衡长图的空间一致性，成功解锁了 32K 分辨率下的极端比例（EAR）图像生成。

痛点深挖：为什么 AI 画不好“长卷”？

目前的扩散模型（如 Stable Diffusion 或 FLUX）大多是在正方形或常规比例的图像上训练的。当你强行让它们生成 8:1 甚至更夸张的比例时，模型会陷入两种困境：

空间碎片化：模型视野太小，画了左边忘了右边，导致整幅图看起来像是由不相关的碎片拼凑而成的。
物体重复（Object Repetition）：由于位置编码（Positional Encoding）在长距离下失效，模型会不断在新的位置重复之前画过的内容。

以往的“平铺式”（Tiling）方法试图通过重叠块来修补，但缺乏全局观，依然无法生成具有叙事逻辑的长篇宏作。

核心机制：从“拍照”到“运镜”

ScrollScape 的核心直觉是：空间上的位移等同于时间上的演进。

1. 扫描位置编码 (ScanPE)

在标准的视频模型中，每一帧共享相同的空间坐标。ScrollScape 引入了 ScanPE，它像给摄像机装上了滑轨。通过将全局坐标分布到连续的视频帧中，模型不再是原地踏步，而是变成了一个移动摄像机。

线性模式：支持单向长卷生成。
蛇形融合模式：甚至可以处理更复杂的画布布局。

模型架构图 图 1：ScrollScape 将长比例图像任务转化为视频平移任务的逻辑示意图

2. 滚动超分辨率 (ScrollSR) 与 TAP

要在单张显卡上跑出 32K 分辨率，显存溢出是必然的。ScrollScape 采用 ScrollSR 模块，利用视频超分辨率（VSR）先验，在潜空间（Latent Space）内逐帧提速细化，配合轨迹锚定分区（TAP）策略，确保了 3D VAE 在解码时不产生接缝或闪烁。

实验战绩：不仅仅是画得大

作者在包含自然景观和中国传统水墨画的 3,000 张高质量数据上进行了微调。实验结果令人惊艳：

实验结果对比 图 2：消融实验对比。顶部可见原生模型严重的重复现象，而 ScrollScape (d) 实现了逻辑连贯、细节丰富的无缝长图。

多样性压制：通过 GSD 指标测试，ScrollScape 彻底解决了语义循环（Semantic Looping）问题。
质量跨越：在 32K 分辨率下，无论是汽车表面的纹理还是远山的层峦叠嶂，都保持了极高的视觉忠实度（FID 提升显著）。

深度洞察：视频先验是空间预测的终极形态吗？

ScrollScape 的成功给研究界带来了一个重要的启发：视频模型学到的物理规律比图像模型更深刻。视频模型为了保证物体不无故消失或形变，必须理解物体的 3D 结构和运动轨迹。这种“时间一致性”本质上是一种极其强大的正则化约束。

将其应用在超高分辨率图像生成上，实际上是利用了视频模型对“世界连续性”的理解来修补图像模型在超长序列下的“短期记忆丧失”。

总结与展望

ScrollScape 不仅是一个生成工具，它验证了通过重新设计位置编码和任务形式，可以跨模态迁移预训练模型的先验知识。

局限性：目前主要针对水平或垂直的单向扫描，对于更复杂的非线性构图（如 L 型或环形画布）仍需进一步探索。
未来潜力：这种“移动摄像机”的思路未来可以结合多模态指令，实现真正交互式的数字画卷创作。

学术定位：本项目基于 Wan2.1 视频基准模型构建，是目前生成 EAR 图像分辨率最高（32K）且结构连贯性最强的 SOTA 工作之一。

Find Similar Papers

Try Our Examples

查找其他将视频扩散模型的时空一致性先验应用于静态图像处理或多视角合成任务的最新论文。
哪篇论文最早提出了 Rotary Positional Embedding (RoPE) 在生成式 Transformer 中的应用，本文的 ScanPE 是如何对其进行动态扩展的？
调研目前在扩散模型中实现 16K 以上超高分辨率输出的其他主流方法，如基于内容感知平铺或级联扩散的技术路径。

Contents

[CVPR 2026] ScrollScape：将视频先验转化为 32K 超长卷轴生成的“神笔”

1. TL;DR

2. 痛点深挖：为什么 AI 画不好“长卷”？

3. 核心机制：从“拍照”到“运镜”

3.1. 1. 扫描位置编码 (ScanPE)

3.2. 2. 滚动超分辨率 (ScrollSR) 与 TAP

4. 实验战绩：不仅仅是画得大

5. 深度洞察：视频先验是空间预测的终极形态吗？

6. 总结与展望