本文提出了 ScrollScape,一种将超高分辨率极端长宽比(EAR)图像生成重构为连续视频扫描过程的创新框架。通过利用预训练视频扩散模型的时空先验和新颖的扫描位置编码(ScanPE),该方法在保持全球结构连贯性的同时,实现了前所未有的 32K 分辨率生成。
TL;DR
在生成类似清明上河图那样的超长卷轴或 360° 全景图时,传统的 AI 绘图模型经常会“复读”——在屏幕上画出无数个重复的树木或行人。ScrollScape 另辟蹊径,将静态长图生成看作一段视频平移扫描过程。它巧妙地借用了视频模型自带的“时间连贯性”来平衡长图的空间一致性,成功解锁了 32K 分辨率下的极端比例(EAR)图像生成。
痛点深挖:为什么 AI 画不好“长卷”?
目前的扩散模型(如 Stable Diffusion 或 FLUX)大多是在正方形或常规比例的图像上训练的。当你强行让它们生成 8:1 甚至更夸张的比例时,模型会陷入两种困境:
- 空间碎片化:模型视野太小,画了左边忘了右边,导致整幅图看起来像是由不相关的碎片拼凑而成的。
- 物体重复(Object Repetition):由于位置编码(Positional Encoding)在长距离下失效,模型会不断在新的位置重复之前画过的内容。
以往的“平铺式”(Tiling)方法试图通过重叠块来修补,但缺乏全局观,依然无法生成具有叙事逻辑的长篇宏作。
核心机制:从“拍照”到“运镜”
ScrollScape 的核心直觉是:空间上的位移等同于时间上的演进。
1. 扫描位置编码 (ScanPE)
在标准的视频模型中,每一帧共享相同的空间坐标。ScrollScape 引入了 ScanPE,它像给摄像机装上了滑轨。通过将全局坐标分布到连续的视频帧中,模型不再是原地踏步,而是变成了一个移动摄像机。
- 线性模式:支持单向长卷生成。
- 蛇形融合模式:甚至可以处理更复杂的画布布局。
图 1:ScrollScape 将长比例图像任务转化为视频平移任务的逻辑示意图
2. 滚动超分辨率 (ScrollSR) 与 TAP
要在单张显卡上跑出 32K 分辨率,显存溢出是必然的。ScrollScape 采用 ScrollSR 模块,利用视频超分辨率(VSR)先验,在潜空间(Latent Space)内逐帧提速细化,配合轨迹锚定分区(TAP)策略,确保了 3D VAE 在解码时不产生接缝或闪烁。
实验战绩:不仅仅是画得大
作者在包含自然景观和中国传统水墨画的 3,000 张高质量数据上进行了微调。实验结果令人惊艳:
图 2:消融实验对比。顶部可见原生模型严重的重复现象,而 ScrollScape (d) 实现了逻辑连贯、细节丰富的无缝长图。
- 多样性压制:通过 GSD 指标测试,ScrollScape 彻底解决了语义循环(Semantic Looping)问题。
- 质量跨越:在 32K 分辨率下,无论是汽车表面的纹理还是远山的层峦叠嶂,都保持了极高的视觉忠实度(FID 提升显著)。
深度洞察:视频先验是空间预测的终极形态吗?
ScrollScape 的成功给研究界带来了一个重要的启发:视频模型学到的物理规律比图像模型更深刻。视频模型为了保证物体不无故消失或形变,必须理解物体的 3D 结构和运动轨迹。这种“时间一致性”本质上是一种极其强大的正则化约束。
将其应用在超高分辨率图像生成上,实际上是利用了视频模型对“世界连续性”的理解来修补图像模型在超长序列下的“短期记忆丧失”。
总结与展望
ScrollScape 不仅是一个生成工具,它验证了通过重新设计位置编码和任务形式,可以跨模态迁移预训练模型的先验知识。
- 局限性:目前主要针对水平或垂直的单向扫描,对于更复杂的非线性构图(如 L 型或环形画布)仍需进一步探索。
- 未来潜力:这种“移动摄像机”的思路未来可以结合多模态指令,实现真正交互式的数字画卷创作。
学术定位:本项目基于 Wan2.1 视频基准模型构建,是目前生成 EAR 图像分辨率最高(32K)且结构连贯性最强的 SOTA 工作之一。
