WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
结构即能力:1D 有序 Token 开启图像生成的测试时搜索新范式
总结
问题
方法
结果
要点
摘要

本文提出了 SoTo 框架,揭示了 1D 有序 Token(如 FlexTok)相比传统 2D 网格 Token 在推理时搜索(Test-time Search)中的巨大优势。通过从粗到细的语义结构,1D Token 允许验证器有效地引导生成过程,实现了更强的推理缩放(Test-time Scaling)和训练后零样本控制。

TL;DR

传统的图像自回归模型由于采用 2D 栅格扫描 Token,导致其推理过程像是在“盲人摸象”——生成前几个 Token 时完全看不出全局意图。本文证明了通过采用 1D 有序 Token(Coarse-to-fine),我们可以让生成过程的每一步都具备全局语义,从而通过 Beam Search 等搜索算法,利用有限的推理计算换取素质的飞跃。

背景定位:Test-time Scaling 的下半场

在大模型领域,OpenAI o1 的成功证明了“推理时计算”是性能跃升的新路径。然而,图像生成领域由于 Token 结构的局限性,一直难以从搜索算法中获益。本文提出的 SoTo (Search-over-Tokens) 框架,将重点从“优化搜索算法”转移到了“优化 Token 结构”上,不仅刷新了 SOTA,更展示了“无训练搜索生成”的可能性。

痛点深挖:为什么 2D 网格 Token 搜不动?

在 VQGAN 等传统 2D 架构中,前几个生成的 Token 可能仅仅代表图像左上角的一块白墙。此时,验证器(如 CLIP)面对一团马赛克根本无法判断它以后会变成“一只猫”还是“一棵树”。

  • Prior Work 的局限:2D 结构导致中间状态不可验证,搜索只能退化为开销巨大的 Best-of-N
  • 作者的直觉(Insight):如果 Token 是按重要性排序的(类似 PCA),第一个 Token 就定调全局轮廓,那么搜索就能有的放矢。

核心机制:1D 有序 Token 的魔力

1D 有序 Token(如 FlexTok)通过 Nested Dropout 训练,赋予了序列一种从粗到细的层次结构:

  1. 全局语义锚点:第一个 Token 就代表了全局语义类别。
  2. 中间可读性:任何长度的前缀序列都可以解码成一个完整的、低分辨率/低细节的预览图。

模型架构图 图 1:(a) 1D Token 随着生成增加,语义由模糊变清晰;(b) 1D Token 在不同缩放倍数下的性能远超 2D 基线。

实验结果:以小博大的 Scaling Law

作者在多个维度验证了 SoTo 框架的优越性:

  • 效率革命:实验显示,一个经过推理搜索的 530M 参数的小模型,可以击败没有搜索的 3.4B 大模型。这为端侧部署高性能图像生成提供了新思路。
  • 零样本控制:在不微调模型的情况下,仅通过更换验证器(如 DreamSim),就能让模型按照参考图的风格生成,概念保留度提升了 18.4%。

实验结果对比 图 2:在同等计算量(NFE)下,1D Ordered Tokens 配合 Beam Search 的 Scaling 效率最高。

深度洞察与总结

为什么这很重要?

这篇文章最深刻的启示在于:表示学习(Representation Learning)不应仅服务于重建精度,还应服务于搜索效率。 当我们将图像编码为一种有序的语义序列时,我们就将视觉生成任务转化为了类似博弈树/数学推演的搜索问题。

局限性与挑战

  • 算力瓶颈:1D Token 的解码通常需要多步(如 Flow-based Decoder),中间解码次数过多会增加推理延迟。
  • 验证器作弊(Verifier Hacking):当搜索算力过大时,模型可能会生成一些“验证器觉得高分但人类觉得诡异”的图像。

总结

1D 有序 Token 不仅仅是一种新的压缩方式,它更像是一种“为搜索而生”的语言。随着算力成本在推理侧的倾斜,这种让生成路径变得“可验证、可纠错”的技术,极有可能是下一代视觉基础模型的标配。

发现相似论文

试试这些示例

  • 查找最近其他试图解决自回归图像生成中中间状态验证困难问题的论文或方法。
  • 哪篇论文最早基于连续重构误差最小化提出了 Nested Dropout 理论,本文是如何将其应用到 Token 排序中的?
  • 有哪些研究将类似 FlexTok 的 coarse-to-fine 1D 排序结构应用到了视频生成或 3D 资产生成任务中?
目录
结构即能力:1D 有序 Token 开启图像生成的测试时搜索新范式
1. TL;DR
2. 背景定位:Test-time Scaling 的下半场
3. 痛点深挖:为什么 2D 网格 Token 搜不动?
4. 核心机制:1D 有序 Token 的魔力
5. 实验结果:以小博大的 Scaling Law
6. 深度洞察与总结
6.1. 为什么这很重要?
6.2. 局限性与挑战
6.3. 总结