GenMask: Adapting DiT for Segmentation via Direct Mask

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

GenMask: Adapting DiT for Segmentation via Direct Mask

[CVPR 2026] GenMask：打破判别与生成的藩篱，用 DiT 直接“画出”分割掩码

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 GenMask，一种将分割任务直接转化为生成任务的 DiT 适配方法。该方法通过在 RGB 空间直接生成黑白掩码，并在 RefCOCO 和 ReasonSeg 等多个基准测试上取得了 SOTA 性能，实现了生成与分割任务的统一训练。

TL;DR

在视觉感知领域，长期以来分割（Segmentation）被视为判别任务，而扩散模型（Diffusion）被视为生成任务。传统做法是“借用”扩散模型的特征。GenMask 提出了一种截然不同的思路：为什么不直接让 DiT 把分割掩码“画”出来？

该工作证明，只需通过调整噪声采样策略和引入简单的 VAE Shortcut，原生的 DiT 架构即可在不改变参数结构的前提下，通过标准的生成训练目标达成 SOTA 级别的分割精度。

1. 痛点：为什么“借用”特征不是最优解？

目前利用生成模型（如 Stable Diffusion）做分割的主流范式是 Feature Extraction：

冻结扩散模型，输入图像，提取中间层的特征。
设计一个复杂的 Decoder，将这些隐藏特征映射回分割掩码。

这种方式存在两个致命陷阱：

表示错位：生成模型预训练是为了建模像素细节和纹理，而分割需要的是紧凑的、语义级别的预测。
Pipeline 臃肿：频繁的特征反转（Inversion）或多步骤激活聚合极其耗时，且无法充分利用生成模型的优化梯度。

2. 核心直觉：掩码与图像的 Latent 差异

GenMask 的作者发现了一个非常有趣的物理直觉：二值掩码（Binary Mask）在 VAE 空间中极度稳健。

掩码抗噪性实验对比

如上图所示，当对自然图像加入极高噪声时，内容会迅速崩塌变成噪点；但对于二值掩码，即便在高噪声下，物体的轮廓和位置依然依稀可见。通过 PCA 分析发现，掩码在 VAE Latent 空间中几乎是线性可分的。

Insight：既然掩码在高噪声下如此稳定，我们就可以在训练时让分割任务集中在“极高噪声”区域，而让正常的图像生成负责“中低噪声”区域。

3. 方法论：统一生成的 GenMask

GenMask 基于 WAN-2.1 的 DiT 架构，其核心改动在于以下三点：

3.1 架构：保持原汁原味

模型由一个 VLM（Qwen2.5-VL）作为指令编码器，DiT 作为主干网络。为了补足像素级的纹理细节，作者引入了输入图像的 VAE Latent 作为 Low-level Shortcut。

模型架构图

3.2 采样：极端长尾的时间步策略

这是本文最精妙的设计。传统生成任务偏好中间段噪声（中间段提供的学习信号最强），但 GenMask 为分割任务设计了一个极端长尾分布：

90% 的样本集中在高噪声区域（ $t \in [0.85, 1.0]$ ）。
这种采样策略让模型学会了在极度模糊的信息中“找轮廓”。

3.3 推理：单步直达

由于模型在极高噪声下训练得非常充分，推理时根本不需要像生成图像那样进行多步 Denoising。设置 $t = 1$ ，一次 Forward Pass 就能直接输出掩码，速度与传统判别模型齐平。

4. 实验表现：SOTA 与可视化展示

GenMask 在 RefCOCO 系列和 ReasonSeg 挑战赛上展现了统治力。

实验结果对比

性能：在 RefCOCO-g 基准上，GenMask 相比之前的 LISA 等 LLM-based 分割模型，oIoU 提升了 5-6 个点。
混合训练：将生成数据与分割数据按 1:1 比例混合训练，能显著提升分割任务的泛化能力。

可视化案例

无论是简单的物体指代，还是涉及“胡须男做滑稽动作”这类复杂的推理分割，GenMask 都能精准锁死目标。

可视化结果

5. 总结与深度洞察

GenMask 成功地将分割适配简化为了一个特殊的“图像生成”子任务。这种范式转变（Paradigm Shift）带来几个启发：

归纳偏置（Inductive Bias）仍然重要：尽管是通用架构，但针对掩码特性调整噪声采样频率是成功的关键。
大模型的潜力：预训练的视频/图像生成模型蕴含的几何理解能力远超我们想象。

局限性：尽管目前在静态图像上表现卓越，但对于视频中的时序一致性分割，GenMask 是否能保持同样的确定性仍需进一步验证。

关键词：GenMask, Diffusion Transformer, Segmentation, SOTA, Rectified Flow.

Find Similar Papers

Try Our Examples

查找最近一年内其他尝试利用生成式扩散模型（如 DiT 或 Stable Diffusion 3）直接输出判别式预测（分类、检测、分割）的论文。
哪篇论文最早系统性地探讨了二值掩码在 VAE 或 GAN 潜在空间（Latent Space）中的线性可分性？
有哪些研究将类似 GenMask 的统一生成训练框架应用到了医学图像分割或遥感图像处理等特定领域任务中？

Contents

[CVPR 2026] GenMask：打破判别与生成的藩篱，用 DiT 直接“画出”分割掩码

1. TL;DR

2. 1. 痛点：为什么“借用”特征不是最优解？

3. 2. 核心直觉：掩码与图像的 Latent 差异

4. 3. 方法论：统一生成的 GenMask

4.1. 3.1 架构：保持原汁原味

4.2. 3.2 采样：极端长尾的时间步策略

4.3. 3.3 推理：单步直达

5. 4. 实验表现：SOTA 与可视化展示

5.1. 可视化案例

6. 5. 总结与深度洞察