FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On

[CVPR 2026] FIT: 虚拟试穿不再仅仅是“贴图”，让 AI 懂你的尺码

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 FIT (Fit-Inclusive Try-on)，这是首个包含 113 万个样本的大规模拟合感知（Fit-aware）虚拟试穿数据集。通过结合物理模拟的 3D 布料悬垂与生成式重纹理技术，该研究训练出了一个能根据精确的人体与服装尺寸（如厘米级度量）合成真实试穿效果的 Fit-VTO 模型。

TL;DR

长期以来，AI 虚拟试穿（VTO）一直停留在“外观迁移”的层面——无论你给 AI 一件 XS 还是 3XL 的衣服，它生成的试穿效果往往都是“刚刚好”。今日分享的论文 FIT (Fit-Inclusive Try-on) 首次大规模解决了这一痛点。研究团队通过物理模拟生成了 113 万对具有精确厘米级尺寸标注的训练数据，让 AI 真正学会了什么叫“大一号”和“紧身”。

拟合感知的缺失：为什么现在的 VTO 看起来很假？

目前的 SOTA 方法（如 IDM-VTON）在视觉真实感上已经非常出色，但它们在物理直觉上存在显著缺陷：

尺寸盲区：模型不理解服装的实际物理尺寸（如胸围、衣长）。
缺乏“不合身”样本：由于训练数据大多来自干净的电商模特图，模型从未见过“oversized”或“太紧”导致的拉伸和褶皱。
纠缠问题：强行通过 Prompt 修改尺寸往往会导致人脸身份（Identity）或背景发生跳变。

核心方法：从物理模拟到光影重构 (Sim2Real)

为了解决数据荒，作者没有选择昂贵的手工标注，而是构建了一套极其精巧的 合成-到-真实 (Synthetic-to-Real) 流水线。

1. 基于物理的 Cross-draping 策略

作者利用 GarmentCode 程序化生成 3D 服装。最核心的 Insight 在于，他们让小码的人顶着大码的衣服运行物理模拟。这种方式捕捉到了 2D 贴图无法模拟的物理动态：

松垮感：由于重力导致的布料堆积。
拉伸感：小衣服在大体型上产生的横向放射状褶皱。

模型架构图 图注：不同尺码组合下的物理模拟效果，展示了从 XS 到 3XL 的多样化拟合形态。

2. 几何保持的重纹理 (Retexturing)

物理模拟出的网格是“光秃秃”的。作者微调了 Flux.1 [dev] 模型，将模拟出的法向图 (Normal Map) 作为结构引导。通过这种方式，AI 将 3D 的几何特征“翻译”成皮肤纹理、布料针织感和真实环境中的阴影，同时绝不改变模拟出的合身几何形状。

3. Fit-VTO 模型架构

模型不仅输入人体图和服装图，还通过一个专门的 Measurement Encoder 接收人体（身高、胸围、腰围、臀围）和服装（宽度、长度、袖长）的数值编码。

模型架构图 图注：Fit-VTO 架构图，展示了测量值编码如何介入扩散模型的单流/双流 Block。

实验结果：精准控制每一厘米

实验展示了 Fit-VTO 惊人的控制力。在固定人体参数时，你可以滑动手柄调整服装的宽度或袖长，AI 会在保持服装设计和人脸不变的前提下，精准地改变“合身度”。

实验结果对比 图注：在真实世界图像上的缩放效果。模型能通过调整参数 0.8x -> 1.2x，生成极具物理说服力的长短肥瘦变化。

在定量评价中，Fit-VTO 在 FIT 数据集上的 IoU 指标 (0.955) 远超前人，这标志着模型能够精准理解服装覆盖身体的具体范围。

深度总结与未来挑战

FIT 的意义在于，它将 VTO 从“图像修补”提升到了“物理模拟驱动的图像生成”高度。

个人洞察：

优点：解耦了尺寸与外观。用户不再需要猜测“XL 会不会太长”，而是直接看到真实的覆盖效果。
局限性：目前仅限于上衣。同时，物理模拟虽然真实，但对于极端紧身的情况，模拟效果与皮肤过于贴合，导致视觉上很难区分“紧身”和“极度紧身”。

总结：该工作是 Sim2Real 在时尚 AI 领域的一次重大实践，其开源的 113 万条数据将成为未来拟合感测试穿研究的“黄金标准”。

本文由资深学术技术主编解读。

Find Similar Papers

Try Our Examples

查找最近其他利用物理引擎（如 Taichi, Warp 或 Blender）辅助生成虚拟试穿数据集的最新论文。
哪篇论文最早引入了“Sim2Real”架构来解决人体图像合成中的几何一致性问题？
有哪些研究探讨了将基于扩散模型的虚拟试穿技术应用到实时移动端或增强现实（AR）试穿场景中？

Contents

[CVPR 2026] FIT: 虚拟试穿不再仅仅是“贴图”，让 AI 懂你的尺码

1. TL;DR

2. 拟合感知的缺失：为什么现在的 VTO 看起来很假？

3. 核心方法：从物理模拟到光影重构 (Sim2Real)

3.1. 1. 基于物理的 Cross-draping 策略

3.2. 2. 几何保持的重纹理 (Retexturing)

3.3. 3. Fit-VTO 模型架构

4. 实验结果：精准控制每一厘米

5. 深度总结与未来挑战