WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[VisionFoundry] 视觉感知的“炼金术”:仅靠合成图像也能教 VLM 辨别东南西北
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 VisionFoundry,一个全自动的任务驱动型视觉语言模型(VLM)合成数据生成框架。该框架仅需任务关键字即可生成包含图像、问题和答案(VQA)的三元组数据集 VisionFoundry-10K,显著提升了模型在空间感知和几何推理方面的能力。

TL;DR

尽管当前的视觉语言模型(VLM)在逻辑推理和对话上表现惊艳,但在简单的“左拥右抱”或“谁在前谁在后”等空间感知任务上却经常翻车。普林斯顿大学与纽大团队联合推出的 VisionFoundry 证明:我们不需要昂贵的人工标注,仅依靠 “LLM 编剧 + T2I 画家 + 强势 VLM 监修” 产生的 10,000 条合成数据,就能让模型在视觉感知基准上实现高达 10% 的性能跃迁。


1. 痛点:为什么 VLM 总是“睁眼瞎”?

目前大多数 VLM 的训练数据源自互联网上的图文对(Web-scale image-text pairs)。这些数据虽然量大,但存在以下致命伤:

  • 低层感知信号缺失:没人会在图片说明里写“红色的球在蓝色方块左侧 3 厘米处”。
  • 语言偏向严重:模型往往靠猜(基于语言先验)而不是看(基于图像像素)来回答问题。
  • 获取成本高:想要系统性覆盖所有视角、遮挡和几何关系,人工标注简直是天文数字。

VisionFoundry 的核心直觉是:视觉感知是一种可以被“编程”生成的技能


2. Methodology:VisionFoundry 的自动化生产线

VisionFoundry 的架构遵循三个原则:控制性(Controllability)视觉决定论(Visual Determinism)验证机制(Verification)

模型架构图 VisionFoundry 流程图:从任务关键字到验证通过的 VQA 三元组

整个流水线分为三步:

  1. 文本侧构造:给定一个关键字(如“深度排序”),LLM(如 GPT-5.2 模拟)生成详细的图像描述(T2I Prompt)和关联的 QA 对。
  2. 图像合成:利用高性能 T2I 模型(如 Gemini-2.5-Flash-Image)将文字描述转化为逼真的图像。
  3. 闭环验证(关键环节):由一个顶级的多模态模型(如 Gemini-3-Pro)担任审计员。它会判断生成的图像是否真的体现了预设的视觉事实(比如“左边是否有那只猫”)。如果审核不通过,样本直接报废。

这种“监修制”确保了即便 T2I 模型偶尔“画错”,这些错误数据也不会污染训练集。


3. 实验:合成数据真的能打吗?

作者构建了包含 10 个感知任务的 VisionFoundry-10K 数据集。实验结果令人振奋:

| 模型基座 | 基准测试 | 提升幅度 | | :--- | :--- | :--- | | Qwen2.5-VL-3B | CV-Bench-3D | +10.5% | | MiMo-VL-7B | MMVP (Pair) | +14.0% | | Llama-3.2-11V | RealWorldQA | +1.6% |

核心发现

  • Scaling Law 依然有效:随着合成数据量从 0.5k 增加到 10k,感知能力呈稳步上升趋势。
  • 合成+自然=最强混合:实验证明,在相同数据规模下,加入合成数据的模型表现优于纯自然数据微调的模型。

实验结果对比 随着数据规模增加,模型的空间感知准确率(如 CV-Bench-3D)显著提升


4. 深度洞察:为什么合成图像有效?

传统的观点认为合成图像存在“领域鸿沟(Domain Gap)”,可能导致模型崩坏。但 VisionFoundry 证明了在 底层视觉领域

  • 精准的像素级对齐:合成图像的布局是可以被 Prompt 精确操纵的,这种“像素-文本”的强耦合是互联网杂乱数据无法提供的。
  • 多样性补全:合成模型可以生成现实中罕见的怪异组合(例如:放在冰块上的热气腾腾的牛排),从而迫使模型真正去“看”而不是去“猜”。

5. 总结与反思

VisionFoundry 的成功预示着多模态训练的一个新范式:我们不再受限于自然界抓取的图像,而是可以根据模型的性能短板,“按需印刷”训练数据。

局限性

  • 目前的任务多集中在简单的物体关系,对于涉及长链逻辑推理的复杂视觉任务,合成数据是否依然如此高效尚待验证。
  • 验证环节高度依赖于现有的顶级封闭源代码模型(如 Gemini),开源社区需要更强大的本地“验证员”模型。

未来展望: 随着 T2I 模型视频生成能力的爆发,也许下一代 VisionFoundry 就能带我们教 VLM 理解复杂的物理动力学和时间顺序。


本文基于论文: VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Find Similar Papers

Try Our Examples

  • 查找其他最近利用扩散模型(Diffusion Models)生成合成数据以增强视觉语言模型(VLM)知觉或空间推理能力的论文。
  • 哪篇论文最早探讨了视觉语言模型中的“视觉感知幻觉”(Visual Perception Hallucination)问题,本文提到的 MMVP 基准是如何定义这一问题的?
  • 有哪些研究在探讨如何将合成视觉数据应用到机器人操作或自动驾驶等对几何空间感要求极高的现实场景中?
Contents
[VisionFoundry] 视觉感知的“炼金术”:仅靠合成图像也能教 VLM 辨别东南西北
1. TL;DR
2. 1. 痛点:为什么 VLM 总是“睁眼瞎”?
3. 2. Methodology:VisionFoundry 的自动化生产线
4. 3. 实验:合成数据真的能打吗?
4.1. 核心发现
5. 4. 深度洞察:为什么合成图像有效?
6. 5. 总结与反思