WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2024] VFig:打破矢量化瓶颈,基于视觉语言模型重建复杂科学图表
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 VFig,一套专注于将复杂科学图表(Raster)转换为高质量可编辑 SVG 代码的视觉语言模型(VLM)家族。通过引入大规模数据集 VFig-Data 和结构感知强化学习(RL),VFig 在保持图表逻辑结构和几何精度方面达到了开源模型 SOTA,并能与 GPT-5.2 等商业模型竞争。

TL;DR

在学术交流和工业设计中,科学图表(如神经元架构、流程图)通常以 PNG/JPEG 等“扁平化”像素格式存在,一旦丢失源文件,修改和缩放将变得异常痛苦。VFig 是一项开创性的工作,它通过大规模高质量数据集、两阶段课程学习以及“渲染感知的强化学习”,实现了从位图到高保真、可编辑 SVG 代码的自动化转换。

1. 痛点:为什么传统的矢量化“不好用”?

目前的矢量化工具(如 Potrace, VTracer)大多基于几何轮廓追踪。虽然它们能生成看起来相似的矢量图,但其内部代码通常由数以万计的 <path> 路径构成:

  • 不可编辑性:你看到的“矩形”在代码里只是几段路径,无法通过修改属性来改变宽窄。
  • 逻辑缺失:连接两个框的“箭头”在传统方法中被视为孤立的像素堆叠,失去了箭头的语义标签。
  • Token 爆炸:过长的坐标序列会导致大语言模型(LLM)因上下文长度限制而崩溃。

模型架构图 图 1: VFig 流程总览,从位图到可编辑 SVG 的跨越。

2. 核心贡献:VFig-Data 与结构感知生成

为了解决数据匮乏问题,作者构建了 VFig-Data(66K 对数据)。其核心思路非常有参考价值:

  1. 真实数据处理:从小部分现有矢量图转化,并利用 Gemini-3-Pro 建立“描述-生成”流水线,将位图转化为结构化的 SVG。
  2. 符号合成(VFig-Data-Shapes-and-Arrows):利用程序化语言自动通过 19 种模板生成具有随机抖动、特定连接关系的图表,确保模型能学到精确的连接逻辑(Connectivity)。

3. 训练策略:从原子级到架构级

直接通过位图训练复杂图表极易导致收敛失败。作者设计了 由易到难(Coarse-to-fine) 的训练课程(Curriculum SFT):

  • 第一阶段:在简单的形状和箭头数据上预热,建立对 <rect>, <circle> 等基本图元(Primitives)的稳定生成能力。
  • 第二阶段:进入真实的科学论文架构图领域,训练模型处理多面板布局和层级嵌套。

4. 视觉反馈:强化学习优化(RL with Visual Feedback)

VFig 的最大亮点在于引入了 GRPO(群组相对策略优化) 算法。 模型生成的不再仅仅是文本,而是可以渲染的 SVG 程序。作者利用 VLM(如 Gemini-3-Flash)作为“裁判”,通过渲染后的效果进行打分:

  • 存在性(Presence):元素丢没丢?
  • 布局(Layout):位置对不对?
  • 连接性(Connectivity):箭头连对地方了吗?(最难的一点)
  • 细节(Details):颜色、字体是否吻合?

这种方法绕过了传统像素对比(如 L2 损失)无法识别语义语义差异的弊端。例如,一个微小的像素偏移可能在 L2 损失中微不足道,但在逻辑上可能意味着“箭头指向了错误的节点”,而结构化奖励能精准捕捉到这一点。

实验结果对比 图 2: VFig 与 SOTA 模型对比,VFig 在保存拓扑结构和文本清晰度上具有明显优势。

5. 实验战绩与 SOTA 评估

VFig 建立了一套多维度的评估基准 VFig-Bench。结果表明:

  • 性能飞跃:在结构感知评分上,VFig(SFT+RL)比原始 Qwen3-VL 提升了约 15%。
  • 开源之光:VFig 成为了目前最强的开源图表矢量化模型,甚至在多数复合评估指标上优于商业模型 GPT-5.2。
  • 消融实验:如果不加入连接性(Connectivity)的奖励,生成的图表逻辑混乱率会大幅提升,证明了结构化奖励的必要性。

6. 局限性与展望

虽然 VFig 在逻辑结构上取得了长足进步,但其在极细微 local 细节(如复杂的数学公式渲染、特定的虚线样式)上仍有提升空间。 未来,将该技术与扩散模型(Diffusion Models)结合,或者扩展到建筑 CAD 图纸、电子电路图的自动矢量化重建,平衡“语义逻辑”与“像素精度”,将是一个极具潜力的方向。


主编点评:VFig 的成功告诉我们,大模型的视觉能力不应只停留在“看”和“说”,通过“生成代码-渲染-反馈”的闭环,模型可以真正理解事物背后的几何与拓扑逻辑。

Find Similar Papers

Try Our Examples

  • 查找最近一年内利用强化学习(RLHF/RLAIF)优化 SVG 或 CAD 结构化代码生成的论文。
  • 哪篇论文最早提出了利用 VLM 作为 Reward Model 来评估图像生成的结构一致性,本文与其在奖励设计上有何不同?
  • 调研当前除了 VFig-Data 之外,还有哪些专门针对科学文献图表(Scientific Diagrams)理解与重建的大规模开源数据集?
Contents
[CVPR 2024] VFig:打破矢量化瓶颈,基于视觉语言模型重建复杂科学图表
1. TL;DR
2. 1. 痛点:为什么传统的矢量化“不好用”?
3. 2. 核心贡献:VFig-Data 与结构感知生成
4. 3. 训练策略:从原子级到架构级
5. 4. 视觉反馈:强化学习优化(RL with Visual Feedback)
6. 5. 实验战绩与 SOTA 评估
7. 6. 局限性与展望