FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios

[CVPR 2026] FORGE：打破感知瓶颈，定义制造业多模态大模型的细粒度评估基准

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 FORGE，这是一个针对制造业场景的细粒度多模态评估基准。它涵盖了由真实 2D 图像和 3D 点云组成的 1.2 万个样本，并评估了 18 种主流 MLLMs 在工件校验、表面检查及组装验证任务中的表现。

TL;DR

工业 4.0 的核心正从单纯的“视觉感知”转向“自主决策”。然而，当前的 MLLMs 真的能看懂复杂的工业零件型号和装配逻辑吗？本文提出的 FORGE 基准通过 12,000+ 真实样本揭示了一个残酷现实：即便是 GPT-5 级别的大模型，在面临微观表面缺陷和型号级（Model-number-level）差异时依然束手无策。研究指出，领域知识不足而非视觉定位能力是当前 MLLM 落地制造场景的最大障碍。

1. 痛点：工业场景不仅要“看见”，还要“看懂”参数

在制造业中，分辨一个螺母是 M10 还是 M12 是基本要求，但现有的基准测试（如 MMAD, MME-Industry）大多停留在“这是不是零件”或“有没有缺陷”的粗粒度层面。

作者指出当前 MLLM 落地制造业的三个核心鸿沟：

数据匮乏沟壑：大部分研究依赖 CAD 仿真数据，缺乏真实复杂的工厂光照与遮挡。
语义粒度缺失：忽略了型号数字（Model numbers）等硬核工业属性。
评估框架空白：缺乏系统性评估模型在复杂装配规则下的逻辑推理能力。

基准测试概览

2. 方法论：3D 几何与 2D 视觉的深度耦合

FORGE 不仅仅是图片的堆砌，它引入了 3D 点云子集。为了兼容目前主流的“文本-图像”多模态模型，作者采用了 三视图投影 (3V) 策略（正、侧、俯视图），在保留几何结构的同时，让模型能够利用预训练阶段获得的 2D 理解力。

评估任务设计直击工业痛点：

Workpiece Verification (WORKVERI)：物料校验，识别混入批次中的错误型号。
Structural Surface Inspection (SURFINSP)：缺陷检测，识别裂纹、压痕、变形等微观特征。
Assembly Verification (ASSYVERI)：装配验证，这是最具挑战性的任务，要求模型基于复杂的逻辑规则（如： M18 的螺栓必须配 M18 的弹垫）判断装配是否合格。

任务描述与对话示例

3. 核心洞察：视觉没坏，只是“脑子”不够用

通过对 18 个模型的深度评测，作者给出了一些反直觉的结论（Bottleneck Analysis）：

视觉定位（Visual Grounding）不是瓶颈：实验证明，Gemini-3-Flash 在单图定位任务中准确率接近 99%。这意味着模型能看清零件在哪，但当问及“这个零件型号对不对”时，准确率暴跌。
型号级任务是深水区：模型在“辨别工件类别”上表现不错，但在“辨别型号规格”上表现惨淡。这反映出 MLLM 对工业标准件的细微比例差异（Morphology Understanding）缺乏敏感度。
上下文示例（ICD）的负面效应：在 3D 投影模式下，引入更多示例反而会让模型产生空间混淆，导致性能下降。

模型性能对比

4. 实践意义：轻量化模型的领域自适应

这篇文章最让工业界振奋的部分在于：FORGE 也是一个高质量的训练资源。作者使用 FORGE 的标注数据对 Qwen-2.5-VL-3B 进行了监督微调（SFT）。结果显示，这个仅有 30 亿参数的小模型在特定任务上的表现提升了 90.8%，甚至在从未见过的工业场景中，其性能直逼参数量大 70 倍的闭源大模型。

微调后的性能提升

5. 总结与反思：制造业 AI 的下一站

FORGE 论证了一个关键观点：通用的 MLLMs 虽然拥有优秀的视觉基础，但在严苛的制造业任务中，“常识化语义”无法替代“专业领域知识”。

未来启示：

领域特化模型优先：不要迷信纯通用大模型，高质量的领域数据集微调出的轻量模型更具性价比。
增强空间感知：目前的 3V 视图转换虽有效，但直接处理原生 3D 点云的 MLLM 架构可能是未来的突破点。
预测性维护（PdM）：实验中观察到模型具备识别零件“磨损”程度的潜力，这为未来的自动化健康监测提供了新思路。

FORGE 不仅是一个评分表，它是通往自主智造的一块基石。

Find Similar Papers

Try Our Examples

查找最近其他针对制造业或工业自动化场景开发的细粒度多模态大模型基准测试论文。
哪篇论文最早提出了 Set-of-Mark (SoM) 视觉提示方法，本文在评估 MLLMs 的定位与推理脱节时是如何应用这一概念的？
有哪些研究探讨了将大语言模型（LLM）与 3D 点云处理技术结合，以解决工业零件的缺陷检测或自动化装配任务？

Contents

[CVPR 2026] FORGE：打破感知瓶颈，定义制造业多模态大模型的细粒度评估基准

1. TL;DR

2. 1. 痛点：工业场景不仅要“看见”，还要“看懂”参数

3. 2. 方法论：3D 几何与 2D 视觉的深度耦合

4. 3. 核心洞察：视觉没坏，只是“脑子”不够用

5. 4. 实践意义：轻量化模型的领域自适应

6. 5. 总结与反思：制造业 AI 的下一站