本文提出了 FORGE,这是一个针对制造业场景的细粒度多模态评估基准。它涵盖了由真实 2D 图像和 3D 点云组成的 1.2 万个样本,并评估了 18 种主流 MLLMs 在工件校验、表面检查及组装验证任务中的表现。
TL;DR
工业 4.0 的核心正从单纯的“视觉感知”转向“自主决策”。然而,当前的 MLLMs 真的能看懂复杂的工业零件型号和装配逻辑吗?本文提出的 FORGE 基准通过 12,000+ 真实样本揭示了一个残酷现实:即便是 GPT-5 级别的大模型,在面临微观表面缺陷和型号级(Model-number-level)差异时依然束手无策。研究指出,领域知识不足而非视觉定位能力是当前 MLLM 落地制造场景的最大障碍。
1. 痛点:工业场景不仅要“看见”,还要“看懂”参数
在制造业中,分辨一个螺母是 M10 还是 M12 是基本要求,但现有的基准测试(如 MMAD, MME-Industry)大多停留在“这是不是零件”或“有没有缺陷”的粗粒度层面。
作者指出当前 MLLM 落地制造业的三个核心鸿沟:
- 数据匮乏沟壑:大部分研究依赖 CAD 仿真数据,缺乏真实复杂的工厂光照与遮挡。
- 语义粒度缺失:忽略了型号数字(Model numbers)等硬核工业属性。
- 评估框架空白:缺乏系统性评估模型在复杂装配规则下的逻辑推理能力。

2. 方法论:3D 几何与 2D 视觉的深度耦合
FORGE 不仅仅是图片的堆砌,它引入了 3D 点云子集。为了兼容目前主流的“文本-图像”多模态模型,作者采用了 三视图投影 (3V) 策略(正、侧、俯视图),在保留几何结构的同时,让模型能够利用预训练阶段获得的 2D 理解力。
评估任务设计直击工业痛点:
- Workpiece Verification (WORKVERI):物料校验,识别混入批次中的错误型号。
- Structural Surface Inspection (SURFINSP):缺陷检测,识别裂纹、压痕、变形等微观特征。
- Assembly Verification (ASSYVERI):装配验证,这是最具挑战性的任务,要求模型基于复杂的逻辑规则(如: M18 的螺栓必须配 M18 的弹垫)判断装配是否合格。

3. 核心洞察:视觉没坏,只是“脑子”不够用
通过对 18 个模型的深度评测,作者给出了一些反直觉的结论(Bottleneck Analysis):
- 视觉定位(Visual Grounding)不是瓶颈:实验证明,Gemini-3-Flash 在单图定位任务中准确率接近 99%。这意味着模型能看清零件在哪,但当问及“这个零件型号对不对”时,准确率暴跌。
- 型号级任务是深水区:模型在“辨别工件类别”上表现不错,但在“辨别型号规格”上表现惨淡。这反映出 MLLM 对工业标准件的细微比例差异(Morphology Understanding)缺乏敏感度。
- 上下文示例(ICD)的负面效应:在 3D 投影模式下,引入更多示例反而会让模型产生空间混淆,导致性能下降。

4. 实践意义:轻量化模型的领域自适应
这篇文章最让工业界振奋的部分在于:FORGE 也是一个高质量的训练资源。 作者使用 FORGE 的标注数据对 Qwen-2.5-VL-3B 进行了监督微调(SFT)。结果显示,这个仅有 30 亿参数的小模型在特定任务上的表现提升了 90.8%,甚至在从未见过的工业场景中,其性能直逼参数量大 70 倍的闭源大模型。

5. 总结与反思:制造业 AI 的下一站
FORGE 论证了一个关键观点:通用的 MLLMs 虽然拥有优秀的视觉基础,但在严苛的制造业任务中,“常识化语义”无法替代“专业领域知识”。
未来启示:
- 领域特化模型优先:不要迷信纯通用大模型,高质量的领域数据集微调出的轻量模型更具性价比。
- 增强空间感知:目前的 3V 视图转换虽有效,但直接处理原生 3D 点云的 MLLM 架构可能是未来的突破点。
- 预测性维护(PdM):实验中观察到模型具备识别零件“磨损”程度的潜力,这为未来的自动化健康监测提供了新思路。
FORGE 不仅是一个评分表,它是通往自主智造的一块基石。
