本文提出了 SCOPE,一个基于规范引导的技能编排框架,旨在解决复杂图像生成中的“概念裂痕”问题。该方法通过维护一个持续演进的结构化语义规范,协同调度检索、推理和修复技能,在 Gen-Arena、WISE-V 等多个复杂生成基准上取得了 SOTA 成就。
TL;DR
尽管当前的扩散模型(如 FLUX, SD-3.5)在视觉保真度上已臻化境,但在处理包含多实体、特定知识或严苛空间约束的“复杂意图”时仍频繁翻车。本文提出的 SCOPE 框架通过引入结构化语义规范(Structured Specification),将生成过程从“单次博弈”转变为“有目标的技能编排”。其核心在于确保每一个语义承诺(Commitment)在从理解到生成的全生命周期中始终“在线”,从而在严苛的 Gen-Arena 评测中将通过率从 21% 提升至 60%。
痛点深挖:消失的“语义承诺”与概念裂痕
在复杂的创作流中,用户可能会输入类似“在一个 2026 年的体育颁奖礼上,某位特定历史人物戴着特定款式的勋章”这样的指令。现有模型面临两个核心挑战:
- 知识盲区:模型无法内置所有外部事实(如特定勋章的长相)。
- 概念裂痕 (Conceptual Rift):这是本文提出的核心见解。即便系统在前期检索到了信息,但在进入生成阶段或后续验证阶段时,由于缺乏统一的内部表示,这些“语义承诺”会变得模糊。例如,验证器发现“勋章错了”,但生成器可能并不知道该修复哪个具体的像素区域或 Prompt 词条。
核心内容:SCOPE 框架的技能编排术
SCOPE 的核心骨架是一个 Decomposer → Synthesizer → Generator → Verifier 的闭环,但其灵魂在于它如何围着“规范(Specification)”转。
1. 结构化语义规范
规范 包含了:
- E (Entities):目标实体。
- C (Constraints):属性、关系、布局约束。
- U (Unresolved):待解的未知信息。
2. 条件化技能调用
不同于传统的固定流水线,SCOPE 根据规范的状态动态“摇人”:
- Retrieval & Reasoning:如果规范中 不为空,则调用搜索 API 或 LLM 推理来补全背景知识。
- Repair:如果验证器反馈某项约束 失败,系统会根据失败的范围选择“重写 Prompt”、“局部图像编辑”或“整体回炉”。
图 1:SCOPE 架构概览。结构化规范作为共享接口,连接了检索、推理、生成和验证。
实验与结果:Gen-Arena 的极限挑战
为了真正衡量系统的可靠性,作者推出了 Gen-Arena,并设定了极度严苛的指标:EGIP (Entity-Gated Intent Pass Rate)。
- 规则:只有当所有实体全部正确,且基于实体的所有约束(属性、位置、互动)全部满足时,该样本才算 Pass。
- 战绩:
- 即使是强大的 Nano Banana Pro,在 EGIP 下也仅有 0.21 分。
- SCOPE 跑出了 0.60 分,直接将 SOTA 门槛拉高了近三倍。
表 1:在 Gen-Arena 上的详细对比。注意 SCOPE 在实体通过率(0.92)和约束通过率(0.83)上的全面领先。
深度洞察:为什么 SCOPE 能赢?
消融实验揭示了一个冷酷的事实:单纯的结构化拆解是不够的。
- 如果只做拆解而不进行技能编排(w/o R&R),性能会跌回 0.22。
- 如果只有检索而没有验证修复(w/o Repair),性能只有 0.42。 这说明:“理解”确保了生成的上限,而“修复”保住了生成的下限。SCOPE 的成功在于它建立了一个能够自洽的闭环系统,让每一步操作都精准地锚定在特定的语义单位上。
总结与展望
SCOPE 证明了在生成式 AI 迈向工业化应用的进程中,外挂的“管理系统”和“逻辑链条”与底层生成模型的参数量同等重要。
局限性:
- 成本与延迟:多次调用 MLLM 和 Generator 导致推理成本大幅上升(最多 3 轮迭代)。
- 验证器依赖:如果 Verifier 本身漏判,修复动作就会变得紊乱。
未来,如何实现更轻量化的“规格引导”生成,以及如何提升多模态验证器的精度,将是该领域值得关注的赛道。
