PSDesigner: Automated Graphic Design with a Human-Like Creative Workflow

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

PSDesigner: Automated Graphic Design with a Human-Like Creative Workflow

PSDesigner：模仿人类创作逻辑，开启自动化平面设计的新纪元

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 PSDesigner，这是一个模仿人类设计师工作流的自动化平面设计系统。该系统通过资产收集、自动规划工具调用以及迭代优化，实现了从用户指令到可编辑 PSD 文件的端到端生成，并在设计质量和灵活性上达到了 SOTA 水平。

TL;DR

传统的 AI 设计要么是“一锤子买卖”渲染出一张无法修改的图片，要么是简单的方块拼凑，缺乏专业设计的深度。PSDesigner 改变了这一现状：它不仅能读懂你的设计需求，还能像专业设计师一样，打开 Photoshop，一层一层地添加素材、调整阴影、优化构图，最终交给你一份图层清晰、逻辑严密的 .psd 源文件。

1. 痛点：为什么 AI 至今成不了“资深设计”？

现在的文生图模型（如 FLUX, SDXL）确实能出美图，但在商业设计领域，它们几乎“由于无法编辑”而无法直接投入生产线：

非矢量性/不可编辑性：文字写错了？背景想换个色？对应不起，请重新生成一张。
文字渲染硬伤：尤其在处理中文等复杂字符时，扩散模型经常出现错别字或笔画混乱。
流程过于简化：专业设计是不断迭代的（先定基调，再调细节），而现有模型多是“一次性映射”，缺乏对设计层次感的深层理解。

2. 核心直觉：像人类一样思考，像专家一样操作

PSDesigner 的核心贡献在于它不仅提出了一个模型，更定义了一套符合人类直觉的 Creative Workflow。

2.1 架构拆解：三大组件的完美协作

PSDesigner 并非单体模型，而是一个由多个模块组成的系统：

AssetCollector (资产收集器)：利用 LLM 拆解用户需求。比如你说“做一个端午节海报”，它会自动识别出需要“粽子图片”、“龙舟背景”以及“节日祝语”。
GraphicPlanner (图形规划器)：这是系统的大脑，基于 Qwen2.5-VL 构建。它负责预测“当前应该对哪个图层进行什么操作”。
ToolExecutor (工具执行器)：基于 Adobe UXP 开发，真正实现了 70 多种 Photoshop 工具的自动化调用。

PSDesigner 流程与人类流程对比

2.2 秘密武器：CreativePSD 数据集

没有高质量的数据，模型就学不会高级审美。作者构建了 CreativePSD，这是业界首个基于 PSD 格式、带有操作轨迹（Operation Traces）的数据集。

爆炸级的复杂度：平均每张图 48.35 个图层（对比 Crello 数据集的 4.29 层）。
丰富的属性空间：涵盖了 60 多种属性，包括调色层、混合模式、路径遮罩等，这让 AI 第一次学会了“加个投影”或“改个透明度”这种微操。

3. 技术深挖：如何教模型玩转 Photoshop？

GraphicPlanner 的训练分为两个关键阶段，使其具备了从“笨拙操作”到“艺术创作”的进化：

SFT 阶段（有监督微调）：在 CreativePSD 上学习基础操作。模型学习在给定当前画面渲染图（Observation）和资产的情况下，输出正确的工具调用命令。
RL 阶段（强化学习）：引入了最近在 DeepSeek-R1 中大火的 GRPO (Group Relative Policy Optimization) 算法。通过奖励函数评估生成的工具指令是否能准确复原设计稿，进一步提升了参数预测的精度（例如：不是随便调透明度，而是精确到 75% 才最美观）。

PSD 图层层级示意图

4. 实验结果：告别“AI 塑料感”

在多项任务重，PSDesigner 展现出了碾压级的优势：

中文渲染：得益于通过直接操作文本层而非直接生成像素，PSDesigner 的文字准确率接近 100%。
复杂构图：在 Crello-v5 测试集上，PSDesigner 的布局得分（Lay.）达到了 7.43，远超前代模型 LaDeCo 的 6.03。

实验结果对比

5. 总结与未来展望

PSDesigner 标志着 AI 设计从“玩具”向“生产力工具”的跨越。它最大的价值在于赋予了用户对生成内容的绝对控制权。

局限性：目前系统高度依赖 Adobe Photoshop 环境，未来若能扩展到 Web 端设计工具（如 Figma 或 Canva）的标准化协议，其影响力将进一步爆发。

对于广大非专业用户来说，这或许意味着每个人都能通过简单的自然语言，瞬间获得一份专业级的设计源文件。

Find Similar Papers

Try Our Examples

查找最近其他尝试将大型视觉语言模型 (VLM) 应用于生成可编辑图形文件 (如 SVG, PSD, Sketch) 的研究论文。
哪篇论文最早在 Transformer 或 VLM 训练中引入了“工具调用”(Tool Use) 的思维链，本文在设计动作空间定义上做了哪些改进？
有哪些当前最新的研究探索了利用强化学习 (如 GRPO 或 PPO) 来优化视觉生成任务中的逻辑一致性和美学评分？

Contents

PSDesigner：模仿人类创作逻辑，开启自动化平面设计的新纪元

1. TL;DR

2. 1. 痛点：为什么 AI 至今成不了“资深设计”？

3. 2. 核心直觉：像人类一样思考，像专家一样操作

3.1. 2.1 架构拆解：三大组件的完美协作

3.2. 2.2 秘密武器：CreativePSD 数据集

4. 3. 技术深挖：如何教模型玩转 Photoshop？

5. 4. 实验结果：告别“AI 塑料感”

6. 5. 总结与未来展望