本文推出了 PSDesigner,这是一个模仿人类设计师工作流的自动化平面设计系统。该系统通过资产收集、自动规划工具调用以及迭代优化,实现了从用户指令到可编辑 PSD 文件的端到端生成,并在设计质量和灵活性上达到了 SOTA 水平。
TL;DR
传统的 AI 设计要么是“一锤子买卖”渲染出一张无法修改的图片,要么是简单的方块拼凑,缺乏专业设计的深度。PSDesigner 改变了这一现状:它不仅能读懂你的设计需求,还能像专业设计师一样,打开 Photoshop,一层一层地添加素材、调整阴影、优化构图,最终交给你一份图层清晰、逻辑严密的 .psd 源文件。
1. 痛点:为什么 AI 至今成不了“资深设计”?
现在的文生图模型(如 FLUX, SDXL)确实能出美图,但在商业设计领域,它们几乎“由于无法编辑”而无法直接投入生产线:
- 非矢量性/不可编辑性:文字写错了?背景想换个色?对应不起,请重新生成一张。
- 文字渲染硬伤:尤其在处理中文等复杂字符时,扩散模型经常出现错别字或笔画混乱。
- 流程过于简化:专业设计是不断迭代的(先定基调,再调细节),而现有模型多是“一次性映射”,缺乏对设计层次感的深层理解。
2. 核心直觉:像人类一样思考,像专家一样操作
PSDesigner 的核心贡献在于它不仅提出了一个模型,更定义了一套符合人类直觉的 Creative Workflow。
2.1 架构拆解:三大组件的完美协作
PSDesigner 并非单体模型,而是一个由多个模块组成的系统:
- AssetCollector (资产收集器):利用 LLM 拆解用户需求。比如你说“做一个端午节海报”,它会自动识别出需要“粽子图片”、“龙舟背景”以及“节日祝语”。
- GraphicPlanner (图形规划器):这是系统的大脑,基于 Qwen2.5-VL 构建。它负责预测“当前应该对哪个图层进行什么操作”。
- ToolExecutor (工具执行器):基于 Adobe UXP 开发,真正实现了 70 多种 Photoshop 工具的自动化调用。

2.2 秘密武器:CreativePSD 数据集
没有高质量的数据,模型就学不会高级审美。作者构建了 CreativePSD,这是业界首个基于 PSD 格式、带有操作轨迹(Operation Traces)的数据集。
- 爆炸级的复杂度:平均每张图 48.35 个图层(对比 Crello 数据集的 4.29 层)。
- 丰富的属性空间:涵盖了 60 多种属性,包括调色层、混合模式、路径遮罩等,这让 AI 第一次学会了“加个投影”或“改个透明度”这种微操。
3. 技术深挖:如何教模型玩转 Photoshop?
GraphicPlanner 的训练分为两个关键阶段,使其具备了从“笨拙操作”到“艺术创作”的进化:
- SFT 阶段(有监督微调):在 CreativePSD 上学习基础操作。模型学习在给定当前画面渲染图(Observation)和资产的情况下,输出正确的工具调用命令。
- RL 阶段(强化学习):引入了最近在 DeepSeek-R1 中大火的 GRPO (Group Relative Policy Optimization) 算法。通过奖励函数评估生成的工具指令是否能准确复原设计稿,进一步提升了参数预测的精度(例如:不是随便调透明度,而是精确到 75% 才最美观)。

4. 实验结果:告别“AI 塑料感”
在多项任务重,PSDesigner 展现出了碾压级的优势:
- 中文渲染:得益于通过直接操作文本层而非直接生成像素,PSDesigner 的文字准确率接近 100%。
- 复杂构图:在 Crello-v5 测试集上,PSDesigner 的布局得分(Lay.)达到了 7.43,远超前代模型 LaDeCo 的 6.03。

5. 总结与未来展望
PSDesigner 标志着 AI 设计从“玩具”向“生产力工具”的跨越。它最大的价值在于赋予了用户对生成内容的绝对控制权。
局限性:目前系统高度依赖 Adobe Photoshop 环境,未来若能扩展到 Web 端设计工具(如 Figma 或 Canva)的标准化协议,其影响力将进一步爆发。
对于广大非专业用户来说,这或许意味着每个人都能通过简单的自然语言,瞬间获得一份专业级的设计源文件。
