WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
PSDesigner:模仿人类创作逻辑,开启自动化平面设计的新纪元
Summary
Problem
Method
Results
Takeaways
Abstract

本文推出了 PSDesigner,这是一个模仿人类设计师工作流的自动化平面设计系统。该系统通过资产收集、自动规划工具调用以及迭代优化,实现了从用户指令到可编辑 PSD 文件的端到端生成,并在设计质量和灵活性上达到了 SOTA 水平。

TL;DR

传统的 AI 设计要么是“一锤子买卖”渲染出一张无法修改的图片,要么是简单的方块拼凑,缺乏专业设计的深度。PSDesigner 改变了这一现状:它不仅能读懂你的设计需求,还能像专业设计师一样,打开 Photoshop,一层一层地添加素材、调整阴影、优化构图,最终交给你一份图层清晰、逻辑严密的 .psd 源文件。

1. 痛点:为什么 AI 至今成不了“资深设计”?

现在的文生图模型(如 FLUX, SDXL)确实能出美图,但在商业设计领域,它们几乎“由于无法编辑”而无法直接投入生产线:

  • 非矢量性/不可编辑性:文字写错了?背景想换个色?对应不起,请重新生成一张。
  • 文字渲染硬伤:尤其在处理中文等复杂字符时,扩散模型经常出现错别字或笔画混乱。
  • 流程过于简化:专业设计是不断迭代的(先定基调,再调细节),而现有模型多是“一次性映射”,缺乏对设计层次感的深层理解。

2. 核心直觉:像人类一样思考,像专家一样操作

PSDesigner 的核心贡献在于它不仅提出了一个模型,更定义了一套符合人类直觉的 Creative Workflow

2.1 架构拆解:三大组件的完美协作

PSDesigner 并非单体模型,而是一个由多个模块组成的系统:

  1. AssetCollector (资产收集器):利用 LLM 拆解用户需求。比如你说“做一个端午节海报”,它会自动识别出需要“粽子图片”、“龙舟背景”以及“节日祝语”。
  2. GraphicPlanner (图形规划器):这是系统的大脑,基于 Qwen2.5-VL 构建。它负责预测“当前应该对哪个图层进行什么操作”。
  3. ToolExecutor (工具执行器):基于 Adobe UXP 开发,真正实现了 70 多种 Photoshop 工具的自动化调用。

PSDesigner 流程与人类流程对比

2.2 秘密武器:CreativePSD 数据集

没有高质量的数据,模型就学不会高级审美。作者构建了 CreativePSD,这是业界首个基于 PSD 格式、带有操作轨迹(Operation Traces)的数据集。

  • 爆炸级的复杂度:平均每张图 48.35 个图层(对比 Crello 数据集的 4.29 层)。
  • 丰富的属性空间:涵盖了 60 多种属性,包括调色层、混合模式、路径遮罩等,这让 AI 第一次学会了“加个投影”或“改个透明度”这种微操。

3. 技术深挖:如何教模型玩转 Photoshop?

GraphicPlanner 的训练分为两个关键阶段,使其具备了从“笨拙操作”到“艺术创作”的进化:

  1. SFT 阶段(有监督微调):在 CreativePSD 上学习基础操作。模型学习在给定当前画面渲染图(Observation)和资产的情况下,输出正确的工具调用命令。
  2. RL 阶段(强化学习):引入了最近在 DeepSeek-R1 中大火的 GRPO (Group Relative Policy Optimization) 算法。通过奖励函数评估生成的工具指令是否能准确复原设计稿,进一步提升了参数预测的精度(例如:不是随便调透明度,而是精确到 75% 才最美观)。

PSD 图层层级示意图

4. 实验结果:告别“AI 塑料感”

在多项任务重,PSDesigner 展现出了碾压级的优势:

  • 中文渲染:得益于通过直接操作文本层而非直接生成像素,PSDesigner 的文字准确率接近 100%。
  • 复杂构图:在 Crello-v5 测试集上,PSDesigner 的布局得分(Lay.)达到了 7.43,远超前代模型 LaDeCo 的 6.03。

实验结果对比

5. 总结与未来展望

PSDesigner 标志着 AI 设计从“玩具”向“生产力工具”的跨越。它最大的价值在于赋予了用户对生成内容的绝对控制权

局限性:目前系统高度依赖 Adobe Photoshop 环境,未来若能扩展到 Web 端设计工具(如 Figma 或 Canva)的标准化协议,其影响力将进一步爆发。

对于广大非专业用户来说,这或许意味着每个人都能通过简单的自然语言,瞬间获得一份专业级的设计源文件。

Find Similar Papers

Try Our Examples

  • 查找最近其他尝试将大型视觉语言模型 (VLM) 应用于生成可编辑图形文件 (如 SVG, PSD, Sketch) 的研究论文。
  • 哪篇论文最早在 Transformer 或 VLM 训练中引入了“工具调用”(Tool Use) 的思维链,本文在设计动作空间定义上做了哪些改进?
  • 有哪些当前最新的研究探索了利用强化学习 (如 GRPO 或 PPO) 来优化视觉生成任务中的逻辑一致性和美学评分?
Contents
PSDesigner:模仿人类创作逻辑,开启自动化平面设计的新纪元
1. TL;DR
2. 1. 痛点:为什么 AI 至今成不了“资深设计”?
3. 2. 核心直觉:像人类一样思考,像专家一样操作
3.1. 2.1 架构拆解:三大组件的完美协作
3.2. 2.2 秘密武器:CreativePSD 数据集
4. 3. 技术深挖:如何教模型玩转 Photoshop?
5. 4. 实验结果:告别“AI 塑料感”
6. 5. 总结与未来展望