本文推出了 CreativeGame,这是一个用于迭代式生成 HTML5 游戏的多智能体系统。该系统通过引入显式的“游戏机制(Mechanics)”规划层、程序化的 CreativeProxyReward 奖励机制以及谱系追踪存储(Lineage-scoped Memory),实现了从简单的单次代码生成向可解释、可进化的游戏设计演进。
TL;DR
传统的 AI 游戏生成往往是“毕其功于一役”的随机尝试,不仅代码易崩溃,而且缺乏设计逻辑。CreativeGame 另辟蹊径,它不再仅仅让 AI 直接写代码,而是引入了显式机制规划(Mechanic-Aware Planning)和谱系记忆积累。通过一套以程序化验证为核心的奖励系统,AI 能够像人类开发者一样,在多个版本中不断进化游戏规则,将简单的《像素鸟》演化为复杂的策略游戏。
背景定位:从“模拟成品代称”到“结构化规则设计”
在学术坐标系中,CreativeGame 属于 Multi-agent Code Generation 与 Creative AI 的交叉领域。它不满足于 SOTA 的单次生成率,而是关注**如何让 AI 理解并操作“游戏机制 (Mechanics)”**这一核心抽象。
痛点深挖:为什么 LLM 画不出好游戏?
作者指出当前 LLM 在创意生成领域的三个致命伤:
- 脆弱的运行时表现:生成的代码看起来是对的,但往往漏掉了一个
requestAnimationFrame调用。 - 主观的评价瓶颈:LLM 评价创造力时存在“好人倾向”,大部分反馈都是 7/10,无法作为梯度下降的信号。
- 机制缺失:目前的模型将游戏视为代码文本,而不是由“动作空间、转移规则、反馈”组成的系统。
核心方法论:CreativeGame 的四大支柱
1. 机制导向的规划环 (Mechanic-Guided Loop)
系统在生成代码前,会先从一个包含 774 条经验的机制档案馆中检索灵感。它会明确规定:这一版我们要增加什么新机制(Δm),保留什么,删除什么。

2. CreativeProxyReward:拒绝“评分饱和”
为了提供真实的优化动力,作者设计了一个复杂的公式:
- 65% 的权重来自确定性信号:机制是否真正实现?相比上一版是否有结构化改变?在档案馆中是否具有新颖性?
- 硬门控:如果代码运行报错,总分直接减半。
- 15% 的辅助权重:才留给 LLM 的主观审美。

3. 谱系感知记忆 (Lineage-Aware Memory)
该设计受 MemRL 启发。同一个“游戏族谱”(Lineage)共享记忆池,AI 能记住 V1 版的失败教训并在 V4 版中避免,从而实现了真正意义上的“版本演化”。
实验与结果:从模仿到创造
论文展示了四个经典的演化案例(火娃水娃、像素鸟、Happy Glass、植物大战僵尸)。
以《像素鸟 (Flappy Bird)》为例:
- V1 版:基础的过障碍。
- V2-V3 版:引入了“死亡回声”。玩家失败后的残影会成为下一局的辅助。
- V4 版:演变为“路径编写”。完美的通过会重写未来的关卡逻辑。

通过 6,181 行 Python 代码构建的这套流水线,将生成成功率推向了 98%,且在 71 个独立谱系中观察到了明显的机制创新倾向。
深度洞察:创造力是演化出来的
Takeaway:这项研究最深刻的见解在于:创造力不应该被视为一种瞬间的“灵感迸发”,而应该被视为一种“有方向的结构搜索”。
通过将游戏拆解为 (核心规则)和 (表现层),CreativeGame 强迫 AI 必须在核心规则层进行变动。这种“Mechanic-Delta”的度量方式,为未来的自动化软件设计提供了一个极其硬核且可落地的评估框架。
局限性:虽然系统能够生成复杂的 HTML5 代码,但目前对于极高难度的物理引擎平衡和多人联机逻辑的理解仍处于初级阶段。此外,目前主要依赖静态分析和基础自动化测试,如何让 AI 真正“玩”过游戏后再评价,将是未来的重要方向。
