AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse

WisPaper

学术搜索

学术问答

论文订阅

价格

TrueCite

工作空间

Home

Blog

AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse

[arXiv 2026] AgentFactory：从文本反思到可执行代码，开启代理自我演化的“工厂模式”

总结

问题

方法

结果

要点

摘要

本文提出了 AgentFactory，一个基于大语言模型（LLM）的自我演化框架。该框架通过将成功的任务解决方案转化为可执行的 Python 子代理（Subagents）进行积累与重用，在复杂现实任务中实现了持续的能力增长和跨系统部署。

TL;DR

AgentFactory 是一款新型的自我演化代理框架，它核心突破在于：不记录“经验”，只生产“工具”。它将 LLM 解决问题的过程固化为可执行、可重用、可自动优化且具备文档的 Python 子代理（Subagents）。这意味着 AI 运行时间越长，其工具库就越丰富，处理复杂任务的效率也越高。

背景定位：这是从“Prompt-based 反思”向“Code-based 技能积累”转型的 SOTA 级工作，填补了通用任务自动化中技能持久化与跨平台迁移的空白。

痛点深挖：为什么文本反思不够好？

目前的自我演化代理（如 Reflexion）大多依赖“文本反思”。当代理失败时，它会写一段文字告诉自己下次注意。然而：

不确定性：文本提示在复杂长链路任务中依然可能被 LLM 忽略。
重复造轮子：每次任务都需要重新推理，无法像人类程序员一样沉淀出标准的“库函数”。
难以迁移：一个代理积累的“感悟”很难直接交给另一个不同架构的代理使用。

核心机制：三阶段生命周期

AgentFactory 通过 Meta-Agent 编排器，管理着一个不断增长的“技能系统”。

1. 安装阶段 (Install)

当遇到新问题时，Meta-Agent 会像工厂主管一样，将大任务拆解。如果库里没有现成工具，它就利用 create_subagent 编写一段 Python 代码。

AgentFactory 流程总览 图 1：AgentFactory 工作流。Q1 展示从零构建技能，Q2 展示在现有技能基础上演化。

2. 自我演化阶段 (Self-Evolve)

这是最硬核的部分。当现有的子代理在处理新变体任务失败时，Meta-Agent 并不直接放弃，而是通过 modify_subagent 读取代码、分析执行报错信息，并重写代码逻辑（例如增加 Regex 鲁棒性或错误处理机制）。

3. 部署阶段 (Deploy)

所有的子代理都自带 SKILL.md 文档。这使得这些技能可以被“外派”到 Claude Code 等外部系统中。外部系统只需阅读文档，就能学会如何调用这些由 AgentFactory 生产的 Python 脚本。

实验与结果：强模型带来的“自动复用”红利

论文对照了 ReAct（原生模式）和传统文本演化模式。

效率飞跃：在 Batch 2（相似迁移任务）中，AgentFactory 的 Token 消耗降低了 50% 以上。
意外惊喜：研究发现，像 Claude Opus 4.6 这样的强模型，在运行第一批任务时（Batch 1）就会主动观察并复用刚刚生成的子代理，展现出了强大的 Inductive Bias。

实验结果对比 表 1：不同模型在各阶段的 Token 消耗。可见 AgentFactory 在 Batch 2 的巨大优势。

深度洞察：迈向“代码化”智能

AgentFactory 的成功揭示了一个趋势：未来的 AI 代理不再是孤立的推理引擎，而是具备“软件工程”能力的协作者。

解耦性：通过将推理（LLM）与执行（Python Code）解耦，系统获得了极高的确定性。
演化直觉：正如人类文明通过积累工具而非仅仅口头传授经验来实现进步，Agent 通过积累代码技能实现了智力的“复利”。

局限性：目前高度依赖 Python 环境及 Web 接口。未来若能结合 VLM（视觉语言模型），让代理学会操作各种 GUI 软件，其产生的子代理库将成为真正的“数字员工”资产。

总结

AgentFactory 不仅仅是一个框架，它更像是一个“代理编译器”。它让我们看到，Agent 的进化终点或许不是写出更优美的文字，而是构建出一套日益完善、可自动化迭代的代码库。

发现相似论文

试试这些示例

查找最近其他将大语言模型生成的代码作为“工具”或“技能”进行持久化存储与检索的自我演化代理研究。
追溯 Voyager 或 AlphaEvolve 模型中关于持续学习（Continual Learning）和技能发现的理论基础，并分析本文在通用任务场景下的改进。
有哪些研究探讨了如何在使用 LLM 自动生成并执行 Python 代码的过程模型中，构建更严格的沙箱安全机制以防御潜在的恶意代码演化？

[arXiv 2026] AgentFactory：从文本反思到可执行代码，开启代理自我演化的“工厂模式”

1. TL;DR

2. 痛点深挖：为什么文本反思不够好？

3. 核心机制：三阶段生命周期

3.1. 1. 安装阶段 (Install)

3.2. 2. 自我演化阶段 (Self-Evolve)

3.3. 3. 部署阶段 (Deploy)

4. 实验与结果：强模型带来的“自动复用”红利

5. 深度洞察：迈向“代码化”智能

6. 总结