WisPaper
WisPaper
学术搜索
学术问答
论文订阅
价格
TrueCite
[arXiv 2026] AgentFactory:从文本反思到可执行代码,开启代理自我演化的“工厂模式”
总结
问题
方法
结果
要点
摘要

本文提出了 AgentFactory,一个基于大语言模型(LLM)的自我演化框架。该框架通过将成功的任务解决方案转化为可执行的 Python 子代理(Subagents)进行积累与重用,在复杂现实任务中实现了持续的能力增长和跨系统部署。

TL;DR

AgentFactory 是一款新型的自我演化代理框架,它核心突破在于:不记录“经验”,只生产“工具”。它将 LLM 解决问题的过程固化为可执行、可重用、可自动优化且具备文档的 Python 子代理(Subagents)。这意味着 AI 运行时间越长,其工具库就越丰富,处理复杂任务的效率也越高。

背景定位:这是从“Prompt-based 反思”向“Code-based 技能积累”转型的 SOTA 级工作,填补了通用任务自动化中技能持久化与跨平台迁移的空白。

痛点深挖:为什么文本反思不够好?

目前的自我演化代理(如 Reflexion)大多依赖“文本反思”。当代理失败时,它会写一段文字告诉自己下次注意。然而:

  1. 不确定性:文本提示在复杂长链路任务中依然可能被 LLM 忽略。
  2. 重复造轮子:每次任务都需要重新推理,无法像人类程序员一样沉淀出标准的“库函数”。
  3. 难以迁移:一个代理积累的“感悟”很难直接交给另一个不同架构的代理使用。

核心机制:三阶段生命周期

AgentFactory 通过 Meta-Agent 编排器,管理着一个不断增长的“技能系统”。

1. 安装阶段 (Install)

当遇到新问题时,Meta-Agent 会像工厂主管一样,将大任务拆解。如果库里没有现成工具,它就利用 create_subagent 编写一段 Python 代码。

AgentFactory 流程总览 图 1:AgentFactory 工作流。Q1 展示从零构建技能,Q2 展示在现有技能基础上演化。

2. 自我演化阶段 (Self-Evolve)

这是最硬核的部分。当现有的子代理在处理新变体任务失败时,Meta-Agent 并不直接放弃,而是通过 modify_subagent 读取代码、分析执行报错信息,并重写代码逻辑(例如增加 Regex 鲁棒性或错误处理机制)。

3. 部署阶段 (Deploy)

所有的子代理都自带 SKILL.md 文档。这使得这些技能可以被“外派”到 Claude Code 等外部系统中。外部系统只需阅读文档,就能学会如何调用这些由 AgentFactory 生产的 Python 脚本。

实验与结果:强模型带来的“自动复用”红利

论文对照了 ReAct(原生模式)和传统文本演化模式。

  • 效率飞跃:在 Batch 2(相似迁移任务)中,AgentFactory 的 Token 消耗降低了 50% 以上。
  • 意外惊喜:研究发现,像 Claude Opus 4.6 这样的强模型,在运行第一批任务时(Batch 1)就会主动观察并复用刚刚生成的子代理,展现出了强大的 Inductive Bias

实验结果对比 表 1:不同模型在各阶段的 Token 消耗。可见 AgentFactory 在 Batch 2 的巨大优势。

深度洞察:迈向“代码化”智能

AgentFactory 的成功揭示了一个趋势:未来的 AI 代理不再是孤立的推理引擎,而是具备“软件工程”能力的协作者

  • 解耦性:通过将推理(LLM)与执行(Python Code)解耦,系统获得了极高的确定性。
  • 演化直觉:正如人类文明通过积累工具而非仅仅口头传授经验来实现进步,Agent 通过积累代码技能实现了智力的“复利”。

局限性:目前高度依赖 Python 环境及 Web 接口。未来若能结合 VLM(视觉语言模型),让代理学会操作各种 GUI 软件,其产生的子代理库将成为真正的“数字员工”资产。

总结

AgentFactory 不仅仅是一个框架,它更像是一个“代理编译器”。它让我们看到,Agent 的进化终点或许不是写出更优美的文字,而是构建出一套日益完善、可自动化迭代的代码库。

发现相似论文

试试这些示例

  • 查找最近其他将大语言模型生成的代码作为“工具”或“技能”进行持久化存储与检索的自我演化代理研究。
  • 追溯 Voyager 或 AlphaEvolve 模型中关于持续学习(Continual Learning)和技能发现的理论基础,并分析本文在通用任务场景下的改进。
  • 有哪些研究探讨了如何在使用 LLM 自动生成并执行 Python 代码的过程模型中,构建更严格的沙箱安全机制以防御潜在的恶意代码演化?
目录
[arXiv 2026] AgentFactory:从文本反思到可执行代码,开启代理自我演化的“工厂模式”
1. TL;DR
2. 痛点深挖:为什么文本反思不够好?
3. 核心机制:三阶段生命周期
3.1. 1. 安装阶段 (Install)
3.2. 2. 自我演化阶段 (Self-Evolve)
3.3. 3. 部署阶段 (Deploy)
4. 实验与结果:强模型带来的“自动复用”红利
5. 深度洞察:迈向“代码化”智能
6. 总结