本文提出了 EvoSkill,一种面向多智能体系统的自动技能发现框架。该框架通过迭代失败分析,自动生成、细化并固化结构化的智能体技能(Skill),在 OfficeQA 和 SealQA 等复杂任务中显著提升了基于代码的智能体(如 Claude Code)的 SOTA 性能。
TL;DR
AI 智能体正从简单的“提示词工程”转向复杂的“技能工程”。EvoSkill 是由 Sentient 与弗吉尼亚理工大学联合提出的一种自进化框架,它不改动模型参数,而是通过分析执行失败的原因,自动编写、测试并沉淀出可重用的 Skill 文件夹。实验证明,这种方法在财务推理和联网搜索任务中分别带来了 7.3% 和 12.1% 的性能飞跃,且技能具备极强的跨任务迁移能力。
1. 痛点:为什么 Prompt Tuning 走到了尽头?
在当前的 AI Agent 开发中,我们经常遇到两个瓶颈:
- 耦合度过高:针对特定任务优化的 Prompt 换个模型(比如从 Claude 换到 GPT)可能就失效了。
- 知识黑盒:由于缺乏领域专家知识(Domain Expertise),即使是强大的 Claude Code 在面对《美国财政部公报》这种复杂的财务报表分析时,也经常在数据提取阶段翻车。
传统的进化算法(如 AlphaEvolve)往往在优化底层的代码逻辑,但 EvoSkill 的作者 Salaheddin Alzubi 等人认为:我们需要的是一种类似人类“方法论”的抽象——即 Skill(技能)。
2. 核心架构:EvoSkill 的“三位一体”进化环
EvoSkill 并不是简单地让 LLM 自己反思,而是构建了一个严密的生产线:
2.1 三大核心角色
- Executor (A):干活的。运行当前的程序,如果失败(Score 低于阈值),记录下 Trace(执行轨迹)。
- Proposer (P):复盘的。查看失败轨迹和标准答案,进行根因分析(Root-cause Analysis),提议是该“新建技能”还是“修改旧技能”。
- Skill-Builder (S):写代码的。将文字提议具象化。它不仅写文档(SKILL.md),还会编写配套的辅助 Python/TS 工具脚本。
2.2 帕累托前沿 (Pareto Frontier) 筛选机制
为了防止“越改越差”,EvoSkill 维护了一个 容量的程序集。只有当新生成的技能在 验证集(Validation Set) 上跑赢了当前的弱者,才会被收录进 Git 分支。
图1:EvoSkill 闭环流程,通过持续的失败分析驱动技能库的扩张。
3. 实验见证:化腐朽为神奇的领域专家技能
3.1 OfficeQA:攻克财务推理
在 OfficeQA 任务中,智能体需要查阅长达数十年的财政部报表。
- 进化出的技能:框架自动生成了“数据提取验证(Data Extraction Verification)”和“经济时间序列分析”技能。
- 成果:仅仅使用 10% 的训练数据,准确率就从 60.6% 提升到了 67.9%。
图2:随着训练分片的增加,EvoSkill 的性能稳步超越 Baseline。
3.2 跨任务的“零样本迁移”(Zero-shot Transfer)
这是本论文最令人惊艳的地方。研究者将在 SealQA(杂乱联网搜索任务)中进化出的 search-persistence-protocol(搜索持久化策略)直接丢给 BrowseComp 任务。结果显示,无需任何改动,准确率直接提升 5.3%。
这证明了:EvoSkill 发现的是通用的“逻辑模式”,而非简单的过拟合。
4. 深度洞察:Skill 为什么比 Prompt 更强?
从 Methodology 来看,EvoSkill 产生的技能是结构化的文件夹:
- SKILL.md:定义了触发条件(Trigger)和标准作业程序(SOP)。
- Helper Scripts:提供具体的工具函数(如文中提到的
analyze_timeseries.py)。
这种“可插拔”的特性解决了传统优化方法的三大难题:
- 可解释性:人类一眼就能看出 AI 掌握了什么新技能。
- 可组合性:多个独立进化出来的技能可以 Merge 到一起,形成更强的技能包。
- 低上下文开销:由于有 Trigger 机制,模型不需要在 Context 中塞入所有指令,只在需要时加载(Progressive Disclosure)。
5. 局限与未来
虽然 EvoSkill 表现出色,但其进化效率仍受限于 LLM 的推理成本和验证集的评估速度。此外,对于多模态任务(如需要看图解题的技能)的自动构建,仍然是未来的待开垦地。
总结: EvoSkill 为通向 AGI 路径提供了一种新思路——不再追求把所有东西塞进权重或 Prompt,而是通过自动化的方式,为智能体构建一套可以持续生长的“外挂大脑(Skill Library)”。
参考文献:
- Salaheddin Alzubi, et al. "EvoSkill: Automated Skill Discovery for Multi-Agent Systems", 2026.
- Relevant Repos: github.com/sentient-agi/EvoSkill
