EvoSkill: Automated Skill Discovery for Multi-Agent Systems

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

EvoSkill: Automated Skill Discovery for Multi-Agent Systems

[CVPR 2026 预研] EvoSkill：让 AI 智能体通过“失败”自我进化，开启结构化技能发现新范式

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 EvoSkill，一种面向多智能体系统的自动技能发现框架。该框架通过迭代失败分析，自动生成、细化并固化结构化的智能体技能（Skill），在 OfficeQA 和 SealQA 等复杂任务中显著提升了基于代码的智能体（如 Claude Code）的 SOTA 性能。

TL;DR

AI 智能体正从简单的“提示词工程”转向复杂的“技能工程”。EvoSkill 是由 Sentient 与弗吉尼亚理工大学联合提出的一种自进化框架，它不改动模型参数，而是通过分析执行失败的原因，自动编写、测试并沉淀出可重用的 Skill 文件夹。实验证明，这种方法在财务推理和联网搜索任务中分别带来了 7.3% 和 12.1% 的性能飞跃，且技能具备极强的跨任务迁移能力。

1. 痛点：为什么 Prompt Tuning 走到了尽头？

在当前的 AI Agent 开发中，我们经常遇到两个瓶颈：

耦合度过高：针对特定任务优化的 Prompt 换个模型（比如从 Claude 换到 GPT）可能就失效了。
知识黑盒：由于缺乏领域专家知识（Domain Expertise），即使是强大的 Claude Code 在面对《美国财政部公报》这种复杂的财务报表分析时，也经常在数据提取阶段翻车。

传统的进化算法（如 AlphaEvolve）往往在优化底层的代码逻辑，但 EvoSkill 的作者 Salaheddin Alzubi 等人认为：我们需要的是一种类似人类“方法论”的抽象——即 Skill（技能）。

2. 核心架构：EvoSkill 的“三位一体”进化环

EvoSkill 并不是简单地让 LLM 自己反思，而是构建了一个严密的生产线：

2.1 三大核心角色

Executor (A)：干活的。运行当前的程序，如果失败（Score 低于阈值），记录下 Trace（执行轨迹）。
Proposer (P)：复盘的。查看失败轨迹和标准答案，进行根因分析（Root-cause Analysis），提议是该“新建技能”还是“修改旧技能”。
Skill-Builder (S)：写代码的。将文字提议具象化。它不仅写文档（SKILL.md），还会编写配套的辅助 Python/TS 工具脚本。

2.2 帕累托前沿 (Pareto Frontier) 筛选机制

为了防止“越改越差”，EvoSkill 维护了一个 $k$ 容量的程序集。只有当新生成的技能在 验证集（Validation Set） 上跑赢了当前的弱者，才会被收录进 Git 分支。

模型架构图 图1：EvoSkill 闭环流程，通过持续的失败分析驱动技能库的扩张。

3. 实验见证：化腐朽为神奇的领域专家技能

3.1 OfficeQA：攻克财务推理

在 OfficeQA 任务中，智能体需要查阅长达数十年的财政部报表。

进化出的技能：框架自动生成了“数据提取验证（Data Extraction Verification）”和“经济时间序列分析”技能。
成果：仅仅使用 10% 的训练数据，准确率就从 60.6% 提升到了 67.9%。

实验结果对比 图2：随着训练分片的增加，EvoSkill 的性能稳步超越 Baseline。

3.2 跨任务的“零样本迁移”（Zero-shot Transfer）

这是本论文最令人惊艳的地方。研究者将在 SealQA（杂乱联网搜索任务）中进化出的 search-persistence-protocol（搜索持久化策略）直接丢给 BrowseComp 任务。结果显示，无需任何改动，准确率直接提升 5.3%。 这证明了：EvoSkill 发现的是通用的“逻辑模式”，而非简单的过拟合。

4. 深度洞察：Skill 为什么比 Prompt 更强？

从 Methodology 来看，EvoSkill 产生的技能是结构化的文件夹：

SKILL.md：定义了触发条件（Trigger）和标准作业程序（SOP）。
Helper Scripts：提供具体的工具函数（如文中提到的 analyze_timeseries.py）。

这种“可插拔”的特性解决了传统优化方法的三大难题：

可解释性：人类一眼就能看出 AI 掌握了什么新技能。
可组合性：多个独立进化出来的技能可以 Merge 到一起，形成更强的技能包。
低上下文开销：由于有 Trigger 机制，模型不需要在 Context 中塞入所有指令，只在需要时加载（Progressive Disclosure）。

5. 局限与未来

虽然 EvoSkill 表现出色，但其进化效率仍受限于 LLM 的推理成本和验证集的评估速度。此外，对于多模态任务（如需要看图解题的技能）的自动构建，仍然是未来的待开垦地。

总结： EvoSkill 为通向 AGI 路径提供了一种新思路——不再追求把所有东西塞进权重或 Prompt，而是通过自动化的方式，为智能体构建一套可以持续生长的“外挂大脑（Skill Library）”。

参考文献：

Salaheddin Alzubi, et al. "EvoSkill: Automated Skill Discovery for Multi-Agent Systems", 2026.
Relevant Repos: github.com/sentient-agi/EvoSkill

Find Similar Papers

Try Our Examples

查找最近其他关于大语言模型智能体自动技能发现（Automated Skill Discovery）或终身学习（Lifelong Learning）的 SOTA 论文。
哪篇论文最早提出了 LLM 技能库（Skill Library）的概念（如 Voyager），本文在结构化存储和失败驱动进化方面做了哪些核心改进？
探讨如何将 EvoSkill 这种基于失败分析的迭代优化框架应用到视觉语言模型 (VLM) 或多模态具身智能任务中。

Contents

[CVPR 2026 预研] EvoSkill：让 AI 智能体通过“失败”自我进化，开启结构化技能发现新范式

1. TL;DR

2. 1. 痛点：为什么 Prompt Tuning 走到了尽头？

3. 2. 核心架构：EvoSkill 的“三位一体”进化环

3.1. 2.1 三大核心角色

3.2. 2.2 帕累托前沿 (Pareto Frontier) 筛选机制

4. 3. 实验见证：化腐朽为神奇的领域专家技能

4.1. 3.1 OfficeQA：攻克财务推理

4.2. 3.2 跨任务的“零样本迁移”（Zero-shot Transfer）

5. 4. 深度洞察：Skill 为什么比 Prompt 更强？

6. 5. 局限与未来