Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

[Nature-Inspired] Trace2Skill：告别碎片化，像专家一样从失败中蒸馏 Agent 技能

总结

问题

方法

结果

要点

摘要

本文提出了 Trace2Skill，一个通过整体分析大规模执行轨迹（Traces）来自动提取和演化智能体技能（Skills）的框架。该方法模仿人类专家的技能编写方式，通过并行分析成功和失败示例，将零散的经验感悟（Lessons）归纳、合并为一套逻辑严密、无冲突且可迁移的声明式技能目录，在 SpreadsheetBench 等任务上显著超越了 Anthropic 官方及人工编写的基线。

TL;DR

传统的 Agent 学习往往是“头痛医头”，看到一个错误改一行代码。阿里巴巴 Qwen 团队联合苏黎世联邦理工大学等机构提出的 Trace2Skill 彻底改变了这一模式。它通过并行回溯成百上千条执行结果，利用归纳推理将零散的教训浓缩成逻辑严密的“技能书”（SKILL.md）。结果令人惊叹：哪怕是用 35B 的小模型演化出的技能，带到 122B 的大模型身上，也能让其在 OOD 任务上性能飙升近 60%。

痛点深挖：Agent 为什么总是“学不会”？

目前赋予 Agent 领域技能主要靠人工编写（吞吐量低）或在线顺序更新（Sequential Updating）。后者存在两个致命伤：

碎片化陷阱：每遇到一个新情况就加一个 Skill，导致技能库迅速膨胀，最后检索器（Retriever）都找不准该用哪一个。
近视效应：在线学习通常只关注当下的轨迹，缺乏全局视野，容易把“偶然的成功”当成“必然的规律”，或者因为处理顺序不同导致技能产生逻辑冲突。

核心机制：Trace2Skill 的“三步走”战略

Trace2Skill 模仿了人类专家总结经验的过程：不是看一眼改一笔，而是看完一堆案例后再提笔定稿。

1. 轨迹生产（Trajectory Generation）

在并行环境下运行大量任务，收集原始的执行日志（Traces），并打上成功或失败的标签。

2. 多角色异步分析（Multi-Agent Patching）

错误分析员 (A-)：最核心的创新。它不仅看日志，还会利用 ReAct 循环复现错误，通过修改代码验证猜想，直到找到导致失败的根因。
成功分析员 (A+)：总结高效的操作范式，确保成功的经验也被固化。

3. 分层归纳合并（Conflict-Free Consolidation）

这是该工作的灵魂。框架将成百上千个“补丁”进行类似二叉树的分层合并：

少数服从多数：如果多个补丁都提到了“写 Excel 必须运行 recalc.py”，该模式会被提升为核心 SOP。
冲突消除：程序化检测对同一行代码的修改冲突，确保最终输出的 SKILL.md 文档语法严谨且逻辑闭合。

模型架构图

实验战绩：跨越尺度的迁移奇迹

论文最令人惊讶的发现是技能的超强迁移性：

以小博大：由 35B 模型生成的技能，被 122B 模型挂载后，在 WikiTQ 任务上取得了 81.38% 的高分，远超人工编写的 74.68%。
突破领域限制：虽然技能是在电子表格（Spreadsheet）任务上训练的，但在处理维基百科表格问答（OOD）时依然表现强劲。

实验结果对比

深度洞察：为什么这种方法更有效？

显式推理 vs 隐式参数：通过文本化的技能，我们把“模型不知道自己不知道”的东西变成了“模型看得见的操作手册”。
拒绝检索依赖：相比于现有的 ReasoningBank 等检索式方法，Trace2Skill 将知识内化到一份精简的 Markdown 中，避免了检索偏差带来的干扰。
具身化错误分析：A- 分析员通过尝试修复（Fix-and-Verify）确保了教训的真实性，而非大模型的“幻觉”总结。

总结与局限

Trace2Skill 证明了：Agent 并不一定需要更强大的参数量来掌握领域知识，一套高质量的、基于实战经验演化而来的 Declarative Skills 才是通往 AGI 的轻捷径。当然，目前该方法对于每个补丁的因果贡献度量化还有待加强。

** takeaway：未来的智能体竞争，可能不再是参数规模的竞争，而是“技能演化算法”与“高质量 SOP 库”的竞争。**

发现相似论文

试试这些示例

查找最近其他关于如何利用大语言模型自动生成或优化智能体 SOP (Standard Operating Procedures) 的论文。
哪篇论文最早探讨了声明式技能文档对智能体性能的影响，Trace2Skill 与之前的 SkillWeaver 或 AutoSkill 有何本质区别？
有哪些研究正在探索将智能体的轨迹经验转化为模型微调数据（如强化学习）与转化为文本技能（如本文方法）之间的性能对比？

[Nature-Inspired] Trace2Skill：告别碎片化，像专家一样从失败中蒸馏 Agent 技能

1. TL;DR

2. 痛点深挖：Agent 为什么总是“学不会”？

3. 核心机制：Trace2Skill 的“三步走”战略

3.1. 1. 轨迹生产（Trajectory Generation）

3.2. 2. 多角色异步分析（Multi-Agent Patching）

3.3. 3. 分层归纳合并（Conflict-Free Consolidation）

4. 实验战绩：跨越尺度的迁移奇迹

5. 深度洞察：为什么这种方法更有效？

6. 总结与局限