EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

[2025 新研究] EVOTOOL：模块化自演进，破解大模型 Agent “工具调用”的信用分配难题

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 EVOTOOL，一个通过无梯度进化算法优化大模型 Agent 工具使用策略的自演进框架。该框架将策略解耦为 Planner, Selector, Caller 和 Synthesizer 四个模块，在 GPT-4.1 和 Qwen3-8B 基础上，于四大主流基准测试中均取得 5 个百分点以上的 SOTA 提升。

TL;DR

在大语言模型（LLM）驱动的 Agent 领域，调用外部工具（Tool-use）解决复杂任务已成主流。然而，当一个涉及多次 API 调用的长链路任务失败时，我们很难发现到底是计划做错了、工具选错了、参数传错了还是结果总结错了。

EVOTOOL 提出了一种“精准手术”式的优化方案：通过归因诊断锁定出错模块，利用进化算法进行局部 Prompt 变异，在不更新模型权重的条件下，显著提升了 Agent 的任务成功率和 Token 利用效率。

痛点深挖：谁该为失败负责？

在长距离、多步骤的工具调用任务中，Agent 往往面临两个极端困境：

整体式优化的“拆东墙补西墙”：如果把整个 Prompt 当作一个整体去优化，系统往往会产生“行为耦合”。比如为了修复一个地理位置查询的错误，却意外破坏了模型处理日期格式的能力。
单点优化的“见树不见林”：只优化工具选择或只优化计划，忽略了模块间的级联效应。

由于监督信号（Reward）通常只在任务结束时给出，这种延迟反馈导致了严重的**信用分配（Credit Assignment）**难题。

核心方法：EVOTOOL 的三步走进化论

EVOTOOL 将 Agent 的策略拆分为四个角色：Planner（规划者）、Selector（选择者）、Caller（调用者）和Synthesizer（综合者）。其核心架构如下图所示：

模型架构图

1. 基于轨迹的归因 (Blame Attribution)

当任务失败时，EVOTOOL 不会胡乱修改。它引入了一个 Blamer LLM，通过分析执行轨迹（Trajectory）中的诊断事件（如参数校验失败、API 报错、结果无关等），对四个模块进行打分。分数最高的模块被认定为“罪魁祸首”，成为本次变异的目标。

2. 反馈驱动的目标变异 (Targeted Mutation)

被锁定的模块会进入“重写环节”。Mutator LLM 会结合执行失败的原始证据（Trace-grounded evidence）生成具体的自然语言改进建议。

示例：如果 Caller 模块多次传错日期格式，反馈会建议在其 Prompt 中加入“必须使用 ISO 8601 格式”的硬约束。

3. 多样性感知种群选择 (Population Selection)

为了防止优化过程陷入局部最优或“模式崩溃”，EVOTOOL 采用了一种巧妙的选择策略：它不仅仅保留平均分最高的候选者，还会保留那些在特定特定实例上表现最好（Individual Wins）的偏才。这种多样性确保了种群能够应对异构的任务分布。

实验战绩：全线 SOTA

EVOTOOL 在多项硬核基准测试（ToolBench, RestBench, τ-Bench, BFCL）中展现了统治力。

1. 性能对比

在 Qwen3-8B 和 GPT-4.1 上，EVOTOOL 的整体平均分均大幅领先于 ReAct、CoT 等经典方法，以及 OPRO 等先进的自动优化方案。

实验结果对比

2. 效率与学习曲线

如下图所示，EVOTOOL 的学习曲线（左侧）在各测试集上均保持稳健上升；而在成本效益图（右侧）中，EVOTOOL 处于左上角——这意味着它用最少的 Token 消耗换取了最高的性能提升。

效率对比图

深度洞察：为什么选择“局部变异”？

在消融实验中（Table 2），作者发现如果去掉归因机制而进行随机变异，性能会下降 9 个点以上。这证明了在复杂系统中，精准定位（Localize）比盲目搜索更重要。

此外，EVOTOOL 演化出来的最终 Prompt（见附录）展现出极高的专业性。例如，进化后的 Planner 不再只是简单说“请规划”，而是学会了“必须识别缺失变量”、“强制使用 JSON Schema”、“设置轻量级 Fallback”等具有防御性编程色彩的高级策略。

总结与局限性

EVOTOOL 为 LLM Agent 提供了一种低成本、可解释且高效的进化路径。它不仅在学术榜单上刷出了新高度，更在实际应用中展示了通过模块化解耦来应对复杂系统故障的物理直觉。

局限性：

实时性：由于进化需要多次迭代推理，目前更适合离线策略优化而非实时在线学习。
多模态扩展：目前主要针对 API 和文本工具，未来在具身智能（Embodied AI）等领域的表现仍待验证。

主编点评：“EVOTOOL 的核心价值在于它承认了 LLM 在处理长链路任务时的不确定性，并通过工程化的诊疗机制（归因+变异）将这种不确定性转化为可迭代的确定性，这是迈向完全自主 Agents 的坚实一步。”

Find Similar Papers

Try Our Examples

查找最近一年中利用自然语言反馈 (Natural Language Feedback) 进行 Prompt 自动优化或 Agent 策略演进的相关论文。
哪篇论文最早提出了 LLM Agent 的模块化分工（如 Planner/Actor 架构），EVOTOOL 在模块解耦上与之有何演进关系？
探索多样性感知选择机制 (Diversity-Aware Selection) 在大模型强化学习 (RLHF) 或进化算法搜索中的其他应用案例。

Contents

[2025 新研究] EVOTOOL：模块化自演进，破解大模型 Agent “工具调用”的信用分配难题

1. TL;DR

2. 痛点深挖：谁该为失败负责？

3. 核心方法：EVOTOOL 的三步走进化论

3.1. 1. 基于轨迹的归因 (Blame Attribution)

3.2. 2. 反馈驱动的目标变异 (Targeted Mutation)

3.3. 3. 多样性感知种群选择 (Population Selection)

4. 实验战绩：全线 SOTA

4.1. 1. 性能对比

4.2. 2. 效率与学习曲线

5. 深度洞察：为什么选择“局部变异”？

6. 总结与局限性