Utility-Guided Agent Orchestration for Efficient LLM Tool Use

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Utility-Guided Agent Orchestration for Efficient LLM Tool Use

[2024] 效用导向的 Agent 编排：在回答质量与执行成本之间寻找最优解

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了一个效用导向的代理编排框架（Utility-Guided Agent Orchestration），旨在解决工具使用型 LLM Agent 在回答质量与执行成本之间的权衡问题。该方法将编排视为显式的决策问题，通过平衡预估收益、步骤成本、不确定性和冗余来选择动作，在保证竞争性性能的同时显著提升了行为的可控性。

TL;DR

在 LLM Agent 的开发中，开发者常陷入两难：是选择死板但省钱的固定工作流，还是选择聪明但“大手大脚”的 ReAct 循环？本文提出了一种效用导向的编排框架 (Utility-Guided Orchestration)，将 Agent 的每一次行动（检索、调用工具、校验、停止）转化为一个显式的数学决策问题。该方法不追求极致的 SOTA 分数，而是致力于提供一个可控、可分析的决策层，让 Agent 学会“见好就收”。

背景定位：Agent 行为的“黑盒”困境

目前的 Agent 系统大多将行为逻辑埋藏在复杂的 System Prompt 中。这种做法导致了两个核心痛点：

冗余行动 (Redundancy)：模型可能会反复检索已经获得的信息。
过度支出 (Over-execution)：即使当前证据已足够回答问题，模型仍倾向于继续推理，导致不必要的 API 调用和延迟。

本文将编排逻辑从 Prompt 层面剥离，将其定义为一个显式决策序列问题，这标志着 Agent 设计从“提示工程”向“系统工程”的转变。

核心机制：效用函数 (Utility Function)

作者为 Agent 设计了一个简洁的效用评估公式，要求模型在每一步行动前进行自我评估：

$U (a ∣ s_{t}) = e x t G ain - λ_{1} e x t S t e pC os t - λ_{2} e x t U n cer t ain t y - λ_{3} e x t R e d u n d an cy$

预估收益 (Gain)：如果执行这个动作，能为最终答案贡献多少新价值？
步骤成本 (StepCost)：执行这一步需要多少 Token 或时间成本？
不确定性 (Uncertainty)：我现在的证据足以回答问题吗？
冗余度 (Redundancy)：我之前是不是做过类似的事情？

模型架构图 图 1：效用导向框架的整体循环流程。Agent 不再盲目循环，而是在每一步都会计算各个潜在动作的效用。

实验洞察：成本与质量的博弈

通过在 HotpotQA 上的实验，作者验证并揭示了几个关键结论：

自适应能力优于固定流：相比于预定义的 Workflow，效用编排能根据任务难度自动调整步数。
显式停止的必要性：实验显示，如果移除 stop 决策或 gain 评估，Agent 的 Token 消耗会瞬间翻倍，但 F1 分数仅有微小提升。这意味着很多 Agent 行为在边际效应上是非常不划算的。
冗余控制初显成效：引入语义冗余（Semantic Redundancy）检测后，虽然增加了微小的计算延迟，但显著减少了无意义的工具调用次数。

实验结果对比 表 1：不同策略下的性能对比。可以看到 policy 变体在 F1 和 Token 效率之间找到了比纯 ReAct 更灵活的平衡点。

深度思考：启发式信号的真实性

文章中一个深刻的分析在于：LLM 自我生成的预估收益信号真的靠谱吗？ 作者通过皮尔逊相关系数分析发现，expected_gain 与最终正确率的相关性为 0.1479，虽然不算极高，但已经足够形成有效的阶梯式控制逻辑（见下图）：

启发式信号分析 图 2：当模型自认为收益（Gain）较低时，其继续执行（Continue-rate）的倾向明显下降，证明了这种显式信号的引导作用。

总结与未来展望

Takeaway：这项工作的核心贡献在于提供了一个**“防御性”的 Agent 编排框架**。对于工业级应用，我们往往不需要 Agent 有多么天马行空的推理曲线，而需要它在预算范围内给出稳定的交付。

局限性：目前所有的效用组件仍依赖 LLM 的启发式输出，而非经过校准的（Calibrated）概率。未来，引入强化学习（RL）来自动化学习这些效用权重 $λ$ ，或者使用更轻量的小模型来充当编排器（Orchestrator），将是通往高效 Agent 的重要路径。

Find Similar Papers

Try Our Examples

查找最近其他试图解决 LLM Agent 在多轮工具调用中降低推理成本和 Token 消耗的论文或 SOTA 方法。
哪篇论文最早探讨了 LLM 的自我效用评估（Self-estimated Utility）或置信度校准，本文在启发式信号设计上参考了哪些先前研究？
有哪些研究将显式编排策略（Explicit Orchestration）应用到了多模态 Agent 或具有更长轨迹的具身智能任务中？

Contents

[2024] 效用导向的 Agent 编排：在回答质量与执行成本之间寻找最优解

1. TL;DR

2. 背景定位：Agent 行为的“黑盒”困境

3. 核心机制：效用函数 (Utility Function)

4. 实验洞察：成本与质量的博弈

5. 深度思考：启发式信号的真实性

6. 总结与未来展望