WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[2024] 效用导向的 Agent 编排:在回答质量与执行成本之间寻找最优解
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了一个效用导向的代理编排框架(Utility-Guided Agent Orchestration),旨在解决工具使用型 LLM Agent 在回答质量与执行成本之间的权衡问题。该方法将编排视为显式的决策问题,通过平衡预估收益、步骤成本、不确定性和冗余来选择动作,在保证竞争性性能的同时显著提升了行为的可控性。

TL;DR

在 LLM Agent 的开发中,开发者常陷入两难:是选择死板但省钱的固定工作流,还是选择聪明但“大手大脚”的 ReAct 循环?本文提出了一种效用导向的编排框架 (Utility-Guided Orchestration),将 Agent 的每一次行动(检索、调用工具、校验、停止)转化为一个显式的数学决策问题。该方法不追求极致的 SOTA 分数,而是致力于提供一个可控、可分析的决策层,让 Agent 学会“见好就收”。

背景定位:Agent 行为的“黑盒”困境

目前的 Agent 系统大多将行为逻辑埋藏在复杂的 System Prompt 中。这种做法导致了两个核心痛点:

  1. 冗余行动 (Redundancy):模型可能会反复检索已经获得的信息。
  2. 过度支出 (Over-execution):即使当前证据已足够回答问题,模型仍倾向于继续推理,导致不必要的 API 调用和延迟。

本文将编排逻辑从 Prompt 层面剥离,将其定义为一个显式决策序列问题,这标志着 Agent 设计从“提示工程”向“系统工程”的转变。

核心机制:效用函数 (Utility Function)

作者为 Agent 设计了一个简洁的效用评估公式,要求模型在每一步行动前进行自我评估:

  • 预估收益 (Gain):如果执行这个动作,能为最终答案贡献多少新价值?
  • 步骤成本 (StepCost):执行这一步需要多少 Token 或时间成本?
  • 不确定性 (Uncertainty):我现在的证据足以回答问题吗?
  • 冗余度 (Redundancy):我之前是不是做过类似的事情?

模型架构图 图 1:效用导向框架的整体循环流程。Agent 不再盲目循环,而是在每一步都会计算各个潜在动作的效用。

实验洞察:成本与质量的博弈

通过在 HotpotQA 上的实验,作者验证并揭示了几个关键结论:

  1. 自适应能力优于固定流:相比于预定义的 Workflow,效用编排能根据任务难度自动调整步数。
  2. 显式停止的必要性:实验显示,如果移除 stop 决策或 gain 评估,Agent 的 Token 消耗会瞬间翻倍,但 F1 分数仅有微小提升。这意味着很多 Agent 行为在边际效应上是非常不划算的。
  3. 冗余控制初显成效:引入语义冗余(Semantic Redundancy)检测后,虽然增加了微小的计算延迟,但显著减少了无意义的工具调用次数。

实验结果对比 表 1:不同策略下的性能对比。可以看到 policy 变体在 F1 和 Token 效率之间找到了比纯 ReAct 更灵活的平衡点。

深度思考:启发式信号的真实性

文章中一个深刻的分析在于:LLM 自我生成的预估收益信号真的靠谱吗? 作者通过皮尔逊相关系数分析发现,expected_gain 与最终正确率的相关性为 0.1479,虽然不算极高,但已经足够形成有效的阶梯式控制逻辑(见下图):

启发式信号分析 图 2:当模型自认为收益(Gain)较低时,其继续执行(Continue-rate)的倾向明显下降,证明了这种显式信号的引导作用。

总结与未来展望

Takeaway:这项工作的核心贡献在于提供了一个**“防御性”的 Agent 编排框架**。对于工业级应用,我们往往不需要 Agent 有多么天马行空的推理曲线,而需要它在预算范围内给出稳定的交付。

局限性:目前所有的效用组件仍依赖 LLM 的启发式输出,而非经过校准的(Calibrated)概率。未来,引入强化学习(RL)来自动化学习这些效用权重 ,或者使用更轻量的小模型来充当编排器(Orchestrator),将是通往高效 Agent 的重要路径。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图解决 LLM Agent 在多轮工具调用中降低推理成本和 Token 消耗的论文或 SOTA 方法。
  • 哪篇论文最早探讨了 LLM 的自我效用评估(Self-estimated Utility)或置信度校准,本文在启发式信号设计上参考了哪些先前研究?
  • 有哪些研究将显式编排策略(Explicit Orchestration)应用到了多模态 Agent 或具有更长轨迹的具身智能任务中?
Contents
[2024] 效用导向的 Agent 编排:在回答质量与执行成本之间寻找最优解
1. TL;DR
2. 背景定位:Agent 行为的“黑盒”困境
3. 核心机制:效用函数 (Utility Function)
4. 实验洞察:成本与质量的博弈
5. 深度思考:启发式信号的真实性
6. 总结与未来展望