How Well Does Agent Development Reflect Real-World Work?

Search

QA

Pricing

TrueCite

How Well Does Agent Development Reflect Real-World Work?

[ICLR 2025] Agent 研发真的反映了真实世界的工作吗？

Summary

Problem

Method

Results

Takeaways

Abstract

本文由 CMU 和斯坦福大学团队合作，通过将 43 个主流 AI Agent 评测基准（包含 7.2 万个任务实例）映射到 O*NET 美国劳动力市场分类体系，系统探讨了当前 Agent 研发与真实世界工作需求之间的对齐程度。研究揭示了当前 Agent 评测对编程领域的过度依赖，并提出了衡量 Agent 自主性（Autonomy）的新框架。

TL;DR

尽管 AI Agent 领域进展神速，但我们可能一直都在“闭门造车”。CMU 和斯坦福的最新研究通过对比 43 个评测基准与美国劳动力市场（O*NET）数据发现：当前的 Agent 研发极度偏科。我们过度迷恋编程任务（Computer/Math），却忽视了管理、法律等更具经济价值且数字化程度极高的领域。

核心矛盾：研发热度 vs. 经济现实

论文最震撼的发现在于**“研发与劳务市场的脱节”**。

领域错位：目前的基准测试中，绝大多数任务都属于编程和数学类。然而，这类职业仅占美国就业市场的 7.6%。相比之下，管理（Management）和法律（Legal）领域数字化程度高达 88% 和 70%，但在现有 Agent 评测中占比不足 1.4%。
技能盲区：在技能维度，Agent 研发高度集中在“获取信息”和“操作电脑”，而占据真实工作核心的“人际互动（Interacting with Others）”和“复杂决策”在评测中几乎处于真空状态。

Agent 研发与就业及价值的错位对比

方法论：如何给 Agent 测“工龄”？

为了将抽象的 Agent 行为与真实的职场任务对齐，作者构建了一套复杂的映射框架。

1. 双层分类体系

作者利用 O*NET 数据库 构建了两个分类法（Taxonomies）：

Domain-based：连接行业、职业到具体工作描述。
Skill-based：将工作分解为信息输入、心理过程、人际互动和产出执行。

2. 定义 Agent 自主性（Autonomy）

作者不单纯看“成功率”，而是引入了 Task Complexity（任务复杂度） 的概念。

复杂度 = 工作流中的独立语义步骤数。
自主性 = Agent 在特定成功率阈值下，能够处理的最大复杂度。

模型架构与映射流程图

实验发现：Agent 何时“罢工”？

研究通过分析数万条 Agent 执行轨迹（Trajectories）得出了几个关键结论：

断崖式下跌：在几乎所有领域，当任务步数超过 6 步后，Agent 的成功率（SR）都会大幅下降。
框架胜过模型：在复杂编程任务中，优秀的 Agent 框架（如 OpenHands）对性能的提升往往超过单纯更换更强的 LLM 底座。
专业知识缺失：在非编程领域，即使是简单的任务，Agent 的表现也远不如其在计算机领域的表现。

Agent 自主性曲线对比

深度洞察：我们该如何改进？

作者提出了基准测试设计的三个原则：

覆盖率（Coverage）：别只刷编程榜了，去看看市场管理和法律文书。
现实感（Realism）：拒绝模板化的合成数据，关注跨领域的真实流程。
粒度化（Granular Evaluation）：不要只看最终结果，要像评估人类员工一样，关注中间步骤的质量。

总结

这篇文章本质上是在给狂热的 Agent 社区“泼冷水”。它提醒我们：如果 Agent 的评测指标不反映真实的社会生产逻辑，那么技术上的 SOTA 只是数字游戏。 真正的 AI 革命应该发生在那些就业率最高、经济价值最集中的数字化阵地。

局限性分析：由于物理机器人（Physical Agents）的任务描述往往缺乏自然语言细节（多为视觉目标），本文在物理劳动力分析上的样本量相对较小，这可能是未来多模态 Agent 研究的一个重要切入点。

Find Similar Papers

Try Our Examples

查找最近一年内专门针对管理、法律或医疗等非编程领域的 AI Agent 评测基准研究。
哪篇论文最早提出了 AI Agent 自主性等级（Levels of Autonomy）的类似定义，工业界是否有相关的分级标准？
调研如何利用 O*NET 数据库评估 LLM 对各行业自动化潜力（Automation Potential）的经济学分析论文。

Contents

[ICLR 2025] Agent 研发真的反映了真实世界的工作吗？

1. TL;DR

2. 核心矛盾：研发热度 vs. 经济现实

3. 方法论：如何给 Agent 测“工龄”？

3.1. 1. 双层分类体系

3.2. 2. 定义 Agent 自主性（Autonomy）

4. 实验发现：Agent 何时“罢工”？

5. 深度洞察：我们该如何改进？

6. 总结