OpenEarth-Agent: From Tool Calling to Tool Creation for Open-Environment Earth Observation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

OpenEarth-Agent: From Tool Calling to Tool Creation for Open-Environment Earth Observation

[CVPR 2026] OpenEarth-Agent: 告别预定义工具，开启开放环境遥感的“工具造物”时代

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 OpenEarth-Agent，这是首个专为开放环境遥感（EO）设计的工具创建智能体框架。该框架通过动态生成专用工具而非调用预定义 API，实现了从数据获取、特征提取到地理空间分析的全流程自动化，并在新提出的 OpenEarth-Bench 评测中展现了卓越的泛化能力。

TL;DR

传统的遥感智能体（EO Agents）就像是手持固定工具箱的工匠，遇到没见过的零件便束手无策。OpenEarth-Agent 则进化成了拥有“3D打印机”的工程师：它不再局限于调用预定义的 API，而是根据任务需求和数据特性，现场编写并优化代码工具。在覆盖 7 大领域、596 个真实案例的 OpenEarth-Bench 评测中，它证明了即使只有极少数基础模型，也能通过“动态造物”解决全流程的遥感分析难题。

痛点深挖：封闭工具集的“天花板”

在开放的地球观测（EO）环境中，研究者面临着两个核心挑战：

数据的极端多样性：多光谱、雷达（SAR）、夜光影像（NTL）等数据格式各异，预置工具难以覆盖所有传感器的参数与噪声特性。
任务的碎片化与长程性：从云端数据下载、重采样，到深度学习特征提取，再到时间序列趋势分析，现有的 Agent 往往只能完成其中一环，难以形成闭环。

作者指出，现有的 Tool-calling 模式在面对未知任务时具有不可逾越的局限性。

核心机制：自适应规划与工具合成

OpenEarth-Agent 采用了多智能体协作（Multi-Agent Collaboration）架构，其工作流逻辑打破了传统的线性执行：

1. 迭代式数据探测 (Data Probing)

Data Summary Agent 不再盲目处理数据，而是先生成“探测脚本”去实时感知元数据（如投影空间、波段范围）。如果报错，它会根据 Traceback 自行修复脚本，直到精准掌握数据画像。

2. 多方案聚合规划 (Plan Aggregation)

为了减少 LLM 在复杂地理建模中的幻觉，Planning Agent 会生成多个候选方案并进行语义聚合，最终输出一个逻辑严密的拓扑图（DAG）。

3. 工具创建与闭环反馈

这是本论文的灵魂（见下图）。Coding Agent 根据任务节点实时合成 Python 工具。随即，Checking Agent 介入，利用地理学先验知识（如：NDVI 值是否在合理的 -1 到 1 之间）对结果进行验证。

模型架构图 图 1: OpenEarth-Agent 整体流程：感知、规划、创建、验证的闭环。

实验战绩：以少胜多的“造物”威力

为了验证开放环境下的生存能力，作者构建了 OpenEarth-Bench，涵盖城市、农业、水体等 7 大领域。

1. 舞台对比：SOTA 性能

实验显示，基于 GPT-5 的 OpenEarth-Agent 在全流程端到端任务中展现了极强的韧性。尤其在地理空间分析阶段，虽然准确率较基础任务有所下探，但仍远超其他开源基座模型。

2. 跨基准测试：工具创建 vs. 工具调用

在 Earth-Bench 的对比测试中，一个有趣的现象发生了：

以少胜多：只给 OpenEarth-Agent 提供 6 个 基础模型工具，其表现竟与集成 104 个 专门工具的传统 Agent 持平。
鲁棒性更强：由于是动态生成的代码，OpenEarth-Agent 能够自动处理无效值（No-Data）和物理意义缺失等传统静态工具容易忽略的问题。

实验结果对比 图 2: 不同 LLM 在 OpenEarth-Bench 各阶段的表现。

深度洞察：为什么“造物”比“搜索”更有效？

传统的 Tool-calling 本质上是语义映射，它假设任务和工具之间存在完美的匹配。然而，遥感任务中的“长尾需求”太多。OpenEarth-Agent 的有效性源于其逻辑的可解耦性——它将复杂的地理学先验转化为了 Python 代码的生成约束。

局限性探讨：

计算开销：多次 LLM 调用和迭代调试带来了更高的推理延迟，对实时应急响应（如火灾即时监测）构成挑战。
物理一致性：虽然有 Checking Agent，但对于更深层的地球物理方程约束，模型仍可能写出“看起来正确但物理逻辑玄学”的代码。

总结与展望

OpenEarth-Agent 的提出，标志着遥感智能体从“工具使用者”向“工具开发者”的跨越。未来，随着工具缓存机制（Tool-caching）和物理约束提示词的引入，这种自主进化的 EO 专家系统将有望成为处理全球尺度地表动态监测的中坚力量。

关键词：Earth Observation, Multi-Agent, Tool Creation, Open-Environment, OpenEarth-Bench

Find Similar Papers

Try Our Examples

查找最近关于大语言模型（LLM）从工具调用（Tool-calling）向工具创建（Tool-creation）演进的系统综述或代表性论文。
哪篇论文最早在遥感领域提出了智能体（Agent）的概念，OpenEarth-Agent 在多智能体协作架构上做了哪些具体改进？
除了遥感领域，目前有哪些研究将工具生成与反馈闭环（Feedback-driven reflection）应用到了自动驾驶或生命科学等科学发现任务中？

Contents

[CVPR 2026] OpenEarth-Agent: 告别预定义工具，开启开放环境遥感的“工具造物”时代

1. TL;DR

2. 痛点深挖：封闭工具集的“天花板”

3. 核心机制：自适应规划与工具合成

3.1. 1. 迭代式数据探测 (Data Probing)

3.2. 2. 多方案聚合规划 (Plan Aggregation)

3.3. 3. 工具创建与闭环反馈

4. 实验战绩：以少胜多的“造物”威力

4.1. 1. 舞台对比：SOTA 性能

4.2. 2. 跨基准测试：工具创建 vs. 工具调用

5. 深度洞察：为什么“造物”比“搜索”更有效？

6. 总结与展望