AI Agents Can Already Autonomously Perform Experimental High Energy Physics

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

AI Agents Can Already Autonomously Perform Experimental High Energy Physics

[arXiv 2026] JFC 框架：AI Agent 已经可以自主搞定高能物理实验了

Summary

Problem

Method

Results

Takeaways

Abstract

本文介绍了一种名为 Just Furnish Context (JFC) 的 AI Agent 架构，它基于大语言模型（Claude Code）实现了高能物理（HEP）实验分析的全自动化。JFC 能够自主完成从策略制定、数据探索、背景估计、不确定性量化到论文草拟的完整流水线，并在 ALEPH、DELPHI 和 CMS 开放数据集上成功复现了希格斯粒子和 Z 玻色子等 SOTA 测量任务。

核心速览 (Executive Summary)

TL;DR：来自 MIT 和 CERN 的研究团队证明，基于 Claude Opus 的 AI Agent 已经具备了自主执行复杂高能物理（HEP）实验分析的能力。通过名为 Just Furnish Context (JFC) 的框架，Agent 无需人类编写代码模板，仅凭一段高层物理指令（如“测量 Z 玻色子的强耦合常数”），即可在大约 6 小时内完成从数据清洗、信号选择、背景建模、不确定性估计到撰写 50 页 PDF 论文的全过程。

背景定位：这不仅仅是一个代码助手，它是首个将文献知识库检索、多阶段自主规划与多 Agent 评审闭环整合的高能物理全自动流水线。它标志着 AI 在科研领域从“效率工具”向“独立研究者”的本质跨越。

痛点与动机 (Problem & Motivation)

高能物理实验分析是一个“ algorithmic ”（算法化）但极其枯燥的过程。一个典型的博士生需要花费数年时间：

阅读文献，寻找相似测量方法的切迹（Cuts）。
编写上万行 Python/C++ 代码来处理 PB 级的数据。
在数百个系统误差源中反复磨洋工。

现有的 Agent 工作（如某些 LLM 编程插件）主要存在两个瓶颈：

上下文腐烂（Context Rot）：长周期的物理分析会迅速耗尽 LLM 的上下文窗口。
缺乏领域直觉（Domain Intuition）：通用模型不懂 CMS 实验的绘图规范，也不懂如何利用以前的 ALEPH 实验数据。

作者的 Insight 是：如果能给 AI 提供足够的“操作手册”（Methodology）和“历史文献”（Literature），并模拟学术界的“同行评审”机制，AI 就能在约束下展现出替代人类初级研究员的创造力。

方法论详解 (Methodology - The Core)

1. JFC 任务解构：七步走策略

JFC 将整个物理分析拆分为七个有序阶段（Phases），每个阶段必须产生一个 Markdown 构件（Artifact），并通过多 Agent 评审后才能进入下一步：

Phase 1 — 策略制定：检索文献，定义信号和背景。
Phase 2 — 探索性分析：检查数据质量。
Phase 3 — 选择与建模：实现事件过滤算法。
Phase 4 — 拟合与 Unblinding：这是最关键的一步，包含模拟拟合和正式开箱数据。
Phase 5 — 论文撰写：利用 Pandoc 生成 publication-grade 的 PDF。

2. 多角色评审团（Multi-Agent Review）

为了保证物理结论的严谨性，JFC 设立了独特的评审层级：

Physics Reviewer：扮演大牛教授，只看物理直觉，不看代码规范。
Critical Reviewer：像难搞的审稿人，对照实验规范查漏补缺。
Plot Validator：专门负责程序化验证图表的坐标轴、单位和亮度信息。
Arbiter（仲裁者）：汇总所有反馈，决定是进入下一阶段（PASS）还是打回重做（ITERATE）。

JFC 框架流程图 图 1：JFC 框架与人类物理学家工作流的对比。右侧展示了 AI Agent 如何模拟实验室内部的多级评审机制。

3. SciTreeRAG：从论文中学习如何做实验

JFC 集成了 SciTreeRAG，它不仅是简单的文本检索，而是将 1989-1995 年间所有的 LEP 实验论文映射为结构化知识。当 Agent 需要确定 $Z o bb$ 测量的切迹时，它会查阅历史记录，直接获取已被物理界认可的参数。

实验与结果 (Experiments & Results)

核心测量表现

JFC 在多个经典 HEP 任务上进行了实测：

Z 线型测量（ALEPH）：拟合得到的 Z 质量 $M_{Z} = 91.179 \pm 0.004$ GeV。尽管在宽度 $Γ_{Z}$ 上存在 3.3 $σ$ 的偏差，但这主要归咎于开放数据集的统计限制，而非 AI 的逻辑错误。
希格斯粒子 $H o a u a u$ （CMS）：在 11.6 $f b^{- 1}$ 的数据上成功运行了完整的信号强度测量流水线。

自动化效率

运行时间：每个分析通常在 4-6 小时内完成。
人力投入：仅需一段短于 10 行的自然语言 Prompt。

拟合结果对比 图 2：JFC 自主生成的 Z 玻色子线型拟合图。模型完美复现了 Breit-Wigner 共振曲线，并自动计算了残差。

深度洞察与总结 (Critical Analysis & Conclusion)

JFC 的强与弱

强在严谨性：JFC 在执行系统误差（Systematics）评估时表现得异常出色，它会自动生成对比表，对比自己的结果与 20 年前发表的 ALEPH 论文。
弱在“治疗拖延症”：作者发现 AI 能够正确诊断出问题（例如拟合不收敛），但往往倾向于在文档中写下限制（Limitations）而不是在代码中闭环解决它。这种“我知道错，但我以后再改”的行为与人类初级研究生高度相似。

未来展望

这项工作向学术界发出了“行动号召”：

改变教育重心：学生不应再把青春浪费在写重复的 C++/Python 模板上，而应学习如何“监督”AI。
遗留数据挖掘：存在硬盘里的历史实验数据（如 Tevatron, B-factories）现在可以用 AI Agent 进行低成本的大规模重分析。

Takeaway: AI 不会取代物理学家，但会写物理代码的 Agent 正在杀死物理学家的“搬砖”时代。科学家真正回归了“思考者”的身份。

Find Similar Papers

Try Our Examples

查找最近其他试图利用大语言模型 Agent 自动化科学发现全流程（从假设生成到实验报告）的论文，例如 The AI Scientist。
SciTreeRAG 系统是如何利用科学论文的层次结构进行知识检索的，本文在 JFC 框架中对其做了哪些领域适配？
有哪些研究探讨了在高能物理中使用生成式 AI 或 Agent 系统进行异常检测（Anomaly Detection）或探测器几何设计优化？

Contents

[arXiv 2026] JFC 框架：AI Agent 已经可以自主搞定高能物理实验了

1. 核心速览 (Executive Summary)

2. 痛点与动机 (Problem & Motivation)

3. 方法论详解 (Methodology - The Core)

3.1. 1. JFC 任务解构：七步走策略

3.2. 2. 多角色评审团（Multi-Agent Review）

3.3. 3. SciTreeRAG：从论文中学习如何做实验

4. 实验与结果 (Experiments & Results)

4.1. 核心测量表现

4.2. 自动化效率

5. 深度洞察与总结 (Critical Analysis & Conclusion)

5.1. JFC 的强与弱

5.2. 未来展望