HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

[HorizonMath 2026] 数学研究的自动驾驶里程碑：GPT 5.4 Pro 首次突破人类已知的数学边界

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 HorizonMath，一个包含 101 个应用数学和计算数学前沿难题的基准测试集。该基准借鉴“生成-验证间隙（Generator-Verifier Gap）”原理，通过 Python 脚本实现自动化验证，旨在评估 AI 在真实数学发现（而非仅是解题）中的潜力。

TL;DR

传统数学 AI 基准已死，HorizonMath 开启了“自动验证数学发现”的新纪元。该 Benchmark 包含了逾百个尚未解决的数学难题，模型不再是复述已知答案，而是被要求直接挑战学术前沿。令人震惊的是，GPT 5.4 Pro 已经在两个经典优化难题中给出了优于人类发表文献（State-of-the-art）的最佳结果，这标志着 AI 正在实现从“解题”到“发现”的跨越。

背景：为什么我们需要 HorizonMath？

在 AI 迈向 AGI 的路径中，数学推理被视为“北极星”。然而，行业面临两大尴尬：

数据污染：MATH 和 GSM8K 的题目早已存在于训练语料中，高分往往源于记忆而非推理。
评估黑洞：要把 AI 提升到研究生甚至教授水平，必须让它处理 Open Problems。但验证“新发现”通常需要数学家查阅几周，或者写成极难掌握的 Formal Proof（如 Lean 语言）。

HorizonMath 利用了 Generator-Verifier Gap：产生一个复杂的数学构造（如一个满足要求的特殊矩阵）极难，但写个程序检查它是否满足要求却极快。

核心机制：三类“可计算”的未解之谜

HorizonMath 并非直接处理玄奥的逻辑证明，而是将数学研究抽象为三种可工程化评估的形式：

闭式解发现 (Closed-form Discovery)：给定一个只有数值近似值的数学常数（如 Airy 函数的五阶矩），让 AI 找出一个由 $π, e, Γ$ 等组成的简洁解析式。
基准优化 (A-better-than-B)：提供当前学术界最好的边界（Bound），让 AI 构造一个新的数学对象去打破这个记录。
存在性构造 (Structural Existence)：寻找满足特定对称性或性质的对象（如特定阶数的 Hadamard 矩阵）。

模型架构图 图 1：HorizonMath 自动化评估流水线，包含合规性检查（严禁模型调用数值积分等“作弊”手段）与三大评估模式。

战报分析：GPT 5.4 Pro 的突破性表现

在针对 GPT 5.4 Pro, Gemini 3.1 Pro 和 Claude Opus 4.6 的同台竞技中，结果呈现出显著的层级化：

1. 瘦三角形 Kakeya 问题 (Thin-Triangle Kakeya)

这是一个关于如何以最小面积覆盖所有方向直线的经典几何问题。

人类/此前 AI 记录：0.11481 (DeepMind AlphaEvolve, 2025)
GPT 5.4 Pro 表现：通过一种层级局部搜索算法，构造了 128 个新的截距，将面积降至 0.10915（提升约 4.9%）。
意义：这一结果已通过 Mathematica 的精确有理算术验证，属于真正的数学改进。

2. 对角 Ramsey 数 (Ramsey Numbers)

组合数学中的皇冠。GPT 5.4 Pro 挑战了 2024 年由 Gupta 等人提出的渐近上界常数优化。

SOTA 记录：c ≈ 3.7992
GPT 5.4 Pro 表现：通过引入五次校正多项式并微调参数，给出了一个 c ≈ 3.6961 的新构造。

实验结果对比 图 2：主流模型在 HorizonMath 上的表现。可以看到，在真正的未解问题（Level 1-3）面前，老一代 SOTA 模型几乎全军覆没。

深度洞察：为什么这次不一样？

零污染保证：由于题目本身在论文发布前没有已知答案，模型不可能通过“背题”获得高分。
强制 Python 输出：HorizonMath 不接受自然语言胡诌，必须输出严谨的 Python 函数。这要求模型具备极强的代码实现+数学建模的双重能力。
合规性过滤：为了防止模型直接调用 mpmath.findroot 等数值工具暴力破解，系统内置了 LLM 审计器，确保结果必须通过数学直觉和公式推导获得。

局限与未来

作者坦言，数值匹配（即使精确到小数点后 20 位）在数学上并不等同于严密的逻辑证明。这些发现目前应被视为**“强有力的猜想（Conjectures）”**。

未来的方向在于将这种“快速发现能力”与 Lean 等形式化验证系统结合——由 AI 提出能跑通数值实验的“正确答案”，再由 AI 尝试自动化证明其正确性。

总结

HorizonMath 是一把尺子，它测量的不再是 AI 有多博学，而是 AI 有多聪明。当 GPT 5.4 Pro 开始在 Ramsey 数这种顶级数学难题上刷榜时，我们必须意识到：AI 已经从实验室的玩具，变成了真正能推动人类认知的生产力。

本博客由资深学术编辑重构。更多论文详情见 arXiv 原文。

Find Similar Papers

Try Our Examples

查找最近其他利用大型语言模型（LLM）尝试解决 Kakeya 猜测或 Ramsey 数边界问题的开源研究或论文。
哪篇论文最早系统性地讨论了“生成-验证间隙”在 AI 数学发现中的应用，本文的验证框架与其有何异同？
有哪些研究正尝试将 HorizonMath 这种基于 Python 验证的数值方法与 Lean 或 Isabelle 等形式化证明系统结合？

Contents

[HorizonMath 2026] 数学研究的自动驾驶里程碑：GPT 5.4 Pro 首次突破人类已知的数学边界

1. TL;DR

2. 背景：为什么我们需要 HorizonMath？

3. 核心机制：三类“可计算”的未解之谜

4. 战报分析：GPT 5.4 Pro 的突破性表现

4.1. 1. 瘦三角形 Kakeya 问题 (Thin-Triangle Kakeya)

4.2. 2. 对角 Ramsey 数 (Ramsey Numbers)

5. 深度洞察：为什么这次不一样？

6. 局限与未来

7. 总结