本文提出了 MOOSE-Star 框架,旨在解决科学发现任务中生成推理过程 的训练难题。该框架通过理论分解将组合复杂度从指数级 降低至对数级 ,并发布了包含 10.8 万篇论文分解数据的 TOMATO-Star 数据集,实现了 SOTA 的科学假设生成与搜索性能。
TL;DR
科学发现的本质是从海量知识中提取灵感并进行创造性合成。然而,由于搜索空间随灵感数量呈指数级爆发(),直接训练 AI 模型进行科学发现一直被认为在数学上是不可行的(Intractable)。MOOSE-Star 通过一套精密的概率分解理论,将这一复杂度降至对数级(),并配合 3.8 万 GPU 小时打造的 TOMATO-Star 数据集,首次实现了科学假设生成过程的高效训练与持续扩展。
痛点深挖:消失的推理路径与“复杂度墙”
当前的“AI Scientist”研究大多陷入了两个极端:要么依赖外部反馈(如代码执行结果或审稿人意见)进行强化学习,要么直接进行端到端的暴力采样。
作者指出,科学假设 的生成可以看作背景 与一系列灵感 的合成。这意味着模型必须在拥有千万级文献()的隐含空间中,精准锁定 个灵感的组合。
- 端到端训练的困境:搜索空间是 。由于有效的科研推理路径在自然语言分布中极度稀缺,模型在训练初期几乎无法采样到正面样本,陷入“训练死锁”。
- 暴力采样的崩溃:实验显示,当灵感步数 从 1 增加到 3 时,未经过特殊设计的模型成功率会从 53% 陡降至 8%,直接撞上“复杂度墙”。
核心方法论:从指数到对数的四重演进
MOOSE-Star 的核心在于通过四个阶段的优化,逐步拆解不可行的 目标:
1. 分解训练 (Decomposed Training)
利用马尔可夫性,将 分解为灵感检索 (IR) 和 假设合成 (HC)。这直接将复杂度从笛卡尔积(乘法)变成了线性求和(加法),即 。
2. 隐式边界合成 (Bounded Composition)
为了解决检索器可能无法精准定位“唯一正确文献”的问题,提出了“语义宽容空间”。训练 HC 模块在以目标灵感 为中心、包含 个近邻的语义球内都能产出正确结果。这进一步将检索压力下放到局部推理中,复杂度演变为 。

3. 层次化搜索 (Hierarchical Search)
作者摒弃了线性扫描知识库的做法,通过 K-means 聚类构建了一棵语义搜索树。利用 Best-First Search 策略,模型可以从根节点向下导航,在每一步只进行 15 选 1 的局部决策。在理想状态下,复杂度被压缩到了 。
4. 动机规划 (Motivation Planning)
这是最后的“导航仪”。模型在检索前先生成一个动机变量 。通过将 加入 Query,搜索过程从“盲目寻找”变为“意向导向”,在大幅缩减搜索步骤的同时提升了路径的连贯性。
实验战绩:突破采样极限
研究团队耗费巨资构建了 TOMATO-Star 数据集。他们利用 DeepSeek-R1 等强推理模型,将 10.8 万篇真实论文(涵盖生物、化学、认知科学)逆向分解为“背景-灵感-假设增量”三元组。
关键发现:
- 打破训练死锁:在多步合成任务中,端到端方法的通过率(Pass Rate)仅为 0.13%,而 MOOSE-Star 的 HC 模块保持了 47.33% 的稳健通过率,为 fine-tuning 提供了充沛的数据。
- 测试时扩展 (Test-time Scaling):随着推理算力的增加(Inference Calls),MOOSE-Star 的成功率持续攀升。相比之下,普通采样方法在 10,000 次尝试后依然无法解决复杂度高的难题(见下图)。

深度洞察:科学发现的“逻辑”可以被学习吗?
MOOSE-Star 最令人振奋的发现是其 OOD(分布外)泛化能力。科学灵感检索本质上是 OOD 任务,因为真正的创新在于连接此前从未被连接的概念。
实验显示,随着训练数据的规模化,IR 模块展示了清晰的 Log-linear 提升。这意味着模型不仅是记住了文献的关联,而是逐渐习得了一种“发现的逻辑(Logic of Discovery)”——一种跨领域的、抽象的语义联想直觉。
总结与局限性
MOOSE-Star 成功将科学发现从一个“拼运气”的暴力采样问题,变成了一个“有理可循”的层次化搜索问题。
- 价值:开源了高质量的科研分解数据集,并为未来构建闭环 AI 科学家提供了理论基石。
- 局限:目前的层次化树构建仍依赖于静态的文献嵌入(SPECTER2),未来若能实现动态更新的知识图谱索引,将进一步释放其潜力。
Takeaway: 真正的科学智能不应只是对结论的比对,而应是对“如何寻找灵感并将其内化为结论”这一元能力的建模。
