Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

[FAIR 2026] Principia & RLLM：跨越数值陷阱，让大模型真正掌握“理科推理”

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 Principia 这一针对复杂数学对象（如矩阵、分段函数）推理的基准与数据集，并提出了两种核心算法：RLLM（基于在线训练 LLM 作为奖励模型的统一对齐框架）和 ParaGator（通过在线 RL 学习多样化生成与测试时聚合的方法）。在 PrincipiaBench 上，该方法显著提升了 Llama 和 Qwen 系列模型的推理能力，并在 AIME（数学竞赛）和 GPQA（研究生级问答）中展现了跨格式的泛化性能。

TL;DR

Meta FAIR 团队发布的这篇文章是一项极具野心的工作，它不仅指出了当前 LLM 推理评估的“多选题陷阱”，还通过 Principia 数据集、**RLLM（模型即奖励）**和 **ParaGator（在线聚合）**三位一体的改进，让模型开始学习派生矩阵、分段函数等复杂数学对象。实验证明，这种针对复杂对象的训练不仅能刷爆新基准，还能意外带动 AIME 等传统数学任务的跨越式提升。

1. 痛点：被“多选题”宠坏的模型

目前的 AI 能够通过 AIME 或 GSM8K 考试，但它们真的会推理吗？作者发现，当把 SuperGPQA 中的单选题选项删掉，让模型直接写出数学表达式时，强如 o3 和 Qwen3-235B 的性能都会下降 10-20%。

原因很简单：模型学会了**“倒推法” (Backward Chaining)**。模型在有选项时会以此为锚点，而在真正复杂的科研场景（比如推导物理方程）中，并没有选项可以参考。此外，现有的 math-verify 库在面对 LaTeX 格式略有差异的等价表达式时极易报错，导致 RL 信号质量极差。

2. Principia 体系：为“硬核推理”定制数据

为了解决这一问题，作者构建了 PrincipiaBench 和 Principia Collection。

覆盖范围：涵盖等式、不等式、区间、集合、矩阵、分段函数。
构建机制：利用 GPT-OSS-120B 基于 MSC2020（数学分类）和 PhySH（物理标题）进行分级生成，并结合 Transitivity-aware Majority Voting（考虑传递性的众数投票）机制，确保合成数据的标签准确性。

模型架构与任务流程 图：模型在有选项时的捷径行为与无选项时的逻辑崩溃对比

3. RLLM：把 Rewards 交给“会思考”的模型

传统的奖励模型（RM）是一个输出标量的黑盒，难以解释且容易被 Trick。 RLLM (Reinforcement Learning with LM as RM) 提出：既然我们要优化推理模型，那为什么不用一个推理能力更强的 LM 来当老师？

J1 流程：先训练一个“会思考”的 RM。它不仅给分数，还要给出一段 <think> 过程来解释为什么这个答案是错的。
On-policy 优势：通过在训练中实时采样 Policy 模型的输出来迭代 RM，解决了分布偏移（OOD）带来的评判失准。
结果：即使是 1.7B 的微小模型，在 32B 的“思考型老师”指导下，其数学能力也能大幅跃升。

4. ParaGator：学会“查缺补漏”的聚合者

并行推理（Parallel Thinking）是当前的趋势，但简单投票（Majority Vote）无法处理“一堆错解中藏着一个对解”的情况。 ParaGator 的核心直觉是：

多样性生成：在生成候选解时，使用 Pass@k 优化，不再要求每个解都对，而是要求“这组解里至少有一个是对的”，这迫使模型去探索不同的解题路径（模式去塌陷）。
主动合并：训练模型作为一个聚合器（Aggregator），通过阅读前面的 N 个解，自动修正错误、提取有效步骤，并生成终版答案。

ParaGator 流程图 图：ParaGator 的训练流程：Pass@k 采样 + Pass@1 聚合

5. 实验战绩与洞察

战绩：在 PrincipiaBench 上，所有的基础模型经过 Principia Collection 训练后都获得了 7-18% 的绝对提升。
意外惊喜：专门针对“复杂数学对象”训练的模型，在 AIME（数值任务）上的表现竟然比直接用数值任务训练的模型更好。这说明：掌握了更难的结构化推导，简单的数值计算只是其能力的子集。
关键发现：模型作为校验器（Model-based Verifier）的 Recall 远高于规则校验器。

6. 总结与启示

Meta 的这项工作标志着 LLM 推理研究的一个转折点：

告别 Benchmarking 虚假繁荣：数值和多选题无法承载真正的逻辑深度，Principia 代表了更真实的需求。
自循环的闭环：通过推理模型评判逻辑（RLLM），再通过在线 RL 修正逻辑，这可能是通往真正“自我进化” AI 的关键路径。

未来的模型不仅要考高分，更要能像科学家一样，在一片虚无中推导出那行整齐的矩阵方程。

注：文中涉及的 Principia-7B-Zero, ParaGator-4B 等模型与数据集已在作者提供的 Huggingface 链接中发布。

Find Similar Papers

Try Our Examples

查找最近关于大语言模型通过逻辑推理派生复杂数学结构（如群论、微分流形）而非数值预测的最新评估基准。
哪篇论文最早提出了利用语言模型本身作为强化学习奖励模型（LM-as-RM）并在复杂推理任务上证明其优于传统标量奖励模型？
探索在大规模模型训练中，如何通过 Pass@k 优化机制在 RL 阶段显式防止模型塌陷并提升推理路径的多样性。

Contents

[FAIR 2026] Principia & RLLM：跨越数值陷阱，让大模型真正掌握“理科推理”

1. TL;DR

2. 1. 痛点：被“多选题”宠坏的模型

3. 2. Principia 体系：为“硬核推理”定制数据

4. 3. RLLM：把 Rewards 交给“会思考”的模型

5. 4. ParaGator：学会“查缺补漏”的聚合者

6. 5. 实验战绩与洞察

7. 6. 总结与启示