SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions

[arXiv 2024] SUPERNOVA：RLVR 数据策展新范式，让 4B 小模型逆袭通用推理 SOTA

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 SUPERNOVA，一个专为强化学习与可验证奖励（RLVR）设计的通用推理数据策展框架。通过利用现有的指令微调数据集（如 SuperNI），该框架能够有效提取并重构海量高质量的通用推理任务，使小型模型（如 Qwen3-4B）在 BBEH 等通用推理基准上超越了 2 倍规模的基线模型，刷新了非科学（Non-STEM）领域的推理性能 SOTA。

TL;DR

在 DeepSeek-R1 开启的“后规模时代”，RL（强化学习）已成为提升模型推理能力的标配。然而，业界一直面临一个尴尬现状：模型在 MATH 和代码上刷分飞起，遇到逻辑悖论或因果分析却表现平平。本文提出的 SUPERNOVA 框架通过对 SuperNI 等人类标注指令集的“点金之术”，成功将 RLVR（带可验证奖励的强化学习）引入通用推理领域。结果惊人：一个 4B 的模型在通用推理任务上竟能吊打 8B 甚至更大参数量的模型。

背景定位：通用推理的“缺失环节”

当前的推理模型正陷入“STEM 局部优化的陷阱”。虽然 AIME、CodeForces 成绩显著，但在 BBEH (Big-Bench Extra Hard) 这类评估因果、空间、时间理解的基准上，很多号称“Thinker”的模型反而退步了。

作者指出：通用推理能力的匮乏，本质上是因为缺乏高质量、可验证的非 STEM 训练数据。互联网抓取的数据就像“垃圾食品”，噪声大且难以自动判分。

核心动机：指令数据的“二次开发”

作者产生了一个天才的直觉（Insight）：人类过去几年辛苦积累的 Instruction-tuning 数据库（如 SuperNI、FLAN）中其实蕴含了极丰富的推理模式，只是因为它们大多是开放式问答，无法直接喂给 RL 算法。如果能把这些数据“重构”为可验证格式，不就拥有了一座推理金矿？

方法论：SUPERNOVA 的三阶火箭

SUPERNOVA 并不是简单地堆砌数据，它包含了一套严谨的策展策略：

1. 任务重构与选择 (Task Selection)

并不是所有指令任务都能触发推理。作者测试了 83 个候选任务，发现效果千差万别。

高价值任务：多步推理（Multi-hop）、指代消歧。
负贡献任务：叙事相干性、单纯的日期格式转换。

SUPERNOVA 策展框架架构图

2. 微观混合策略 (Micro Mixing)——最关键的创新

传统的做法是计算所有任务的平均分，选前 N 名（Macro Mixing）。SUPERNOVA 提出了 Micro Mixing：

将 BBEH 拆解为 23 个子任务（如：几何、逻辑、社交）。
针对每个子任务，挑选最能提升该能力的 Top-K 个练习题集。
取并集。结果：Micro Mixing 的性能一致性地优于 Macro Mixing，因为它保证了模型推理技能的“营养均衡”。

3. 反直觉的发现：合成干预（Data Intervention）

作者尝试通过注入长上下文、人为制造逻辑陷阱来增加数据难度。但实验表明，这些合成干扰在固定算力预算下反而降低了模型表现。这给盲目崇拜“复杂合成数据”的研究者们敲响了警钟：真实的、高质量的人工标注结构依然是不可替代的。

实验战绩：小钢炮的胜利

在 BBEH 这种“硬骨头”基准测试中，SUPERNOVA 展现了极强的统治力。

| 模型 | 参数量 | BBEH-test (pass@8) | 相比基线提升 | | :--- | :--- | :--- | :--- | | Qwen3-0.6B | 0.6B | 15.2% | - | | SUPERNOVA-0.6B | 0.6B | 25.0% | +64.5% | | Qwen3-4B | 4B | 23.2% | - | | SUPERNOVA-4B | 4B | 33.3% | +43.5% | | Qwen3-8B | 8B | 24.2% | (反被 4B 超越) |

实验结果对比-性能提升百分比

从上图可以看出，SUPERNOVA 的策展方案在不同领域（Math, BBH, Zebralogic）都实现了稳健增长。特别是在 Zebralogic（斑马逻辑难题） 上，SUPERNOVA-4B 的表现（77.0%）几乎两倍于原始模型（55.6%）。

深度洞察与总结

为什么 SUPERNOVA 有效？

精准打击：通过 Micro Mixing，模型被针对性地训练了处理特定逻辑结构的能力。
可验证性：将指令任务 MCQ 化，解决了通用推理中 Reward 信号模糊的问题。
探索空间：如下图所示，随着 $k$ 值的增大（从 pass@1 到 pass@128），SUPERNOVA 的领先幅度在扩大，说明它确实激发了模型在推理过程中的探索广度，而不仅仅是记住了答案。

Pass@k 曲线分析

局限性与展望

尽管 SUPERNOVA 在学术 Benchmarks 上表现优异，但其依赖的 SuperNI 任务类型仍有上限。未来如果能将该框架应用到更复杂的、非公开的工业级数据源上，人类或许能训练出在商业决策、法律咨询等复杂场景下具备真正“General Reasoner”素质的轻量化模型。

结论：想让 AI 变聪明，光刷数学题是不够的，得学会分类策展和精准 RL。

Find Similar Papers

Try Our Examples

查找最近其他尝试将 Reinforcement Learning with Verifiable Rewards (RLVR) 从数学/代码扩展到常识或法律推理等非形式化领域的论文。
哪篇论文最早讨论了推理能力的“逆向转移”（Negative Transfer）现象，即模型在学习 STEM 推理时导致通用推理能力下降的问题？
调研除了逻辑推理（Logical Reasoning），还有哪些研究利用合成数据或指令数据对状态空间模型（SSM/Mamba）进行通用推理能力的增强？

Contents

[arXiv 2024] SUPERNOVA：RLVR 数据策展新范式，让 4B 小模型逆袭通用推理 SOTA

1. TL;DR

2. 背景定位：通用推理的“缺失环节”

3. 核心动机：指令数据的“二次开发”

4. 方法论：SUPERNOVA 的三阶火箭

4.1. 1. 任务重构与选择 (Task Selection)

4.2. 2. 微观混合策略 (Micro Mixing)——最关键的创新

4.3. 3. 反直觉的发现：合成干预（Data Intervention）

5. 实验战绩：小钢炮的胜利

6. 深度洞察与总结

6.1. 为什么 SUPERNOVA 有效？

6.2. 局限性与展望