Data-efficient pre-training by scaling synthetic megadocs

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

Data-efficient pre-training by scaling synthetic megadocs

[arXiv 2025] Scaling Megadocs：合成数据不再只是“复读机”，而是预训练效率的倍增器

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了名为 Megadocs 的预训练数据增强框架，通过将同一原始文档的多个合成变体（如 Rephrase 或 Latent Thoughts）组合成超长文档，显著提升了语言模型的预训练效率。在 300M 参数模型的实验中，该方法实现了高达 1.80 倍的数据效率提升，并在长文本建模和下游任务中打破了常规合成数据的性能瓶颈。

TL;DR

面对互联网文本即将被模型“吃光”的困局，斯坦福大学团队提出了一种全新的合成数据利用范式：Megadocs。他们发现，与其将模型生成的重述内容（Rephrasing）打散作为独立样本，不如将它们与原件“缝合”成超长文档。这种方法不仅将预训练的数据效率提升了 80%，更在长文本处理能力上实现了跨越式进步。

背景定位：当计算量不再是瓶颈，数据才是

在传统的 Scaling Laws 中，我们习惯于增加 Compute。但在“数据荒”时代，如何压榨有限真实数据的价值成了核心挑战。本文定位在 Data-constrained Pre-training 坐标系中，探讨如何设计合成数据算法，使其在计算量趋于无穷大时，依然能让 Loss 持续下降。

痛点深挖：合成数据的“增益消失”之谜

目前主流的方法（如 WRAP）是将网页内容重述后加入训练集。然而，作者观察到一个现象：

独立性偏见：简单的重述将同一来源的 G 个副本视为完全无关的文档，浪费了跨文档的关联信息。
过拟合风险：当每个真实文档对应的合成副本增加时，性能提升很快会遇到“平台期”。
缺乏深度：单一的重述只是改变了表述，没有增加逻辑深度。

核心方法论：从短篇到 Megadoc 的演变

作者提出了两种构建“超长巨文档”（Megadocs）的策略：

1. Stitched Rephrasing (缝合重述)

受 In-context Pre-training (ICPT) 启发，作者将同一原始文档生成的 N 个重述版本按顺序拼接。

关键发现：将“原始真实文档”放在序列的最后效果最好。作者认为这涉及到 Epiplexity（学习复杂度），模型通过理解弱质的合成数据后，再去预测高质的真实原件，能学到更普适的特征。

2. Latent Thoughts (潜意识拉伸)

这种方法更具侵略性。它将原始文档切开，在裂缝中插入模型生成的 Rationale（推理逻辑），解释为什么上一段话会引出下一段。

效果：这种“拉伸”不仅增加了 Token 数量，更重要的是引入了合成的逻辑链。

模型架构与合成流图 图 1：左侧展示了 Megadoc 的两种构造方式：Stitched（拼接）与 Latent Thoughts（潜意识插入）

实验与结果：打破平台期的Scaling

实验在 300M 参数的 Transformer 模型上展开，使用了 200M 真实的 DCLM Token。

Loss 持续下降：相比于简单重述（Simple Rephrasing）在 32 个副本附近陷入停滞，Megadocs 展现了更好的横向扩展性。
量化提升：Latent Thoughts 达到了 1.80x 的数据效率，意味着你只需要一半左右的真实数据，就能达到基线的 Loss。
下游任务：在 PIQA、SciQ 等基准测试中，准确率提升了 9%，这证明了这种预训练增益是可迁移的。

实验结果对比 图 2：随着合成生成数量 G 的增加，Megadocs (Stitched & Latent) 的 Loss 下降斜率明显优于橙色的简单重述。

深度洞察：为什么 Megadocs 有效？

作者提出了一个深刻的假说：Megadocs 延长了有效训练的步数。 在有限数据下，模型很快会过拟合。但 Megadoc 这种复杂的长序列结构提高了超参数（如 Epoch, Mixing Fraction）的容忍上限。实验显示，Megadoc 允许模型对真实数据进行更多次的迭代（多达 32 个 Epoch）而不产生严重的过拟合，从而在有限的“矿藏”中挖掘出了更多的知识。

总结与局限性

Takeaway: Megadocs 证明了合成数据的组织形式（Structure）与内容本身同样重要。通过构建长程依赖任务，我们可以打破数据规模的物理限制。

局限性:

教师模型依赖：实验使用了 Llama 3.1 8B 作为教师。虽然作者通过 Ablation 证明了这种增益不仅仅是蒸馏，但在完全没有强大基座模型的冷启动阶段，该方法的有效性仍需验证。
计算成本：生成长文档和处理超长上下文对推理和训练算力提出了更高要求。

这项研究为未来的预训练数据工程指明了方向：不要只做数据的搬运工，要做数据的“编织者”。

Find Similar Papers

Try Our Examples

查找最近其他通过改变预训练文档排列顺序（如 In-context Pre-training）来提升长文本建模能力的 SOTA 论文。
哪篇论文最早提出了 WRAP (Rephrasing the Web) 方法，本文提出的“拼接缝合”策略在理论上是如何改进其 i.i.d. 损失的？
目前有哪些研究探讨了将 Latent Thoughts 或思维链技术从微调阶段提前应用到大规模预训练阶段的可能性及其效果？

Contents

[arXiv 2025] Scaling Megadocs：合成数据不再只是“复读机”，而是预训练效率的倍增器

1. TL;DR

2. 背景定位：当计算量不再是瓶颈，数据才是

3. 痛点深挖：合成数据的“增益消失”之谜

4. 核心方法论：从短篇到 Megadoc 的演变

4.1. 1. Stitched Rephrasing (缝合重述)

4.2. 2. Latent Thoughts (潜意识拉伸)

5. 实验与结果：打破平台期的Scaling

6. 深度洞察：为什么 Megadocs 有效？

7. 总结与局限性