合成数据对训练下一代大语言模型有效吗？

合成数据究竟何时能真正提升大语言模型的训练效果？

当真实数据稀缺、昂贵或涉及敏感信息时，合成数据便展现出独特价值。在心理健康研究中，由于自杀相关数据难以收集，研究人员利用ChatGPT和Llama生成合成文本，并取得了0.82的F1分数——与基于真实数据训练的模型表现相当。而当他们将仅30%的真实数据与合成数据混合使用时，模型性能跃升至0.88，甚至超越了纯真实数据模型[1]。这表明合成数据能够在保证质量的前提下填补数据缺口。

对于数学等专业领域，合成数据能显著提升模型性能。使用涵盖线性代数和抽象代数的合成数学问题对GPT-3进行微调后，其在抽象代数基准测试中的准确率提升了18%，在线性代数计算中提升了24%。即使是像Llama-2-7B这样的小型模型，准确率也实现了约两倍的增长[3]。关键在于生成高质量、贴近真实问题的领域特定示例。

在医疗领域，合成数据帮助从语音中检测早期认知障碍。通过将MedAlpaca-7B生成的合成叙述以2倍规模加入，模型在ADReSSo数据集上的F1分数从83.32提升至85.65[6]。类似地，在从文献中提取医学表型时，GPT-4生成的合成数据将实体识别F1分数从0.616提升至0.800——提升了30%[4]。

“陷阱何在？合成数据会适得其反吗？”

是的——仅使用合成数据会导致“模型崩溃”，即模型逐渐丧失生成有用且多样化输出的能力。2025年的一项研究表明，完全用合成数据重新训练生成模型会导致退化，但以适当比例混合合成数据与人类生成的数据，则可以防止这种崩溃[5]。平衡至关重要：合成数据过多，模型就会变成“复制的复制”，质量不断下降。

合成数据在处理主观性任务时也存在困难。2023年的一项研究发现，分类任务的主观性越强（例如情感分析 vs. 事实主题），基于合成数据训练的模型表现就越差。任务层面和实例层面的主观性都会降低准确率[7]。因此，对于需要细致人类判断的任务，合成数据的可靠性较低。

即使合成数据能带来帮助，也存在局限性。在认知障碍研究中，将合成数据量翻倍能改善结果，但增至三倍反而削弱了收益——这表明存在一个最佳平衡点[6]。此外，尽管合成数据能减少健康模型中的偏差（在敏感属性上可将偏差降低70%），但在因果公平性指标上，它仍与真实数据存在高达10%的偏差[2]。因此，它只是一种工具，而非万能灵药。

开发者应如何正确使用合成数据训练大语言模型

证据指向一种混合方法：使用合成数据来增强而非替代真实数据。最佳效果来自将少量真实数据与合成数据混合——例如30%真实数据加70%合成数据的组合，其表现优于仅使用真实数据的模型[1]。这种方法既能节省成本，又能保持质量。

质量控制至关重要。并非所有合成数据都具备同等质量——基于模板生成的数据存在过拟合风险，且缺乏多样性[8]。使用GPT-4等大语言模型生成数据，再经过精心筛选，能取得更优效果[9]。对于医学或数学等专业领域，必须采用领域特定的提示词，并对照真实案例进行验证[3][4]。

最后，要监控公平性与偏差问题。如果以因果公平性为原则生成合成数据，它实际上可以减少偏差——一项研究将偏差降低了70%[2]。但若缺乏精心设计，它也可能放大已有的偏差。关键在于：合成数据是一种强大的补充工具，但需要审慎整合，而非盲目采用。

本文引用的文献

使用大语言模型进行社交感知的合成数据生成以检测自杀意念

用于自杀意念检测的合成数据取得了0.82的F1分数，与真实数据持平；将30%的真实数据与合成数据混合后，F1分数提升至0.88。

2024 · Hamideh Ghanadian, Isar Nejadgholi, Hussein Al Osman · IEEE Access

原文

FairCauseSyn：迈向因果公平的大语言模型增强合成数据生成。

基于大语言模型增强的合成数据将敏感属性上的偏差降低了70%，同时在因果公平性指标上与真实数据的偏差小于10%。

2025 · Nitish Nagesh, Ziyu Wang, Amir M Rahmani · Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual International Conference

原文

合成数据增强了基于人工智能的语言模型的数学推理能力

合成数学数据使GPT-3在代数基准测试上的准确率提升了18%至24%，并让Llama-2-7B等较小模型的准确率提高了约两倍。

2025 · Zeyu Han, Weiwei Jiang · Inf. Technol. Control.

原文

PheCatcher：利用大语言模型生成的合成数据，从生物医学文献中自动提取表型定义。

GPT-4生成的合成数据将表型实体识别的F1值从0.616提升至0.800，从而能够从文献中提取173,283条表型定义。

2025 · Yan Hu, Na Hong, Yiming Li, Xueqing Peng, Yong Chen, Hua Xu · Studies in health technology and informatics

原文

在利用合成数据训练大型语言模型时防止模型崩溃

仅在合成数据上训练生成模型会导致模型崩溃；而以适当比例混合合成数据与人类数据则可防止性能退化。

2025 · Bahman Gharesifard, Paulo Tabuada · CDC

原文

LLMCARE：通过大语言模型生成的合成数据增强的Transformer模型，实现认知障碍的早期检测。

以2倍速合成的语音叙事将认知障碍检测的F1分数从83.32提升至85.65，但更高的语速则削弱了这种提升效果。

2025 · Ali Zolnour, Hossein Azadmaleki, Yasaman Haghbin, Fatemeh Taherinezhad, Mohamad Javad Momeni Nezhad, Sina Rashidi, Masoud Khani, AmirSajjad Taleban, Samin Mahdizadeh Sani, Maryam Dadkhah, James M Noble, Suzanne Bakken, Yadollah Yaghoobzadeh, Abdol-Hossein Vahabie, Masoud Rouhizadeh, Maryam Zolnoori · Frontiers in artificial intelligence

原文

使用大语言模型生成合成数据进行文本分类：潜力与局限

分类任务的主观性与基于合成数据训练的模型性能呈负相关；主观性越强的任务，性能下降越明显。

2023 · Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin · Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing

原文

合成数据能让大型语言模型更高效吗？

基于模板的合成数据生成存在过拟合风险且缺乏多样性，因此平衡合成数据与真实数据至关重要。

2023 · Sia Gholami, Marwan Omar · arXiv.org

原文

关于大语言模型驱动的合成数据生成、筛选与评估：综述

对LLM驱动合成数据的调查表明，需要统一框架和精心筛选，以最大化收益并最小化风险。

2024 · Lin Long, Rui Wang, Ruixuan Xiao, Junbo Zhao, Xiao Ding, Gang Chen, Haobo Wang · Findings of the Association for Computational Linguistics: ACL 2024

原文