合成数据能否完全取代真实数据来训练AI模型？

在真实数据中加入合成数据能否提升AI性能？

是的，这种改进是可量化的。在胚胎细胞阶段预测中，将合成图像加入真实数据集后，分类准确率从94.5%提升至97%——提高了2.5个百分点[1]。这意味着模型在识别试管婴儿可用胚胎等关键任务中减少了错误。当使用另一家诊所的数据进行测试时，同样呈现出这一趋势，表明该效果并非偶然[1]。

更令人瞩目的是：一个仅用合成胚胎图像训练、并在真实图像上测试的模型，准确率达到了92%[1]。这仅比仅用真实数据训练的模型（94.5%）低2.5个百分点，表明在真实数据稀缺时，合成数据有时可以替代真实数据。然而，最佳性能始终来自两者的混合使用。

什么是“现实差距”，它为何重要？

“现实差距”是指合成数据与真实数据之间的不匹配，这种差异可能导致人工智能模型在实际部署时失效。在一项关于成形技术（金属冲压）的研究中，简单的仿真模型（L1）在合成数据域内对故障分类表现良好，但无法迁移至真实工艺数据[4]。更复杂的仿真模型（L2和L3）通过更准确地捕捉真实物理过程缩小了这一差距，但仍未能完全消除——显著性图显示，基于合成数据训练的模型所关注的信号区域与基于真实数据训练的模型存在差异[4]。

这一差距并非制造业独有。在水下声纳测绘领域，研究人员明确指出“合成数据无法替代真实数据的价值”，但可作为“有价值的补充”[5]。关键结论是：合成数据在扩充真实数据方面表现出色，但仅依赖合成数据则可能导致在实际应用中表现不佳。

合成数据的质量会影响结果吗？

当然可以。在胚胎研究中，扩散模型生成的合成图像有66.6%的概率骗过胚胎学家（他们误以为这些图像是真实的），而生成对抗网络（GAN）生成的图像仅有25.3%的概率骗过他们[1]。扩散模型还获得了更低的弗雷歇初始距离（FID）分数，这是衡量图像质量的标准指标。当两种合成数据结合使用时，分类准确率高于单独使用其中任何一种[1]。

在盲超分辨率（提升低分辨率图像质量）任务中，Real-ESRGAN模型虽基于纯合成数据训练，但通过复杂的“高阶退化建模”流程模拟真实世界的模糊与噪声[3]。该方法在处理真实图像时，相比以往技术生成了视觉上更优的结果，证明精心设计的合成数据能够缩小现实差距。然而，作者仍指出，合成数据无法在所有场景中完全替代真实样本。

本文引用的文献

融合合成与真实胚胎数据，实现先进的人工智能预测。

将合成胚胎图像加入真实数据后，分类准确率从94.5%提升至97%；仅使用合成数据训练的模型在真实数据上达到了92%的准确率。

2025 · Oriana Presacan, Alexandru Dorobanţiu, Vajira Thambawita, Michael A Riegler, Mette H Stensen, Mario Iliceto, Alexandru C Aldea, Akriti Sharma · Scientific reports

原文