微调能否可靠地修复大语言模型的幻觉问题？

微调真的能减少幻觉吗？往往反而更糟。

简而言之，标准微调往往不仅无法解决幻觉问题，反而会加剧这一现象。2024年一项针对闭卷问答的对照实验表明，当微调引入预训练阶段未见过的新事实知识时，模型学习新信息的速度缓慢，且每掌握一个新事实，其产生幻觉的倾向就会线性增加[3]。换言之，微调时输入的不熟悉数据越多，模型编造答案的情况就越严重。这种影响并非微不足道：2025年一项针对生物医学大语言模型的评估发现，微调后的模型实际上比通用模型更容易产生幻觉，尤其是在狭窄医学知识以外的任务上[1]。通用模型Llama-3-8B-Instruct在《新英格兰医学杂志》病例挑战中得分64.3%，而微调后的OpenBioLLM-8B仅得30%——且微调模型更倾向于凭空捏造[1]。

为何会出现这种情况？核心问题在于，微调过程教会模型生成可能脱离其原有知识基础的回应。当模型遇到涉及新学但掌握不完善的事实的查询时，它倾向于输出与微调数据中的错误相一致的答案[6]。2025年的一项研究表明，微调数据中的陌生样本是幻觉模式的主要诱因——模型编造的答案往往直接反映了与这些陌生样本相关的错误回应[6]。这意味着，如果你的微调数据包含任何不准确之处，或引入了基础模型并未真正理解的概念，你实际上就是在训练模型产生幻觉。

微调能否减少幻觉？方法得当，确实可以。

微调可以减少幻觉，但前提是必须精心设计，直接针对问题本身。2024年的一项研究提出了一种名为WHW（What, How, Why）的数据组织方法，该方法在微调数据中加入了详细的任务描述和限制条件。与基于标准提示的微调相比，这种方法将幻觉减少了73%，同时在角色设定任务上的F1分数也提升了11%[2]。关键在于提供了明确的约束条件，从而防止模型生成缺乏依据的内容。

另一个有前景的方向是利用微调来教会模型在无法回答时说“我不知道”，而不是编造答案。2025年的一项研究表明，通过调整对不熟悉的微调样本的监督方式——例如训练模型在缺乏相关知识时拒绝作答——可以显著减少幻觉现象[6]。这一方法在多个微调技术（包括监督微调、强化学习和奖励模型训练）中均得到验证，并在TriviaQA和MMLU等标准基准测试上取得了成效[6]。

结合幻觉特定奖励的强化学习也展现出潜力。一项2026年的研究采用实体幻觉指数（EHI）作为奖励信号，对摘要生成模型进行微调，并对虚构实体施加惩罚。经此方式微调的模型在保持信息量的同时降低了幻觉率，甚至在跨领域任务中展现出更强的泛化能力[8]。类似地，2024年提出的“幻觉感知微调”（HAT）方法首先训练一个检测模型来识别幻觉，随后利用这些检测结果构建偏好数据集，用于直接偏好优化（DPO）微调，最终使大语言模型在降低幻觉率的同时提升了回答质量[7]。

比普通微调更有效的方法：检索增强生成与混合策略

鉴于微调存在的风险，许多研究人员如今推荐检索增强生成（RAG）作为一种更可靠的替代方案。2025年一项对比生物医学微调模型与通用模型的研究指出，RAG“可能为临床适配提供更有效的策略”[1]。RAG的工作原理是在推理阶段让模型访问外部知识库，因此无需在微调过程中记忆事实——这降低了产生幻觉的诱因。

一项2024年关于环境决策的研究发现，微调模型在标准化任务上仅取得小幅提升（精确度+1%），但在复杂智能体工作流中适应性有限（-3%），而最先进的通用模型在跨学科任务上表现高出10%[4]。研究者建议采用分层策略：对稳定的监管类任务进行选择性微调，同时结合基于RAG的智能体工作流处理动态、数据密集型决策[4]。

即使在青光眼检测这类专业领域，微调也并非唯一亮点。2025年的一项研究利用GPT-4o的视觉API，从OCT图像生成转诊信，实现了91%的准确率和100%的召回率——但这依赖于模型强大的通用能力加上结构化临床数据，而非微调[5]。结论显而易见：微调可以是解决方案的一部分，但只有与外部知识检索、精心策划的数据整理以及针对幻觉的训练信号相结合时，才能发挥最佳效果。

本文引用的文献

评估大型语言模型在临床任务中的生物医学微调效果

在临床任务中，生物医学微调的大语言模型普遍表现不如通用模型，且更容易产生幻觉；例如，OpenBioLLM-8B 在《新英格兰医学杂志》病例挑战中的得分为30%，而 Llama-3-8B-Instruct 的得分为64.3%。

2025 · Felix J. Dorfner, Amin Dada, Felix Busch, Marcus R. Makowski, Tianyu Han, Daniel Truhn, Jens Kleesiek, Madhumita Sushil, Lisa C. Adams, Keno K. Bressem · Journal of the American Medical Informatics Association : JAMIA

原文

WHW：一种面向大语言模型微调的高效数据组织方法

一种数据组织方法（WHW）通过添加任务描述，相比提示微调将大语言模型的幻觉率降低了73%，同时在角色设定任务上使F1值提升了11%。

2024 · Lubao Wang, Huaqi Zhang, Haiming Shao, Mingxuan Wu, Wei Ren · 2024 5th International Conference on Information Science, Parallel and Distributed Systems (ISPDS)

原文

对大型语言模型进行新知识微调是否会助长幻觉？

在新事实知识上进行微调会线性增加幻觉倾向；模型难以通过微调获取新事实，且每学习一个新事实都会增加幻觉风险。

2024 · Zorik Gekhman, Gal Yona, Roee Aharoni, Matan Eyal, Amir Feder, Roi Reichart, Jonathan Herzig · Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing

原文

利用大语言模型应对环境复杂性：结构化微调数据集与部署策略。

微调模型在标准化任务上仅提升了1%的精确度，但在智能体工作流中却下降了3%；通用模型在跨学科任务上的表现则高出10%。

2026 · Chuke Chen, Nan Li, Jianchuan Qi, Huimin Chang, Wenjie Shi, Jinliang Xie, Jiayi Yuan, Hang Yang, Jing Guo, Changqing Xu, Ming Xu · Environmental science & technology

原文

基于OCT数据与大语言模型微调的自动化转诊系统青光眼检测

基于OCT数据生成青光眼转诊信时，使用带视觉API的GPT-4o无需微调即可达到91%的准确率和100%的召回率。

2025 · Mohammad Norouzifard, Azadeh Samaeili, Jason Turuwhenua · Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual International Conference

原文

不熟悉的微调示例控制着语言模型产生幻觉的方式。

不熟悉的微调示例控制着模型如何产生幻觉；修改对这些示例的监督方式，可以教会模型说“我不知道”，从而减少幻觉现象。

2025 · Katie Kang, Eric Wallace, Claire J. Tomlin, Aviral Kumar, Sergey Levine · Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)

原文

RAG-HAT：面向检索增强生成中大语言模型的幻觉感知调优流水线

幻觉感知调优（HAT）利用检测模型与DPO微调技术，在RAG系统中降低幻觉率并提升回答质量。

2024 · Juntong Song, Xingguang Wang, Juno Zhu, Yuanhao Wu, Xuxin Cheng, Randy Zhong, Cheng Niu · Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track

原文

使用实体幻觉指数微调大语言模型以优化文本摘要。

使用实体幻觉指数（EHI）作为奖励信号对摘要模型进行微调，在保持信息量的同时降低了幻觉率，并提升了跨领域泛化能力。

2026 · Praveenkumar K, Rakesh Chandra Balabantaray, Kali Prasad Vittala, Muktikanta Sahu · Journal of visualized experiments : JoVE

原文