微调真的能减少幻觉吗?往往反而更糟。
简而言之,标准微调往往不仅无法解决幻觉问题,反而会加剧这一现象。2024年一项针对闭卷问答的对照实验表明,当微调引入预训练阶段未见过的新事实知识时,模型学习新信息的速度缓慢,且每掌握一个新事实,其产生幻觉的倾向就会线性增加[3]。换言之,微调时输入的不熟悉数据越多,模型编造答案的情况就越严重。这种影响并非微不足道:2025年一项针对生物医学大语言模型的评估发现,微调后的模型实际上比通用模型更容易产生幻觉,尤其是在狭窄医学知识以外的任务上[1]。通用模型Llama-3-8B-Instruct在《新英格兰医学杂志》病例挑战中得分64.3%,而微调后的OpenBioLLM-8B仅得30%——且微调模型更倾向于凭空捏造[1]。
为何会出现这种情况?核心问题在于,微调过程教会模型生成可能脱离其原有知识基础的回应。当模型遇到涉及新学但掌握不完善的事实的查询时,它倾向于输出与微调数据中的错误相一致的答案[6]。2025年的一项研究表明,微调数据中的陌生样本是幻觉模式的主要诱因——模型编造的答案往往直接反映了与这些陌生样本相关的错误回应[6]。这意味着,如果你的微调数据包含任何不准确之处,或引入了基础模型并未真正理解的概念,你实际上就是在训练模型产生幻觉。
微调能否减少幻觉?方法得当,确实可以。
微调可以减少幻觉,但前提是必须精心设计,直接针对问题本身。2024年的一项研究提出了一种名为WHW(What, How, Why)的数据组织方法,该方法在微调数据中加入了详细的任务描述和限制条件。与基于标准提示的微调相比,这种方法将幻觉减少了73%,同时在角色设定任务上的F1分数也提升了11%[2]。关键在于提供了明确的约束条件,从而防止模型生成缺乏依据的内容。
另一个有前景的方向是利用微调来教会模型在无法回答时说“我不知道”,而不是编造答案。2025年的一项研究表明,通过调整对不熟悉的微调样本的监督方式——例如训练模型在缺乏相关知识时拒绝作答——可以显著减少幻觉现象[6]。这一方法在多个微调技术(包括监督微调、强化学习和奖励模型训练)中均得到验证,并在TriviaQA和MMLU等标准基准测试上取得了成效[6]。
结合幻觉特定奖励的强化学习也展现出潜力。一项2026年的研究采用实体幻觉指数(EHI)作为奖励信号,对摘要生成模型进行微调,并对虚构实体施加惩罚。经此方式微调的模型在保持信息量的同时降低了幻觉率,甚至在跨领域任务中展现出更强的泛化能力[8]。类似地,2024年提出的“幻觉感知微调”(HAT)方法首先训练一个检测模型来识别幻觉,随后利用这些检测结果构建偏好数据集,用于直接偏好优化(DPO)微调,最终使大语言模型在降低幻觉率的同时提升了回答质量[7]。
比普通微调更有效的方法:检索增强生成与混合策略
鉴于微调存在的风险,许多研究人员如今推荐检索增强生成(RAG)作为一种更可靠的替代方案。2025年一项对比生物医学微调模型与通用模型的研究指出,RAG“可能为临床适配提供更有效的策略”[1]。RAG的工作原理是在推理阶段让模型访问外部知识库,因此无需在微调过程中记忆事实——这降低了产生幻觉的诱因。
一项2024年关于环境决策的研究发现,微调模型在标准化任务上仅取得小幅提升(精确度+1%),但在复杂智能体工作流中适应性有限(-3%),而最先进的通用模型在跨学科任务上表现高出10%[4]。研究者建议采用分层策略:对稳定的监管类任务进行选择性微调,同时结合基于RAG的智能体工作流处理动态、数据密集型决策[4]。
即使在青光眼检测这类专业领域,微调也并非唯一亮点。2025年的一项研究利用GPT-4o的视觉API,从OCT图像生成转诊信,实现了91%的准确率和100%的召回率——但这依赖于模型强大的通用能力加上结构化临床数据,而非微调[5]。结论显而易见:微调可以是解决方案的一部分,但只有与外部知识检索、精心策划的数据整理以及针对幻觉的训练信号相结合时,才能发挥最佳效果。
本文引用的文献
评估大型语言模型在临床任务中的生物医学微调效果
在临床任务中,生物医学微调的大语言模型普遍表现不如通用模型,且更容易产生幻觉;例如,OpenBioLLM-8B 在《新英格兰医学杂志》病例挑战中的得分为30%,而 Llama-3-8B-Instruct 的得分为64.3%。
WHW:一种面向大语言模型微调的高效数据组织方法
一种数据组织方法(WHW)通过添加任务描述,相比提示微调将大语言模型的幻觉率降低了73%,同时在角色设定任务上使F1值提升了11%。
对大型语言模型进行新知识微调是否会助长幻觉?
在新事实知识上进行微调会线性增加幻觉倾向;模型难以通过微调获取新事实,且每学习一个新事实都会增加幻觉风险。
利用大语言模型应对环境复杂性:结构化微调数据集与部署策略。
微调模型在标准化任务上仅提升了1%的精确度,但在智能体工作流中却下降了3%;通用模型在跨学科任务上的表现则高出10%。
基于OCT数据与大语言模型微调的自动化转诊系统青光眼检测
基于OCT数据生成青光眼转诊信时,使用带视觉API的GPT-4o无需微调即可达到91%的准确率和100%的召回率。
不熟悉的微调示例控制着语言模型产生幻觉的方式。
不熟悉的微调示例控制着模型如何产生幻觉;修改对这些示例的监督方式,可以教会模型说“我不知道”,从而减少幻觉现象。
RAG-HAT:面向检索增强生成中大语言模型的幻觉感知调优流水线
幻觉感知调优(HAT)利用检测模型与DPO微调技术,在RAG系统中降低幻觉率并提升回答质量。
使用实体幻觉指数微调大语言模型以优化文本摘要。
使用实体幻觉指数(EHI)作为奖励信号对摘要模型进行微调,在保持信息量的同时降低了幻觉率,并提升了跨领域泛化能力。
