指令微调真的会让幻觉更严重吗?
是的,如果微调数据包含模型在预训练阶段未学到的事实,情况确实如此。一项关于闭卷问答的对照研究发现,当指令微调引入新的事实知识时,模型学习这些示例的速度远慢于与其已有知识一致的示例——而一旦学会,其产生幻觉的倾向会线性增加[4]。这表明,指令微调更擅长教会模型如何运用已有知识,而非注入新事实,强行加入新事实反而可能适得其反。
同一项研究表明,与模型已有知识一致的示例能够被快速学习,且不会增加幻觉现象,这支持了以下观点:指令微调在强化现有知识而非添加新信息时效果最佳[4]。
指令微调究竟如何减少幻觉?
最有效的方法是将指令微调与独立的验证或修正步骤相结合。在一项医学特征提取任务中,一个两阶段框架首先利用指令微调让模型掌握任务,随后增加第二阶段,对过度自信的错误答案进行惩罚。这一方法在包含近2000份患者病历的私有测试集上,将幻觉现象减少了89.9%(从3081个幻觉特征降至311个),并将遗漏特征减少了88.9%[1]。该框架在整个数据集上取得了0.968–0.983的F1分数,优于标准的上下文学习方法。
类似地,一个生物医学信息抽取系统使用了外部验证器,该验证器基于正确和错误的示例进行了指令微调。该验证器首先识别缺失的实体和关系,然后过滤掉错误的部分,相比仅依赖上下文学习,F1分数最高提升了20%[2]。在心理健康领域,一个轻量级的类型验证组件检查了指令微调大语言模型的输出,并将修正结果反馈回去,从而在保持较低计算成本的同时显著提升了抽取准确性[6]。
一种基于提示词的方法用于检测指令微调模型中的自我矛盾,在应用于ChatGPT时达到了约80%的F1分数,并发现ChatGPT生成的句子中有17.7%包含自我矛盾[3]。该缓解算法无需外部知识即可迭代移除矛盾信息,表明即使不依赖检索,也能捕捉到大量错误。
那么,你是否应该使用指令微调来让大语言模型更诚实?
可以,但前提是加入验证或置信度惩罚机制。仅靠指令微调并不能可靠地解决幻觉问题——如果训练数据中包含模型不熟悉的事实,甚至可能引入新的幻觉[4]。证据一致表明,最佳效果来自两阶段方法:首先对模型进行指令微调,使其遵循任务格式;然后添加一个独立的组件(如验证器、置信度惩罚机制或类型检查器),用于捕捉并纠正错误[1][2][6]。
2026年一项对事实核查方法的综述指出,指令微调、多智能体推理和检索增强生成(RAG)均有所助益,但领域特定微调和经过验证的外部证据对于确保事实一致性至关重要[5]。简而言之,指令微调是一种有用的工具,但并非万能灵药——你需要将其与某种能检验模型输出的方法配合使用。
本文引用的文献
临床检查笔记中的医学特征提取:两阶段大语言模型框架的开发与评估
一种结合指令微调与置信度正则化的两阶段框架,在医学文本提取中将幻觉现象减少了89.9%(从3081个特征降至311个),并将缺失特征减少了88.9%,最终F1分数达到0.968–0.983。
面向指令调优验证以提升大语言模型在生物医学信息抽取中的表现
在正面和负面示例上进行指令微调的外部验证器,将生物医学命名实体识别和关系抽取的F1分数相较于仅使用上下文学习提升了高达20%。
大型语言模型的自相矛盾幻觉:评估、检测与缓解
ChatGPT生成的句子中有17.7%存在自相矛盾;基于提示的检测器达到了约80%的F1分数,且无需外部知识即可缓解矛盾。
对大型语言模型进行新知识微调是否会助长幻觉?
在大型语言模型上微调新的事实知识时,随着模型学习这些示例,幻觉率呈线性上升;而与已有知识一致的示例则不会增加幻觉。
从幻觉到真相:大语言模型中事实核查与真实性评估综述
2026年的一项综述指出,指令微调、多智能体推理和检索增强生成(RAG)能提升事实一致性,但领域特定微调和经过验证的外部证据仍然不可或缺。
通过指令微调的大语言模型与类型验证组件,提升中文心理健康领域统一信息抽取的效果。
结合轻量级类型验证组件的指令微调大语言模型,在中文心理健康文本中显著提升了抽取准确率,同时降低了计算需求。
