微调如何帮助开源模型追赶?
在特定领域数据上进行微调,可以完全消除性能差距,有时甚至能实现反超。一项针对49万9601份放射学报告中的医疗账单编码提取研究显示,经过微调的40亿参数开源模型(MediPhi-Instruct 4B)在500份真实报告样本上取得了87.79%的F1分数,超越了所有测试的专有模型——包括GPT-5、GPT-4.1和Gemini 2.5 Flash。该微调模型的F1分数为70.32%,以统计学显著的优势击败了Gemini 2.5 Flash的58.22%[1]。这表明,一个规模较小、专门化的开源模型,只要在合适的数据上进行训练,就能击败规模大得多的通用专有模型。
同样的模式也适用于医学证据摘要。通过对8161对系统综述及其摘要进行微调,开源模型(如LongT5)的性能已接近GPT-3.5的零样本结果,而较小的微调模型有时甚至超越了更大的零样本专有模型[7]。在眼科问答任务中,引入检索增强生成(RAG)流程使开源Llama-3的准确率提升了23.85个百分点,几乎与GPT-4-turbo的表现持平[4]。这些结果明确表明:微调与RAG是强大的均衡器。
专有模型在哪些领域仍具明显优势?
在广泛用于测试通用推理、编程和多模态理解的零样本基准测试中,闭源模型仍保持领先。在采用委员会式选择题的消化内科临床推理测试中,最佳闭源模型(o1-preview)准确率达82.0%,而最佳开源模型(Llama3.3-70b)仅为65.7%——差距超过16个百分点[2]。类似地,在一项要求模型根据2024-2025年论文实现新型机器学习研究代码的基准测试中,闭源模型Gemini-2.5-Pro-Preview以37.3%的成功率领先,而最佳开源模型则落后于这一水平[6]。
在多维学生技能评估中,专有模型GPT-4o和Claude 3.7 Sonnet分别达到了84.0%和88.0%的准确率,显著优于开源替代方案[9]。而在多模态理解方面,开源模型InternVL 1.5在18项基准测试中的8项上取得了最优结果,但仍未能在所有任务上超越GPT-4V[3]。这一模式具有一致性:对于需要广泛知识、复杂推理或处理多样化输入且无需任务特定调优的任务,专有模型仍占据优势。
开源模型在原始性能之外还有哪些优势?
开源模型在隐私保护、定制化及成本方面具有关键优势,这是专有模型无法比拟的。在医院场景中,本地部署的开源大语言模型结合RAG技术,在行政文档检索中实现了92.3%的前十准确率,同时确保敏感患者数据留在本地[8]。由于数据隐私法规的限制,基于云的专有模型无法实现这一点。同样,在放射报告简化任务中,开源模型Llama-3-70b在5项质量指标中的4项上被评估为不逊于领先的专有模型,同时具备完全透明性并支持本地运行[5]。
量化技术进一步放大了这些优势。在眼科问答领域,对开源模型采用4位量化被证明与8位量化同样有效,但计算资源需求减半,使其在资源受限环境中具备可行性[4]。基于生物医学数据从Mistral微调而来的BioMistral模型,在性能上与专有模型不相上下,且可免费获取并进行定制化调整[11]。而开源模型DeepSeek LLM 67B Chat在开放式评估中表现优于GPT-3.5[10]。这些发现表明,在众多实际应用场景中——尤其是医疗、教育及资源有限的环境——开源模型不仅正在迎头赶上,而且已成为切实可行的选择。
本文引用的文献
比较专有模型与微调大语言模型在从放射学报告中多标签分类计费代码方面的表现。
一个经过微调的40亿参数开源模型在医疗账单代码提取任务中超越了GPT-5和Gemini 2.5 Flash,在真实放射报告上实现了70.32%的F1分数,而后者仅为58.22%。
基准测试专有与开源语言及视觉-语言模型在胃肠病学临床推理中的表现。
在胃肠病学临床推理任务中,专有模型(o1-preview,82.0%)的表现优于开源模型(Llama3.3-70b,65.7%),领先超过16个百分点。
我们距离GPT-4V还有多远?用开源套件缩小与商业多模态模型的差距
开源InternVL 1.5在18项多模态基准测试中的8项上取得了最先进的结果,缩小了与GPT-4V等专有模型的差距。
利用检索增强生成推进眼科问答:开源与专有大语言模型的基准测试
在眼科问答任务中,引入RAG技术使开源Llama-3模型的准确率提升了23.85%,其表现已接近GPT-4-turbo的水平。
开源与专有大语言模型在生成患者友好的胸部CT放射学报告中的表现
开源Llama-3-70b在生成患者友好型放射学报告的5个质量类别中,有4个被评定为不逊于领先的专有模型。
ResearchCodeBench:评估大语言模型实现新型机器学习研究代码能力的基准测试
在新型机器学习研究代码实现方面,最佳专有模型(Gemini-2.5-Pro-Preview)取得了37.3%的成功率,而开源模型则落后于这一水平。
缩小开源与商用大语言模型在医学证据摘要方面的差距
对医学摘要进行微调后,开源LongT5模型的性能已接近GPT-3.5的零样本表现,且部分较小的微调模型有时甚至超越了较大的零样本模型。
基于开源大语言模型的医院本地文档检索中分块与嵌入策略评估
本地部署的开源RAG系统在医院行政文档上实现了92.3%的前十检索准确率,从而实现了隐私保护的信息检索。
使用大语言模型评估学生多维度技能
在多元化的学生技能评估中,专有模型GPT-4o(84.0%)和Claude 3.7 Sonnet(88.0%)的表现显著优于开源模型。
DeepSeek LLM:以长期主义扩展开源语言模型
开源DeepSeek LLM 67B Chat在开放式评估中超越了GPT-3.5,在代码、数学和推理方面展现出强劲性能。
BioMistral:面向医学领域的开源预训练大语言模型集合
开源BioMistral模型在生物医学数据上进行了微调,在10项医学问答任务中取得了与专有模型相媲美的竞争性表现。
