WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite

模型融合能否可靠提升大语言模型能力?

模型融合能够可靠地提升大语言模型的能力,但其效果取决于融合方法、模型规模以及任务多样性。

直接答案

是的,模型融合确实能可靠地提升大语言模型的能力,但这种提升并非必然,很大程度上取决于融合方式。如果方法得当——例如采用DARE或TIES-Merging等能解决参数冲突的技术——融合可使模型在各项基准测试中平均提升1.69%的性能[1],甚至能创造出两个父模型都不具备的全新能力[2]。不过,融合极小模型(如1.7B参数)可能无法带来这些增益[2],而简单的线性融合往往会因参数冲突导致性能下降[6][8]

8篇文献引用

本文由 WisPaper 驱动的搜索和论文分析生成。

模型合并究竟能带来多大提升?

效果确实存在,但差异显著。在一项研究中,将顶尖多语言大语言模型与韩语模型通过DARE技术融合后,在六项基准测试中平均提升1.69%,而在GSM8K推理任务上更是实现了20%以上的显著提升[1]。这意味着融合模型在数学问题上的正确率比两个原始模型高出20%——对于推理密集型任务而言,这是实质性的飞跃。

其他研究在特定领域取得了更为显著的成果。一种进化式融合方法生成了日本数学大语言模型,该模型在日本基准测试中达到了最先进的性能,超越了参数规模大得多的模型[3]。在多模态场景下,一种不确定性引导的融合方法(UQ-Merge)相较于现有融合方法,在12个数据集上的平均准确率提升了高达44.3%[7]。这些数据表明,当融合过程得到优化时,性能提升可能极为显著。

合并成功或失败的关键因素是什么?

关键在于如何处理模型参数间的相互干扰。早期的合并方法只是简单地对权重取平均,但由于不同模型的参数值存在冲突,这往往导致性能下降[8]。TIES-Merging方法通过修剪微小变化、解决符号冲突并仅合并对齐的参数,解决了这一问题——在多项任务中均优于旧方法[8]。同样,Layer-Adaptive SLERP采用几何保持插值法,结合逐层特定系数,在50多种组合中实现了稳定的合并效果[6]

模型规模同样至关重要。研究人员发现,合并小型语言模型(17亿参数)并未像合并大型模型(70亿参数以上)那样产生涌现能力[2]。这表明,模型合并若要激发新能力,需要达到一定的最小规模。此外,父模型的多样性也至关重要——合并针对不同任务或语言微调的模型可以产生协同效应,但合并高度相似的模型则收效甚微[2][3]

合并能否创造出两个父模型都不具备的能力?

是的,这是最令人惊讶的发现之一。模型合并不仅仅是取平均值——它还能产生涌现能力。例如,将日语语言模型与数学推理模型合并后,新模型能够用日语进行数学运算,而两个原始模型均未针对这种组合进行训练[3]。作者将其描述为一种“变革性方法”,参数之间的非线性相互作用创造了新的功能[2]

这也适用于跨模态场景。融合视觉-语言、音频-语言和视频-语言模型,催生了超越单一模态模型的“全模态模型”[5]。此外,将专注于安全性的微调模型与通用模型合并,能在性能损失极小的情况下显著提升抗越狱能力[4]。因此,模型融合能够以微调单独难以实现的方式整合优势。

本文引用的文献

1

通过融合韩语语言模型提升模型性能的研究

通过DARE方法将多语言大语言模型与韩语语言模型融合,使平均基准性能提升了1.69%,并将GSM8K数学推理能力提高了20%以上。

2

针对领域适应的大语言模型微调:训练策略、扩展性、模型融合与协同能力的探索

模型融合能够产生超越父模型的涌现能力,但在极小规模(1.7B参数)的大语言模型中并未观察到这一效果,这表明模型规模至关重要。

3

模型合并配方的进化优化

一种进化式融合方法自动发现了有效的模型组合,由此生成的日语数学大语言模型在日语基准测试中达到了最先进性能。

4

使用模型融合增强大型语言模型的越狱抵抗能力

将安全微调模型与通用大语言模型合并,显著提升了抗越狱能力,同时性能下降极小。

5

通过模型融合统一多模态大语言模型的能力与模态

融合视觉-语言、音频-语言和视频-语言模型,推动了全能语言模型的发展,其表现超越了单一模态模型。

6

几何模型融合:实现大语言模型高效且可扩展的适配方法

层自适应SLERP(一种保持几何结构的合并方法)在跨越六种架构和七种参数规模的50余次合并中,显著提升了稳定性与性能表现。

7

$\texttt{UQ-Merge}$:不确定性引导的多模态大语言模型融合

与现有合并方法相比,不确定性引导合并(UQ-Merge)在12个多模态数据集上的平均准确率提升了高达44.3%。

8

TIES-Merging:解决模型合并时的干扰问题

TIES-Merging通过修剪微小变化并解决符号冲突,消除了参数干扰,在多种场景下均优于以往的合并方法。