模型越大,考试成绩就越高吗?
是的,在标准化测试中,更大的模型始终优于较小的模型。在一项神经内科模拟考试中,GPT-4(较大模型)答对了85%的问题,而GPT-3.5(较小模型)仅答对66.8%——两者相差近19个百分点[6]。在家庭医学在职培训考试中,GPT-4得分86.5%,远高于GPT-3.5的66.3%和Google Bard的64.2%[4]。同样,在口腔颌面外科题目中,GPT-4以76.8%的正确率领先,其次是Copilot的72.6%、GPT-3.5的62.2%、Gemini的58.7%以及Llama 2的42.5%[3]。这些结果清晰地表明了一个规律:参数越多,测试分数通常越高。
但更大的模型可能更不可靠——问题就在这里
扩展规模有一个隐藏的弊端:越庞大、越易受指令控制的模型,反而越不可靠。2024年《自然》杂志的一项研究发现,随着模型规模增大,它们会从回避问题(回答“我不知道”)转向给出自信但错误的答案,尤其是在人类也常答错的高难度问题上[7]。例如,早期模型会直接拒绝回答,但扩展后的模型会产生听起来合理却难以察觉的错误。同一项研究还表明,虽然更大规模的模型在面对同一问题的不同表述时表现更稳定,但它们仍存在不可预测的“波动区域”,会在正确与错误答案之间反复切换[7]。这意味着,更大的模型平均得分可能更高,但在个别问题上可能毫无征兆地出错。
有时,更小更聪明的模型胜过庞然大物
在专业领域,精巧的架构设计往往能超越单纯的规模优势。2025年一项关于生物分子语言模型的研究发现,仅含5000万参数的ChaRNABERT模型,其表现与参数规模大13倍(6.5亿参数)的RiNALMo模型相当[8]。关键在于优化分词策略与架构设计,而非一味增加参数数量。同样,在中文医疗咨询领域,一款较新的AI模型(未具名)表现显著优于仅早一年评估的模型,尽管后者参数规模更大[1]。这表明,推动实际应用进步的不仅是模型规模,更是算法层面的创新。
仅靠规模无法解决类人理解等深层问题
即便是规模最大的模型,也仍未真正具备理解能力。2025年一项研究将GPT-4(1.5万亿参数)与人类在语法判断任务上进行对比。GPT-4的整体准确率略高(80%对76%),但它仅在判断语法正确的句子时优于人类——在判断语法错误的句子时表现反而更差[2]。更说明问题的是,GPT-4有12.5%的答案出现摇摆,而人类仅为9.6%,这表明其稳定性更差[2]。研究者指出,仅靠扩大模型规模不太可能解决这些问题,因为模型缺乏“语义指涉”——它们无法像人类那样将词语与现实世界的意义联系起来[2]。在风险极高的医疗场景中,所有参与泌尿妇科考试测试的模型均未达到80%的及格线,其中GPT-4的最高分仅为61.6%[5]。由此可见,虽然更大的模型有所改进,但它们并不会自动变得可靠或接近人类。
本文引用的文献
大型语言模型在中文医疗咨询中的表现
在中文医疗咨询中,较新的人工智能模型表现明显优于旧模型,但在第一批测试中,三种大语言模型之间未发现显著差异(p=0.158)。
语言在体内与硅基中的对比:规模固然重要,但大型语言模型仍因语义指涉的不可穿透性,无法在语言理解上与人类相提并论。
GPT-4(1.5万亿参数)在语法判断任务中达到了80%的准确率,而人类为76%,但其表现波动更大(12.5%对比9.6%),且仅在处理符合语法的句子时优于人类。
大型语言模型在口腔颌面外科考试中的表现。
GPT-4在口腔外科题目中取得了76.8%的得分,远超GPT-3.5(62.2%)、Gemini(58.7%)和Llama 2(42.5%)。
语言模型在家庭医学在培考试中的表现。
GPT-4 在家庭医学考试中取得了86.5%的分数,超过了GPT-3.5(66.3%)和Bard(64.2%),并且是唯一一个超过住院医师平均分68.4%的模型。
大型语言模型在泌尿妇科中的性能比较分析。
GPT-4 在泌尿妇科考试中得分 61.6%,领先于 GPT-3.5(54.6%)和 Bard(42.7%),但均未达到 80% 的及格线。
大型语言模型在神经病学委员会风格考试中的表现
GPT-4在神经科委员会考试中得分85%,而GPT-3.5为66.8%,且GPT-4超过了人类平均分73.8%。
更大、更易指令的语言模型反而变得不那么可靠。
更大、更易指令的模型反而变得不那么可靠:它们更频繁地给出自信的错误答案,尤其是在难题上,并且人类更难发现其错误。
生物分子基础语言模型最优模型规模研究
ChaRNABERT(5000万参数)在RNA建模中达到了与RiNALMo(6.5亿参数)相当的性能,这表明架构优化可以超越单纯规模带来的优势。
