更大的语言模型是否总是表现更好？

模型越大，考试成绩就越高吗？

是的，在标准化测试中，更大的模型始终优于较小的模型。在一项神经内科模拟考试中，GPT-4（较大模型）答对了85%的问题，而GPT-3.5（较小模型）仅答对66.8%——两者相差近19个百分点[6]。在家庭医学在职培训考试中，GPT-4得分86.5%，远高于GPT-3.5的66.3%和Google Bard的64.2%[4]。同样，在口腔颌面外科题目中，GPT-4以76.8%的正确率领先，其次是Copilot的72.6%、GPT-3.5的62.2%、Gemini的58.7%以及Llama 2的42.5%[3]。这些结果清晰地表明了一个规律：参数越多，测试分数通常越高。

但更大的模型可能更不可靠——问题就在这里

扩展规模有一个隐藏的弊端：越庞大、越易受指令控制的模型，反而越不可靠。2024年《自然》杂志的一项研究发现，随着模型规模增大，它们会从回避问题（回答“我不知道”）转向给出自信但错误的答案，尤其是在人类也常答错的高难度问题上[7]。例如，早期模型会直接拒绝回答，但扩展后的模型会产生听起来合理却难以察觉的错误。同一项研究还表明，虽然更大规模的模型在面对同一问题的不同表述时表现更稳定，但它们仍存在不可预测的“波动区域”，会在正确与错误答案之间反复切换[7]。这意味着，更大的模型平均得分可能更高，但在个别问题上可能毫无征兆地出错。

有时，更小更聪明的模型胜过庞然大物

在专业领域，精巧的架构设计往往能超越单纯的规模优势。2025年一项关于生物分子语言模型的研究发现，仅含5000万参数的ChaRNABERT模型，其表现与参数规模大13倍（6.5亿参数）的RiNALMo模型相当[8]。关键在于优化分词策略与架构设计，而非一味增加参数数量。同样，在中文医疗咨询领域，一款较新的AI模型（未具名）表现显著优于仅早一年评估的模型，尽管后者参数规模更大[1]。这表明，推动实际应用进步的不仅是模型规模，更是算法层面的创新。

仅靠规模无法解决类人理解等深层问题

即便是规模最大的模型，也仍未真正具备理解能力。2025年一项研究将GPT-4（1.5万亿参数）与人类在语法判断任务上进行对比。GPT-4的整体准确率略高（80%对76%），但它仅在判断语法正确的句子时优于人类——在判断语法错误的句子时表现反而更差[2]。更说明问题的是，GPT-4有12.5%的答案出现摇摆，而人类仅为9.6%，这表明其稳定性更差[2]。研究者指出，仅靠扩大模型规模不太可能解决这些问题，因为模型缺乏“语义指涉”——它们无法像人类那样将词语与现实世界的意义联系起来[2]。在风险极高的医疗场景中，所有参与泌尿妇科考试测试的模型均未达到80%的及格线，其中GPT-4的最高分仅为61.6%[5]。由此可见，虽然更大的模型有所改进，但它们并不会自动变得可靠或接近人类。

本文引用的文献

大型语言模型在中文医疗咨询中的表现

在中文医疗咨询中，较新的人工智能模型表现明显优于旧模型，但在第一批测试中，三种大语言模型之间未发现显著差异（p=0.158）。

2025 · Mingjun Zhang, Shiming Zhou, Shulin Zhang, Ting Yi, Bo Jiang, Xuan Jiang · Infection and drug resistance

原文

语言在体内与硅基中的对比：规模固然重要，但大型语言模型仍因语义指涉的不可穿透性，无法在语言理解上与人类相提并论。

GPT-4（1.5万亿参数）在语法判断任务中达到了80%的准确率，而人类为76%，但其表现波动更大（12.5%对比9.6%），且仅在处理符合语法的句子时优于人类。

2025 · Vittoria Dentella, Fritz Günther, Evelina Leivada · PloS one

原文

大型语言模型在口腔颌面外科考试中的表现。

GPT-4在口腔外科题目中取得了76.8%的得分，远超GPT-3.5（62.2%）、Gemini（58.7%）和Llama 2（42.5%）。

2024 · B Quah, C W Yong, C W M Lai, I Islam · International journal of oral and maxillofacial surgery

原文

语言模型在家庭医学在培考试中的表现。

GPT-4 在家庭医学考试中取得了86.5%的分数，超过了GPT-3.5（66.3%）和Bard（64.2%），并且是唯一一个超过住院医师平均分68.4%的模型。

2024 · Rana E Hanna, Logan R Smith, Rahul Mhaskar, Karim Hanna · Family medicine

原文

大型语言模型在泌尿妇科中的性能比较分析。

GPT-4 在泌尿妇科考试中得分 61.6%，领先于 GPT-3.5（54.6%）和 Bard（42.7%），但均未达到 80% 的及格线。

2025 · Ghanshyam S Yadav, Kshitij Pandit, Phillip T Connell, Hadi Erfani, Charles W Nager · Urogynecology (Philadelphia, Pa.)

原文

大型语言模型在神经病学委员会风格考试中的表现

GPT-4在神经科委员会考试中得分85%，而GPT-3.5为66.8%，且GPT-4超过了人类平均分73.8%。

2023 · Marc Cicero Schubert, Wolfgang Wick, Varun Venkataramani · JAMA network open

原文

更大、更易指令的语言模型反而变得不那么可靠。

更大、更易指令的模型反而变得不那么可靠：它们更频繁地给出自信的错误答案，尤其是在难题上，并且人类更难发现其错误。

2024 · Lexin Zhou, Wout Schellaert, Fernando Martínez-Plumed, Yael Moros-Daval, Cèsar Ferri, José Hernández-Orallo · Nature

原文

生物分子基础语言模型最优模型规模研究

ChaRNABERT（5000万参数）在RNA建模中达到了与RiNALMo（6.5亿参数）相当的性能，这表明架构优化可以超越单纯规模带来的优势。

2025 · Raquel Vázquez Reza · QRU Quaderns de Recerca en Urbanisme

原文