为什么基准测试得分会高估实际能力?
标准基准测试通常用静态、独立的问题来评估大语言模型,但现实任务往往需要迭代学习、工具使用,以及处理模糊或敏感数据。2025年一项关于大语言模型能力的调查指出,现有的基准评估常常无法反映真实性能,因为所需能力与测试所衡量的能力存在差异[3]。例如,在一项临床决策任务中,具备智能体能力的人工智能系统(能够浏览网页、运行代码和编辑文件)在医学问答数据集MedAgentsBench上仅达到30.3%的准确率,尽管它们可以使用先进工具[1]。这远低于同一模型在MMLU等流行基准测试中经常取得的近乎满分的成绩。
另一项研究提出了一个名为LLM-Evolve的框架,通过多轮反馈测试模型,模拟真实世界的学习过程。他们发现,模型在过往交互中的表现最多可提升17%,但标准的独立同分布(i.i.d.)基准测试完全忽略了这种动态能力[4]。这意味着,与模型在需要随时间适应时的实际表现相比,其静态基准测试分数可能具有误导性的偏高或偏低。
大语言模型在医学、金融等高风险领域的表现如何?
在医学领域,基准测试得分与实际临床可靠性之间存在显著差距。一项由27名资深临床医生(平均从业25.9年)开展的随机单盲评估,对七款顶尖大语言模型在685个真实与模拟临床案例中的表现进行了测试。结果显示,表现最佳的模型在医疗能力上仅获得约6.0分(满分10分),相当于一名拥有6年经验的医生,同时记录了40次幻觉现象,包括虚构的疾病和药物信息[2]。另一项针对精准肿瘤学的研究发现,中型大语言模型在大量回答中提供了过时或错误的信息,且专家评估者之间对答案正确性的判断存在高度分歧[6]。研究作者指出,基准测试表现与实际应用能力之间显然存在鸿沟。
在金融领域,2025年的一项综述指出,尽管GPT-4和Claude等大语言模型能够从财报电话会议和报告中提取结构化知识,但它们仍存在幻觉、偏见以及难以解释推理过程等问题——这些缺陷是标准基准测试无法充分捕捉的[5]。该综述强调,在高风险金融决策中,人工监督仍然不可或缺,这直接反驳了高基准分数可能营造出的“模型具备胜任能力”的假象。
本文引用的文献
为临床决策任务对基于大型语言模型的智能体系统进行基准测试
用于临床任务的自主AI系统在MedAgentsBench上仅达到30.3%的准确率,在Humanity's Last Exam上仅为8.6%,尽管使用了先进工具,且相比基线大语言模型消耗了超过10倍的令牌数和超过2倍的延迟。
一项跨学科、随机、单盲评估,针对最先进的大语言模型在医学诊断与管理中的潜在影响与风险。
在27位临床专家进行的单盲评估中,顶尖大语言模型在医学能力上得分约6.0/10(相当于拥有6年经验的医生),并出现了40次幻觉,包括虚构病症和药物。
大型语言模型的基础能力与应用综述
一项关于大语言模型能力的调查得出结论,现有基于基准的评估往往无法反映真实世界的表现,因为实际所需的能力与基准所衡量的能力存在差异。
LLM-Evolve:大语言模型在基准测试中能力演进的评估
LLM-Evolve框架表明,模型在与过往反馈的交互中性能可提升高达17%,而标准的独立同分布基准测试完全忽略了这一动态能力。
大型语言模型在金融知识提取中的应用:分析洞察与企业规划支持
一项针对金融领域大语言模型应用的综述指出,幻觉、偏见以及推理过程难以解释等持续存在的挑战,是现有标准基准无法充分捕捉的。
评估中等规模的开源大语言模型:在精准肿瘤学护理交付场景中迈向决策支持
在精准肿瘤学领域,中等规模的大语言模型频繁提供过时或错误的信息,且专家评估者之间存在高度分歧,这表明基准测试表现与实际应用之间存在着明显差距。
