WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite

现有大语言模型基准测试分数能否反映真实世界表现?

不,现有的LLM基准测试往往高估了实际表现,原因在于它们在衡量动态学习能力、领域特定准确性以及幻觉等安全风险方面存在不足。

直接答案

不,现有的大语言模型基准测试分数并不能可靠地反映真实世界的表现。研究表明,顶尖模型在静态测试中得分很高,但在实际场景中却表现不佳:例如,先进的医疗代理系统在医学问答基准测试中仅达到30.3%的准确率[1],而临床专家将领先的大语言模型评为仅相当于拥有6年经验的医生,同时还发现了频繁的幻觉和事实错误[2]。基准测试往往衡量的是孤立的知识,而非实际应用所需的动态、富含上下文的推理能力。

6篇文献引用

本文由 WisPaper 驱动的搜索和论文分析生成。

为什么基准测试得分会高估实际能力?

标准基准测试通常用静态、独立的问题来评估大语言模型,但现实任务往往需要迭代学习、工具使用,以及处理模糊或敏感数据。2025年一项关于大语言模型能力的调查指出,现有的基准评估常常无法反映真实性能,因为所需能力与测试所衡量的能力存在差异[3]。例如,在一项临床决策任务中,具备智能体能力的人工智能系统(能够浏览网页、运行代码和编辑文件)在医学问答数据集MedAgentsBench上仅达到30.3%的准确率,尽管它们可以使用先进工具[1]。这远低于同一模型在MMLU等流行基准测试中经常取得的近乎满分的成绩。

另一项研究提出了一个名为LLM-Evolve的框架,通过多轮反馈测试模型,模拟真实世界的学习过程。他们发现,模型在过往交互中的表现最多可提升17%,但标准的独立同分布(i.i.d.)基准测试完全忽略了这种动态能力[4]。这意味着,与模型在需要随时间适应时的实际表现相比,其静态基准测试分数可能具有误导性的偏高或偏低。

大语言模型在医学、金融等高风险领域的表现如何?

在医学领域,基准测试得分与实际临床可靠性之间存在显著差距。一项由27名资深临床医生(平均从业25.9年)开展的随机单盲评估,对七款顶尖大语言模型在685个真实与模拟临床案例中的表现进行了测试。结果显示,表现最佳的模型在医疗能力上仅获得约6.0分(满分10分),相当于一名拥有6年经验的医生,同时记录了40次幻觉现象,包括虚构的疾病和药物信息[2]。另一项针对精准肿瘤学的研究发现,中型大语言模型在大量回答中提供了过时或错误的信息,且专家评估者之间对答案正确性的判断存在高度分歧[6]。研究作者指出,基准测试表现与实际应用能力之间显然存在鸿沟。

在金融领域,2025年的一项综述指出,尽管GPT-4和Claude等大语言模型能够从财报电话会议和报告中提取结构化知识,但它们仍存在幻觉、偏见以及难以解释推理过程等问题——这些缺陷是标准基准测试无法充分捕捉的[5]。该综述强调,在高风险金融决策中,人工监督仍然不可或缺,这直接反驳了高基准分数可能营造出的“模型具备胜任能力”的假象。

在实际应用中使用大语言模型的隐性成本有哪些?

即使大语言模型在现实应用中展现出有限的提升,也伴随着高昂的计算成本和安全风险。在临床智能体研究中,最优的智能体系统相比基础大语言模型消耗了超过10倍的令牌数,延迟时间也增加了两倍以上,但准确率提升却十分有限(例如在AgentClinic MedQA测试中仅达到60.3%,而基础模型得分更低)[1]。尽管内置的安全机制过滤了89.9%的幻觉内容,但剩余的错误仍构成风险。这意味着在现实场景中部署大语言模型不仅关乎准确率,还涉及基准测试难以反映的巨大资源消耗和持续存在的安全隐患。

本文引用的文献

1

为临床决策任务对基于大型语言模型的智能体系统进行基准测试

用于临床任务的自主AI系统在MedAgentsBench上仅达到30.3%的准确率,在Humanity's Last Exam上仅为8.6%,尽管使用了先进工具,且相比基线大语言模型消耗了超过10倍的令牌数和超过2倍的延迟。

2

一项跨学科、随机、单盲评估,针对最先进的大语言模型在医学诊断与管理中的潜在影响与风险。

在27位临床专家进行的单盲评估中,顶尖大语言模型在医学能力上得分约6.0/10(相当于拥有6年经验的医生),并出现了40次幻觉,包括虚构病症和药物。

3

大型语言模型的基础能力与应用综述

一项关于大语言模型能力的调查得出结论,现有基于基准的评估往往无法反映真实世界的表现,因为实际所需的能力与基准所衡量的能力存在差异。

4

LLM-Evolve:大语言模型在基准测试中能力演进的评估

LLM-Evolve框架表明,模型在与过往反馈的交互中性能可提升高达17%,而标准的独立同分布基准测试完全忽略了这一动态能力。

5

大型语言模型在金融知识提取中的应用:分析洞察与企业规划支持

一项针对金融领域大语言模型应用的综述指出,幻觉、偏见以及推理过程难以解释等持续存在的挑战,是现有标准基准无法充分捕捉的。

6

评估中等规模的开源大语言模型:在精准肿瘤学护理交付场景中迈向决策支持

在精准肿瘤学领域,中等规模的大语言模型频繁提供过时或错误的信息,且专家评估者之间存在高度分歧,这表明基准测试表现与实际应用之间存在着明显差距。