现有大语言模型基准测试分数能否反映真实世界表现？

为什么基准测试得分会高估实际能力？

标准基准测试通常用静态、独立的问题来评估大语言模型，但现实任务往往需要迭代学习、工具使用，以及处理模糊或敏感数据。2025年一项关于大语言模型能力的调查指出，现有的基准评估常常无法反映真实性能，因为所需能力与测试所衡量的能力存在差异[3]。例如，在一项临床决策任务中，具备智能体能力的人工智能系统（能够浏览网页、运行代码和编辑文件）在医学问答数据集MedAgentsBench上仅达到30.3%的准确率，尽管它们可以使用先进工具[1]。这远低于同一模型在MMLU等流行基准测试中经常取得的近乎满分的成绩。

另一项研究提出了一个名为LLM-Evolve的框架，通过多轮反馈测试模型，模拟真实世界的学习过程。他们发现，模型在过往交互中的表现最多可提升17%，但标准的独立同分布（i.i.d.）基准测试完全忽略了这种动态能力[4]。这意味着，与模型在需要随时间适应时的实际表现相比，其静态基准测试分数可能具有误导性的偏高或偏低。

大语言模型在医学、金融等高风险领域的表现如何？

在医学领域，基准测试得分与实际临床可靠性之间存在显著差距。一项由27名资深临床医生（平均从业25.9年）开展的随机单盲评估，对七款顶尖大语言模型在685个真实与模拟临床案例中的表现进行了测试。结果显示，表现最佳的模型在医疗能力上仅获得约6.0分（满分10分），相当于一名拥有6年经验的医生，同时记录了40次幻觉现象，包括虚构的疾病和药物信息[2]。另一项针对精准肿瘤学的研究发现，中型大语言模型在大量回答中提供了过时或错误的信息，且专家评估者之间对答案正确性的判断存在高度分歧[6]。研究作者指出，基准测试表现与实际应用能力之间显然存在鸿沟。

在金融领域，2025年的一项综述指出，尽管GPT-4和Claude等大语言模型能够从财报电话会议和报告中提取结构化知识，但它们仍存在幻觉、偏见以及难以解释推理过程等问题——这些缺陷是标准基准测试无法充分捕捉的[5]。该综述强调，在高风险金融决策中，人工监督仍然不可或缺，这直接反驳了高基准分数可能营造出的“模型具备胜任能力”的假象。

在实际应用中使用大语言模型的隐性成本有哪些？

即使大语言模型在现实应用中展现出有限的提升，也伴随着高昂的计算成本和安全风险。在临床智能体研究中，最优的智能体系统相比基础大语言模型消耗了超过10倍的令牌数，延迟时间也增加了两倍以上，但准确率提升却十分有限（例如在AgentClinic MedQA测试中仅达到60.3%，而基础模型得分更低）[1]。尽管内置的安全机制过滤了89.9%的幻觉内容，但剩余的错误仍构成风险。这意味着在现实场景中部署大语言模型不仅关乎准确率，还涉及基准测试难以反映的巨大资源消耗和持续存在的安全隐患。

本文引用的文献

为临床决策任务对基于大型语言模型的智能体系统进行基准测试

用于临床任务的自主AI系统在MedAgentsBench上仅达到30.3%的准确率，在Humanity's Last Exam上仅为8.6%，尽管使用了先进工具，且相比基线大语言模型消耗了超过10倍的令牌数和超过2倍的延迟。

2026 · Yunsong Liu, Zunamys I. Carrero, Xiaofeng Jiang, Dyke Ferber, Georg Wölflein, Li Zhang, Sanddhya Jayabalan, Tim Lenz, Zhouguang Hui, J. Kather · npj Digital Medicine

原文

一项跨学科、随机、单盲评估，针对最先进的大语言模型在医学诊断与管理中的潜在影响与风险。

在27位临床专家进行的单盲评估中，顶尖大语言模型在医学能力上得分约6.0/10（相当于拥有6年经验的医生），并出现了40次幻觉，包括虚构病症和药物。

2025 · Peikai Chen, Jifu Cai, Jiaying Zhou, Shaoxi Chen, Chenguang Xu, Lihua Yuan, Xiaoying Dai, Xiaowei Chen, Yanzhe Wei, Xia Li, Shaofeng Gong, Xiaolong Liang, Jiancheng Yang, Jun Jin, Kanglin Dai, Yuzhen Cui, Guan-Ming Kuang, Jianshen Xie, Libing Luo, Haibing Xiao, Shijie Yin, Jun Yang, Yulan Yan, Jianliang Chen, Yihua Chen, Qianshen Zhang, Qingshan Zhou, Lina Zhao, Min Wu, Xin Tang, Lei Rong, Zanxin Wang, Weifu Qiu, Yanli Wang, Liwen Cui, Xiangyang Li, Yong Hu, Huiren Tao, Nan Wu, Pearl Pai, Minxin Wei, Michael Kai-tsun To, Kenneth M.C. Cheung

原文

大型语言模型的基础能力与应用综述

一项关于大语言模型能力的调查得出结论，现有基于基准的评估往往无法反映真实世界的表现，因为实际所需的能力与基准所衡量的能力存在差异。

2025 · Jiawei Li, Yang Gao, Yizhe Yang, Yu Bai, Xiaofeng Zhou, Yinghao Li, Huashan Sun, Yuhang Liu, Xingpeng Si, Yuhao Ye, Yixiao Wu, Yiguan Lin, Bin Xu, Ren Bowen, Chong Feng, Heyan Huang · ACM Comput. Surv.

原文

LLM-Evolve：大语言模型在基准测试中能力演进的评估

LLM-Evolve框架表明，模型在与过往反馈的交互中性能可提升高达17%，而标准的独立同分布基准测试完全忽略了这一动态能力。

2024 · Jiaxuan You, Mingjie Liu, Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro · Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing

原文

大型语言模型在金融知识提取中的应用：分析洞察与企业规划支持

一项针对金融领域大语言模型应用的综述指出，幻觉、偏见以及推理过程难以解释等持续存在的挑战，是现有标准基准无法充分捕捉的。

2025 · Xuguang Zhang, Mengdie Wang · Mathematical Modeling and Algorithm Application

原文

评估中等规模的开源大语言模型：在精准肿瘤学护理交付场景中迈向决策支持

在精准肿瘤学领域，中等规模的大语言模型频繁提供过时或错误的信息，且专家评估者之间存在高度分歧，这表明基准测试表现与实际应用之间存在着明显差距。

2025 · Kevin Kaufmes, Georg Mathes, Dilyana Vladimirova, Stephanie Berger, Christian Fegeler, Stefan Sigle · Studies in health technology and informatics

原文