LLM能否作为其他AI系统的可靠评估者？

LLM 在什么情况下才能真正成为有效的评估者？

LLM在标准明确、语境狭窄的结构化领域任务中，作为评估工具表现出色。2025年一项关于医疗病史采集的研究显示，基于LLM的系统在简单、中等和复杂病例中的对话准确率超过97.9%，其自动评估与人类专家在项目层面的一致性超过95%[1]。这意味着在评估受训人员的医疗问诊技能时，LLM的可靠性几乎与人类督导相当。

同样，在急诊分诊中，ChatGPT和Copilot的准确率与受过训练的分诊护士相当（整体约65%），而在识别高危急症患者方面，它们实际上优于护士——ChatGPT为87.8%，护士仅为32.7%[2]。大型语言模型在患者年龄和性别维度上表现更稳定，而护士则更容易对年轻患者进行错误分诊。因此，在高风险、基于规则的筛查任务中，大型语言模型可能比人类更可靠。

LLM作为评估者，在哪些方面存在不足？

LLM 在需要细致判断或察觉微妙模式的任务中表现糟糕。一项2025年的研究测试了GPT-4o和Llama 3.2 Vision在通过漏斗图检测发表偏倚（一项标准的元分析任务）时的表现。两种模型均未能稳定识别出偏倚，即便同时提供视觉和数值数据，其表现也未见提升[3]。简而言之，这些模型在识别已知统计失真方面的能力与随机猜测无异。

在战略业务评估中，一项2024年的研究发现，大型语言模型的单次评估“既不一致又存在偏见”——这意味着如果你让同一个模型对60份商业计划书进行两次排名，你会得到不同的结果[4]。然而，当研究人员对多个模型、提示或角色下的评估结果取平均值时，聚合后的排名开始接近人类专家的判断。结论是：单一LLM的判断不可靠，但一群LLM的判断则具有参考价值。

什么是可靠性差距，以及如何弥合它？

核心问题在于，大语言模型并非天生稳定的评估者。2024年一项肿瘤学研究对五个大语言模型进行了超过2000道题的测试，发现模型间存在显著性能差异——GPT-4的得分超过了人类医生的第50百分位，但所有模型都存在“临床意义上的错误率”以及过度自信的案例[5]。即便表现最好的模型，在某些领域（如女性高发癌症）也持续出错。

2024年一项关于“大模型作为裁判”系统的调查指出，确保其可靠性需要采取审慎策略：提升一致性、减少偏见，并针对具体场景进行适配[6]。具体措施包括多次重复提示（如肿瘤学研究通过此方法识别出准确率达81%的高性能子群[5]）、使用多个大模型，以及将AI评估与人工监督相结合。针对文本摘要任务，2024年的一份实践指南警告称，基于大模型的评估“功能强大但缺乏可靠性”，并建议综合运用多种方法[7]。

核心结论：大语言模型可以成为可靠的评估工具，但前提是必须精心设计评估流程——使用清晰的标准、综合多次判断结果，且绝不依赖单次输出。在狭窄且结构化的任务中，它们能与人类表现相当甚至更优；但在开放式或需要细微判断的任务中，目前仍存在明显不足。

本文引用的文献

基于大语言模型的病史采集训练系统的开发与验证：一项关于评估稳定性、人机一致性与透明性的前瞻性多案例研究

基于大语言模型的病史采集系统在简单、中等及复杂病例中，对话准确率超过97.9%，且在项目层面与人类专家的一致性超过95%。

2025 · Yang Liu, Chujun Shi, Liping Wu, Xiule Lin, Xiaoqin Chen, Yiying Zhu, Haizhu Tan, Weishan Zhang · JMIR Medical Education

原文

评估基于大语言模型的生成式AI工具在急诊分诊中的应用：ChatGPT Plus、Copilot Pro与分诊护士的对比研究。

ChatGPT与Copilot在护士分诊准确率上相当（约65%），但在识别高 acuity 患者方面表现优于护士（87.8%对比32.7%）。

2025 · B Arslan, C Nuhoglu, M O Satici, E Altinbilek · The American journal of emergency medicine

原文

利用人工智能进行荟萃分析：评估大语言模型在检测出版偏倚中的作用，助力下一代证据合成。

GPT-4o和Llama 3.2 Vision未能从漏斗图中持续检测出发表偏倚，即使提供了额外的定量数据也是如此。

2025 · Xing Xing, Lifeng Lin, Mohammad Hassan Murad, Jiayi Tong · Cochrane evidence synthesis and methods

原文

生成式人工智能与战略决策评估

单一LLM对商业模式的评估存在不一致性和偏差，但跨模型和提示的聚合排名与人类专家排名相似。

2024 · Anil R. Doshi, J. Jason Bell, Emil Mirzayev, Bart S. Vanneste · Strategic Management Journal

原文

大型语言模型在临床肿瘤学中的比较评估

在2044道肿瘤学问题中，GPT-4的表现优于其他大语言模型，但所有模型均存在临床意义上的错误率及过度自信问题。

2024 · Nicholas R Rydzewski, Deepak Dinakaran, Shuang G Zhao, Eytan Ruppin, Baris Turkbey, Deborah E Citrin, Krishnan R Patel · NEJM AI

原文

关于“大语言模型作为裁判”的综述

一项综合调查得出结论：构建可靠的“大语言模型作为裁判”系统需要采取审慎策略，以提升一致性、减少偏见并适应不同场景。

2026 · Jiawei Gu, Xuhui Jiang, Zhichao Shi, Hexiang Tan, Xuehao Zhai, Chengjin Xu, Wei Li, Yinghan Shen, Shengjie Ma, Honghao Liu, Saizhuo Wang, Kun Zhang, Zhouchi Lin, Bowen Zhang, Lionel Ni, Wen Gao, Yuanzhuo Wang, Jian Guo · The Innovation

原文

大语言模型生成摘要的自动评估实用指南

一份关于评估大语言模型生成摘要的实地指南指出，基于大语言模型的评估方法虽然强大，但缺乏可靠性，建议结合多种方法共同使用。

2024 · Tempest A. van Schaik, Brittany Pugh · SIGIR

原文