LLM 在什么情况下才能真正成为有效的评估者?
LLM在标准明确、语境狭窄的结构化领域任务中,作为评估工具表现出色。2025年一项关于医疗病史采集的研究显示,基于LLM的系统在简单、中等和复杂病例中的对话准确率超过97.9%,其自动评估与人类专家在项目层面的一致性超过95%[1]。这意味着在评估受训人员的医疗问诊技能时,LLM的可靠性几乎与人类督导相当。
同样,在急诊分诊中,ChatGPT和Copilot的准确率与受过训练的分诊护士相当(整体约65%),而在识别高危急症患者方面,它们实际上优于护士——ChatGPT为87.8%,护士仅为32.7%[2]。大型语言模型在患者年龄和性别维度上表现更稳定,而护士则更容易对年轻患者进行错误分诊。因此,在高风险、基于规则的筛查任务中,大型语言模型可能比人类更可靠。
LLM作为评估者,在哪些方面存在不足?
LLM 在需要细致判断或察觉微妙模式的任务中表现糟糕。一项2025年的研究测试了GPT-4o和Llama 3.2 Vision在通过漏斗图检测发表偏倚(一项标准的元分析任务)时的表现。两种模型均未能稳定识别出偏倚,即便同时提供视觉和数值数据,其表现也未见提升[3]。简而言之,这些模型在识别已知统计失真方面的能力与随机猜测无异。
在战略业务评估中,一项2024年的研究发现,大型语言模型的单次评估“既不一致又存在偏见”——这意味着如果你让同一个模型对60份商业计划书进行两次排名,你会得到不同的结果[4]。然而,当研究人员对多个模型、提示或角色下的评估结果取平均值时,聚合后的排名开始接近人类专家的判断。结论是:单一LLM的判断不可靠,但一群LLM的判断则具有参考价值。
什么是可靠性差距,以及如何弥合它?
核心问题在于,大语言模型并非天生稳定的评估者。2024年一项肿瘤学研究对五个大语言模型进行了超过2000道题的测试,发现模型间存在显著性能差异——GPT-4的得分超过了人类医生的第50百分位,但所有模型都存在“临床意义上的错误率”以及过度自信的案例[5]。即便表现最好的模型,在某些领域(如女性高发癌症)也持续出错。
2024年一项关于“大模型作为裁判”系统的调查指出,确保其可靠性需要采取审慎策略:提升一致性、减少偏见,并针对具体场景进行适配[6]。具体措施包括多次重复提示(如肿瘤学研究通过此方法识别出准确率达81%的高性能子群[5])、使用多个大模型,以及将AI评估与人工监督相结合。针对文本摘要任务,2024年的一份实践指南警告称,基于大模型的评估“功能强大但缺乏可靠性”,并建议综合运用多种方法[7]。
核心结论:大语言模型可以成为可靠的评估工具,但前提是必须精心设计评估流程——使用清晰的标准、综合多次判断结果,且绝不依赖单次输出。在狭窄且结构化的任务中,它们能与人类表现相当甚至更优;但在开放式或需要细微判断的任务中,目前仍存在明显不足。
本文引用的文献
基于大语言模型的病史采集训练系统的开发与验证:一项关于评估稳定性、人机一致性与透明性的前瞻性多案例研究
基于大语言模型的病史采集系统在简单、中等及复杂病例中,对话准确率超过97.9%,且在项目层面与人类专家的一致性超过95%。
评估基于大语言模型的生成式AI工具在急诊分诊中的应用:ChatGPT Plus、Copilot Pro与分诊护士的对比研究。
ChatGPT与Copilot在护士分诊准确率上相当(约65%),但在识别高 acuity 患者方面表现优于护士(87.8%对比32.7%)。
利用人工智能进行荟萃分析:评估大语言模型在检测出版偏倚中的作用,助力下一代证据合成。
GPT-4o和Llama 3.2 Vision未能从漏斗图中持续检测出发表偏倚,即使提供了额外的定量数据也是如此。
生成式人工智能与战略决策评估
单一LLM对商业模式的评估存在不一致性和偏差,但跨模型和提示的聚合排名与人类专家排名相似。
大型语言模型在临床肿瘤学中的比较评估
在2044道肿瘤学问题中,GPT-4的表现优于其他大语言模型,但所有模型均存在临床意义上的错误率及过度自信问题。
关于“大语言模型作为裁判”的综述
一项综合调查得出结论:构建可靠的“大语言模型作为裁判”系统需要采取审慎策略,以提升一致性、减少偏见并适应不同场景。
大语言模型生成摘要的自动评估实用指南
一份关于评估大语言模型生成摘要的实地指南指出,基于大语言模型的评估方法虽然强大,但缺乏可靠性,建议结合多种方法共同使用。
