WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite

大型语言模型是否具备心智理论能力?

大型语言模型能在许多测试中模仿心智理论,但缺乏真正的理解,表现出脆弱的推理能力和关键性缺陷。

直接答案

大型语言模型(LLMs)在许多心智理论测试中表现出色,有时甚至达到或超越人类准确率,但它们并不具备真正的心智理论。例如,GPT-4在错误信念和间接请求任务上与人类表现相当,但在识别失礼行为方面存在困难;而LLaMA2在该测试中看似表现更优,实则源于其倾向于归因于无知的偏差[1]。这些模型的推理能力十分脆弱:对场景进行微小改动便会导致答案一致性下降18%至34%[2],并且它们缺乏支撑人类社交理解能力的发展性与具身化经验[6]

7篇文献引用

本文由 WisPaper 驱动的搜索和论文分析生成。

大型语言模型在心智理论测试中实际表现如何?

在许多标准心理理论任务中,最先进的大语言模型表现达到甚至超越人类水平。在一项对比GPT-4、LLaMA2与1907名人类受试者的综合测试中,GPT-4在识别间接请求、错误信念和误导信息方面与人类持平或更优[1]。此外,GPT-4o在“奇异故事”范式中的表现也与人类相当,即使在最具挑战性的条件下也是如此[5]。这些结果表明,大语言模型能够在需要推理他人心理状态的测试中给出正确答案。

然而,性能表现并不均衡,有时甚至具有欺骗性。同一项研究发现,GPT-4在识别失礼行为方面尤其困难,而LLaMA2在该测试中似乎优于人类——但后续分析表明,这其实是模型倾向于归因于无知这一偏差造成的结果,并非真正的理解[1]。GPT-4在失礼行为测试中的糟糕表现源于其过度保守的策略,它拒绝得出人类认为显而易见的结论[7]。这一模式揭示出,某些任务上的高准确率可能掩盖了根本不同的底层处理机制。

为何大语言模型的心智理论与人类的不同?

核心区别在于,大语言模型缺乏人类形成真正心智理论所需的发展机制、具身机制和认知机制。一项系统性综述指出,大语言模型产生的是一种“理解幻觉”,因为它们没有真实世界经验、没有发展轨迹、也没有多模态感官输入——而这些对人类的社会认知至关重要[6]。由于缺乏在行动导向环境中的具身体验,它们的心智推理在本质上与人类认知存在差异[7]

这种脆弱性是可以量化的。当研究人员对心智理论场景施加极小的对抗性变换时,所有被测试的大语言模型在答案一致性上均下降了18%至34%[2]。这些模型的推理并不稳健:微小的变化就能干扰其表现,而人类却不会因此受骗。此外,早期及较小的模型受推理线索数量的影响较大,且容易受到干扰信息的误导,而GPT-4o则表现出较高的鲁棒性[5]。这种跨模型与跨条件的差异表明,大语言模型并未稳定地展现出类似人类的可靠推理能力。

这对将大语言模型用于社会角色意味着什么?

用户已经将心理状态归因于大语言模型,但这种归因对信任的影响是微妙的。一项针对410名参与者的研究发现,将智力(如推理、规划)归因于大语言模型,能显著预测人们对模型建议的信任程度;而将意识或情感归因于它,反而预测了更低的信任度[4]。这表明用户具有复杂的直觉:他们信任大语言模型处理认知任务,但对其是否具备主观体验持谨慎态度。

在实际应用如社交技能训练中,大语言模型展现出潜力,但需谨慎对待。GPT-4o在游戏化环境中评估自闭症用户心理理论任务时,与人类专家表现相当,准确率无统计学显著差异[3]。然而,同一研究指出,大语言模型的“黑箱”特性引发了可解释性与透明度方面的担忧,尤其是在弱势群体使用时。总体证据表明,大语言模型可作为社交推理任务的有用工具,但其输出不应被误认为真正的理解——且其脆弱性意味着可能发生不可预测的失败。

本文引用的文献

1

在大语言模型与人类中测试心智理论

GPT-4在错误信念、间接请求和误导性情境中的表现与人类相当或更优,但在失礼情境中表现不佳;LLaMA2在失礼情境中看似更优,实则是其倾向于归因于无知所导致的偏差[1]。

2

大型语言模型心智功能理论评估:一种行为与因果稳定性框架

LLM在最小场景变换下,答案一致性下降了18%–34%,而后续的Transformer层(第65–80层)通过可测量的因果效应编码了视角转换能力[2]。

3

面向自闭症的大语言模型:在游戏化环境中评估心理理论任务

在游戏化环境中评估自闭症用户心理理论任务时,GPT-4o的表现与人类专家相当,且未出现统计学上的显著差异[3]。

4

心理状态归因对大型语言模型信任度的影响

在一项涉及410名参与者的研究中,将智能归因于大语言模型会显著预测信任,而将意识归因于它则预测更低的信任度[4]。

5

大型语言模型是否具备心智理论?基于奇异故事范式的比较评估

在《奇怪故事》范式中,即便在具有挑战性的条件下,GPT-4o的表现也与人类相当,而较小的模型则容易受到干扰信息的影响[6]。

6

人工智能与理解的幻象:关于心智理论与大型语言模型的系统性综述

LLMs 产生了一种“理解的幻觉”,因为它们缺乏真正心智理论所必需的发展性、具身性和多模态机制[8]。

7

测试GPT模型与人类的心智理论

GPT模型在错误信念和误导情境中展现出与人类相当的表现,但在失言识别方面因过度保守的结论推断而表现不佳[9]。