大型语言模型是否具备心智理论能力？

大型语言模型在心智理论测试中实际表现如何？

在许多标准心理理论任务中，最先进的大语言模型表现达到甚至超越人类水平。在一项对比GPT-4、LLaMA2与1907名人类受试者的综合测试中，GPT-4在识别间接请求、错误信念和误导信息方面与人类持平或更优[1]。此外，GPT-4o在“奇异故事”范式中的表现也与人类相当，即使在最具挑战性的条件下也是如此[5]。这些结果表明，大语言模型能够在需要推理他人心理状态的测试中给出正确答案。

然而，性能表现并不均衡，有时甚至具有欺骗性。同一项研究发现，GPT-4在识别失礼行为方面尤其困难，而LLaMA2在该测试中似乎优于人类——但后续分析表明，这其实是模型倾向于归因于无知这一偏差造成的结果，并非真正的理解[1]。GPT-4在失礼行为测试中的糟糕表现源于其过度保守的策略，它拒绝得出人类认为显而易见的结论[7]。这一模式揭示出，某些任务上的高准确率可能掩盖了根本不同的底层处理机制。

为何大语言模型的心智理论与人类的不同？

核心区别在于，大语言模型缺乏人类形成真正心智理论所需的发展机制、具身机制和认知机制。一项系统性综述指出，大语言模型产生的是一种“理解幻觉”，因为它们没有真实世界经验、没有发展轨迹、也没有多模态感官输入——而这些对人类的社会认知至关重要[6]。由于缺乏在行动导向环境中的具身体验，它们的心智推理在本质上与人类认知存在差异[7]。

这种脆弱性是可以量化的。当研究人员对心智理论场景施加极小的对抗性变换时，所有被测试的大语言模型在答案一致性上均下降了18%至34%[2]。这些模型的推理并不稳健：微小的变化就能干扰其表现，而人类却不会因此受骗。此外，早期及较小的模型受推理线索数量的影响较大，且容易受到干扰信息的误导，而GPT-4o则表现出较高的鲁棒性[5]。这种跨模型与跨条件的差异表明，大语言模型并未稳定地展现出类似人类的可靠推理能力。

这对将大语言模型用于社会角色意味着什么？

用户已经将心理状态归因于大语言模型，但这种归因对信任的影响是微妙的。一项针对410名参与者的研究发现，将智力（如推理、规划）归因于大语言模型，能显著预测人们对模型建议的信任程度；而将意识或情感归因于它，反而预测了更低的信任度[4]。这表明用户具有复杂的直觉：他们信任大语言模型处理认知任务，但对其是否具备主观体验持谨慎态度。

在实际应用如社交技能训练中，大语言模型展现出潜力，但需谨慎对待。GPT-4o在游戏化环境中评估自闭症用户心理理论任务时，与人类专家表现相当，准确率无统计学显著差异[3]。然而，同一研究指出，大语言模型的“黑箱”特性引发了可解释性与透明度方面的担忧，尤其是在弱势群体使用时。总体证据表明，大语言模型可作为社交推理任务的有用工具，但其输出不应被误认为真正的理解——且其脆弱性意味着可能发生不可预测的失败。

本文引用的文献

1

在大语言模型与人类中测试心智理论

GPT-4在错误信念、间接请求和误导性情境中的表现与人类相当或更优，但在失礼情境中表现不佳；LLaMA2在失礼情境中看似更优，实则是其倾向于归因于无知所导致的偏差[1]。

2024 · James W A Strachan, Dalila Albergo, Giulia Borghini, Oriana Pansardi, Eugenio Scaliti, Saurabh Gupta, Krati Saxena, Alessandro Rufo, Stefano Panzeri, Guido Manzi, Michael S A Graziano, Cristina Becchio · Nature human behaviour

原文

2

大型语言模型心智功能理论评估：一种行为与因果稳定性框架

LLM在最小场景变换下，答案一致性下降了18%–34%，而后续的Transformer层（第65–80层）通过可测量的因果效应编码了视角转换能力[2]。

2026 · Prashanta Kumar Mohanty, Anupam Prasad, Abhisek Soy, , Gaurav Kumar, Akanksha Shukla · International Scientific Journal of Engineering and Management

原文

3

面向自闭症的大语言模型：在游戏化环境中评估心理理论任务

在游戏化环境中评估自闭症用户心理理论任务时，GPT-4o的表现与人类专家相当，且未出现统计学上的显著差异[3]。

2025 · Christian Poglitsch, Anna Reiss, Selina C Wriessnegger, Johanna Pirker · Scientific reports

原文

4

心理状态归因对大型语言模型信任度的影响

在一项涉及410名参与者的研究中，将智能归因于大语言模型会显著预测信任，而将意识归因于它则预测更低的信任度[4]。

2025 · Clara Colombatto, Jonathan Birch, Stephen M Fleming · Communications psychology

原文

5

大型语言模型是否具备心智理论？基于奇异故事范式的比较评估

在《奇怪故事》范式中，即便在具有挑战性的条件下，GPT-4o的表现也与人类相当，而较小的模型则容易受到干扰信息的影响[6]。

2026 · Anna Babarczy, Andras Lukacs, Péter Vedres, Zeteny Bujka · arXiv (Cornell University)

WisPaper

原文

6

人工智能与理解的幻象：关于心智理论与大型语言模型的系统性综述

LLMs 产生了一种“理解的幻觉”，因为它们缺乏真正心智理论所必需的发展性、具身性和多模态机制[8]。

2025 · Antonella Marchetti, Federico Manzi, Giuseppe Riva, Andrea Gaggioli, Davide Massaro · Cyberpsychology, behavior and social networking

原文

7

测试GPT模型与人类的心智理论

GPT模型在错误信念和误导情境中展现出与人类相当的表现，但在失言识别方面因过度保守的结论推断而表现不佳[9]。

2023 · James Strachan, Dalila Albergo, Giulia Borghini, Oriana Pansardi, Eugenio Scaliti, Alessandro Rufo, Guido Manzi, Michael Graziano, Cristina Becchio

原文