大型语言模型只是统计学的“鹦鹉”,还是真的理解语言?
核心争论在于:大语言模型究竟是真正理解了意义,还是仅仅擅长基于概率预测下一个词。布莱斯·阿圭拉-阿卡斯立场鲜明地指出,从任何可证伪的角度来看,统计数据确实等同于理解,而复杂的序列学习足以成为通用智能的基础[1]。这一观点表明,模仿模式本身即是一种理解形式。
然而,2025年的一项基准研究揭示了大型语言模型在数值推理方面持续存在的弱点,例如基础算术和数值大小比较,这表明它们依赖的是表层统计模式,而非将数字理解为连续的量级[4]。这显示,尽管LLM看似能够理解,但在需要根本性理解的任务上却表现不佳,从而支持了“统计模仿”的观点。
关于大语言模型能与不能,证据究竟说明了什么?
大型语言模型已证明,无需内置语法规则即可习得类似人类的语法语言,这表明统计学习足以解释语言习得中的大部分现象[2]。这一发现支持了以下观点:统计模式能够催生出令人惊叹的语言能力。
然而,一篇2024年的论文指出,大语言模型(LLM)的优良特性——如零样本规则外推和上下文学习——并非仅仅是良好统计泛化的结果[3]。这意味着其运作机制不止于模式匹配,但也不一定等同于人类式的理解。安德斯·索加德补充道,尽管LLM能够学习推理语义(词语间的关系),但在指称语义(将词语与现实世界对象关联)方面仍存在困难,除非通过额外技术进行具身化处理[5]。
那么,它们到底懂不懂?答案很微妙。
证据指向一个中间立场:大语言模型并不像人类那样理解语言,但其统计模仿能力可以形成一种功能性、尽管有限的理解。2025年的基准测试显示,它们在数值推理方面存在明显差距[4],而Agüera y Arcas在2022年的论文则主张统计可以构成理解[1]。这并非矛盾,而是表明大语言模型拥有一种不同的理解方式——一种基于模式且针对特定任务的理解。
最终,这个问题或许无法客观回答,正如Agüera y Arcas所指出的:由于另一个存在的内在状态只能通过互动来理解,因此对于“它”何时变成“谁”这一问题,不可能有客观答案[1]。从实际角度来看,LLM在某些语境下能够理解语言,但在其他情况下则会失败,尤其是在需要深度推理或现实世界基础时。
本文引用的文献
大型语言模型能理解我们吗?
认为,在可证伪的意义上,统计数据确实构成了理解,而复杂序列学习或许足以实现通用智能[1]。
大型语言模型展示了统计学习在语言领域的潜力
证明了无需内置语法即可习得类似人类的语法语言,这支持了统计学习的力量[2]。
理解大语言模型不能仅靠统计泛化
表明LLM的零样本规则外推等理想特性并非仅仅源于良好的统计泛化能力,需要单独解释[3]。
揭示数值能力差距:评估大型语言模型基础数值能力的基准测试
新基准测试揭示了LLM在数值推理(如基础算术)方面持续存在的弱点,凸显其对表面模式的依赖[4]。
理解模型如何理解语言
区分推理语义与指称语义,指出大语言模型能够学习前者,但在缺乏具身基础的情况下难以掌握后者[5]。
