大语言模型的涌现能力只是测量技巧吗?
一个重要的线索来自我们衡量大语言模型性能的方式。标准评估通常使用单一的测试提示,只有当模型完全正确时,才将任务视为“解决”。这种二元化的通过/失败方法,可能让小型模型看起来毫无能力,直到它们突然跨越某个阈值。研究人员引入了PassUntil方法,从模型中采样多个可能的答案,并检查其中是否有正确的,从而实现了近乎无限的测量分辨率[4][6]。使用这种方法,他们发现即使是小型模型也表现出持续、渐进的改进,而这些改进此前是看不见的。例如,他们可以在训练开始前,就以仅0.05%的误差预测一个24亿参数模型的代码生成性能[4][6]。这表明,人们观察到的许多“突然涌现”现象,实际上只是粗糙测量工具带来的人为假象。
然而,并非所有涌现现象都会在更细致的审视下消失。同一项研究发现了一种“加速涌现”类型,即随着模型规模扩大,性能以递增速率提升,这种模式无法用标准的平滑缩放曲线拟合[4][6]。研究者认为,这可能是由于模型中多个神经回路在特定规模下同时激活,产生了真正的质变飞跃。因此,尽管某些能力是人为产物,但另一些能力似乎是真实存在的。
我们测试LLM的方式是否造成了虚假的涌现?
是的,测试方法本身就可能制造出“涌现能力”的假象。研究人员比较了两种衡量大语言模型语言知识的方式:直接向模型提问(提示法)与读取模型对不同词序列的内部概率分数[3][5]。他们发现,提示法始终低估了模型实际掌握的知识。例如,当被问及“这个句子语法正确吗?”时,模型可能给出错误答案,但其内部概率分数却显示它能正确赋予语法正确的句子更高的可能性[3][5]。这意味着,当一个小模型在提示测试中失败时,它可能仍具备潜在能力——只是无法通过元语言判断将其表达出来。随着提示与模型自然的下一词预测任务差异增大,这种不一致性会愈发严重[3][5]。因此,某些被报道的“涌现能力”可能仅仅是大型模型更擅长理解测试格式的结果,而非其底层技能的真实提升。
哪些涌现能力是真正存在的?
尽管存在测量误差,但大型语言模型确实能在未经显式训练的情况下展现出某些真实能力。在与人类的直接比较中,GPT-3在类比推理问题(如瑞文矩阵)上的表现达到甚至超越了人类水平,尽管它从未接受过此类任务的训练[2]。这是一个典型的零样本推理案例——模型无需任何示例便能自主理解抽象模式。同样,当大量语言模型智能体相互交互时,它们会自发形成社会惯例和集体偏见,而无需被编程设定[1]。这些惯例在去中心化的群体中普遍涌现,甚至少数坚持对抗的智能体也能推动整个群体采纳新的规范[1]。这些发现表明,语言模型仅凭自身训练就能自主构建复杂的社会与推理能力,这是一种无法归因于测量技巧的真正涌现现象。
本文引用的文献
LLM群体中涌现的社会惯例与集体偏见。
LLM群体无需显式编程即可自发形成普遍的社会惯例和集体偏见,而一个坚定的少数群体能够推动社会变革[1]。
大型语言模型中涌现的类比推理能力
GPT-3在零样本类比推理任务(包括瑞文矩阵测试)中达到或超越了人类水平,展现出真正的涌现推理能力[2]。
提示不能替代大型语言模型中的概率测量。
通过提示获取的大语言模型元语言判断,其效果不如直接的概率测量,且当提示偏离下一词预测时,一致性会进一步下降[3]。
使用无限分辨率评估预测涌现能力
使用PassUntil(无限分辨率评估)时,小模型展现出可预测的任务扩展性;一个2.4B模型的代码生成性能预测误差仅为0.05%[4]。
基于提示的方法可能会低估大语言模型的语言泛化能力。
与直接概率测量相比,提示方法低估了大语言模型的语言知识,因此基于负面提示的结果并不具有决定性[5]。
解锁涌现能力中的可预测扩展
PassUntil 展现出既符合可预测的缩放规律,又存在无法用标准缩放定律拟合的加速涌现现象,这表明多个回路可能引发了真正的质变 [6]。
