语言模型如何在没有显式世界模型的情况下进行推理?
大型语言模型(LLMs)能够通过使用结构化提示进行逐步引导来实现有效推理,即便其本身并未内置对世界的表征。这种被称为“零样本思维链”的推理方式,只需在回答前加入“让我们一步步思考”这一短语,就能显著提升其在算术与逻辑任务上的表现。例如,在MultiArith数学基准测试中,使用大型InstructGPT模型时,准确率从17.7%跃升至78.7%[3]。这表明,LLMs无需显式的世界模型,便能从其训练数据中提取推理路径。
在医疗场景中,大语言模型已被用于基于真实世界放射学与病理学报告执行指南驱动的临床推理。一个120亿参数的模型(Gemma 12B)在采用基于临床指南的结构化推理模板进行提示后,在肿瘤疗效分类任务中取得了81.5%的F1分数,在癌症分期任务中达到了90.8%的F1分数[1]。类似地,GPT-4从临床笔记中提取了复杂的治疗路径及药物更换原因,在识别新药物和原因两个任务上分别取得了0.80和0.83的微平均F1分数[2]。这些结果表明,大语言模型无需显式的世界模型,仅依赖模式识别与提示工程即可处理细微的推理任务。
语言模型何时需要显式世界模型来进行推理?
对于需要多步持续推理或深入理解因果动态的任务,显式世界模型的重要性愈发凸显。2024年的一项研究评估了大语言模型作为决策世界模型的表现,发现其在长期任务中性能有所下降:当GPT-4o需要提前规划多个步骤时,其准确率显著降低,且不同推理功能的组合会引入不稳定性[5]。这表明,对于复杂的多步规划——例如穿越迷宫或管理长期项目——大语言模型若能拥有一个显式的世界变化模型,将更有利于任务执行。
即使在医学问答这类LLM推理能力较强的场景中,推理质量也会随模型规模和提示设计而变化。一项针对USMLE题目的研究发现,在GPT-3.5等较弱模型上,集成推理方法相比标准思维链可将准确率提升最多4%,但在GPT-4上提升幅度较小[4]。这表明,尽管LLM无需世界模型即可进行推理,但其推理并非始终一致或正确,而显式的世界模型有助于将其推论锚定在稳定、因果性的知识基础上。正如一项分析所指出的,LLM拥有“工具性知识”——即执行任务的能力——但这可能无法完全涵盖人类用于深度理解的结构化世界模型[6]。
模型规模是否决定是否需要世界模型?
大型模型在无需显式世界模型的情况下推理能力更强,但小型模型仍可从结构化提示中获益。在肿瘤学研究中,120亿参数模型(Gemma 12B)在基于指南的提示下推理任务表现良好,而40亿参数模型(Gemma 4B)表现不稳定,有时在相同提示下效果反而更差[1]。这表明,小型模型可能缺乏可靠遵循复杂推理链的能力,除非获得额外支持,例如显式世界模型或更充分的微调。
类似地,在药物转换研究中,GPT-4(一个超大规模模型)的表现优于所有参与测试的八个开源模型,包括70亿和80亿参数规模的模型[2]。然而,表现最佳的开源模型(Starling-7B-beta和Llama-3-8B)仍取得了具有竞争力的结果,这表明即使是中等规模的模型也能在特定领域进行有效推理。关键结论是:虽然大型模型通常无需显式世界模型即可进行推理,但较小模型可能需要更多辅助——无论是通过更优的提示词、世界模型,还是任务专项训练——才能实现可靠的性能。
本文引用的文献
使用大型语言模型对真实世界肿瘤学报告进行临床推理。
一个120亿参数的大语言模型在结构化临床推理提示的引导下,对肿瘤应答的F1分数达到81.5%,对癌症分期的F1分数达到90.8%,而一个40亿参数的模型则表现出不稳定的性能。
使用大语言模型从真实世界数据中提取TNFi转换原因及治疗轨迹。
GPT-4从临床记录中提取治疗转换原因的表现优异,在已开始药物和原因两个维度上的微F1分数分别达到0.80和0.83,优于八个开源模型。
大型语言模型是零样本推理器
零样本思维链提示(“让我们一步步思考”)在使用大型InstructGPT模型时,将MultiArith数据集的准确率从17.7%提升至78.7%,并将GSM8K数据集的准确率从10.4%提升至40.7%。
使用大型语言模型进行医学问答推理。
一种集成推理方法在GPT-3.5和Med42-70B上,将USMLE题目的准确率相比标准思维链提升了最多4%,而在GPT-4上的提升幅度较小。
基于大语言模型的世界模型可独立做出决策,但需进行严格评估。
GPT-4o在决策任务上的表现优于GPT-4o-mini,但在长期任务中性能有所下降,而结合推理功能则引入了不稳定性。
从任务结构到世界模型:大语言模型知道什么?
LLMs具备执行任务的“工具性知识”,但这可能并未完全融入认知科学中的结构化世界模型,暗示在世界模型与任务需求之间存在一种权衡。
