大语言模型在多步推理中的实际表现如何?
大语言模型能够执行多步推理,但其准确性因任务和模型不同而差异显著。在放射学问题中,一种多步检索框架(RaR)将25个模型的平均诊断准确率从67%提升至75%[2]。在医学执业考试中,集成推理方法使GPT-3.5和Med42-70B的准确率提升高达4%,GPT-4提升1.15%[1]。然而,在复杂临床病例中,即使最先进的推理模型也仅在提供充分检测结果时,对简单诊断任务的准确率超过85%,而在治疗方案制定和检查推荐方面表现急剧下降[3]。这意味着,尽管大语言模型能进行逐步推理,但它们最可靠的应用场景仍是定义明确、数据丰富的问题,而在开放式规划任务中则表现挣扎。
在视觉推理任务中,一项涵盖超过4000个推理步骤的新基准测试发现,最佳开源多模态模型(LlamaV-o1)在六个基准上的平均得分为67.3%,比此前模型高出3.8%,同时速度提升5倍[4]。这表明结构化的分步训练既能提高准确性也能提升效率,但绝对性能仍有改进空间。
哪些提示策略能让大语言模型推理得更好?
几种提示策略显著提升了多步推理能力。链式思维(CoT)提示要求模型“逐步思考”,帮助较小模型将复杂的医学查询分解为连续步骤,从而在PubMedQA数据集上提高了准确性和可解释性[5]。一种更先进的方法——规划与求解(PS)提示,首先制定计划将任务划分为子任务,然后依次执行,在十个数学与推理数据集上始终优于标准的零样本CoT[10]。例如,PS提示在数学问题上达到了与8样本CoT相当的性能,这意味着它在无需人工示例的情况下实现了相似的准确率。
另一种有效的方法是证据链(evidence chaining),即将相关事实分组为“证据链”,以避免遗漏重要信息。这种方法(MindMap)在bAbI和ProofWriterOWA等多步推理基准测试中,显著提升了CoT和Selection-Inference框架的表现[6]。类似地,通过将问题转化为符号形式并利用推理引擎,集成逻辑编程(ChatLogic)增强了LLMs的多步演绎推理能力[7]。这些结果表明,恰当的提示结构即使对较小或能力较弱的模型,也能使其推理更加可靠。
大语言模型在多步推理中仍会在哪些情况下失败?
尽管大语言模型(LLMs)在多个方面表现突出,但仍存在关键缺陷。在临床病例中,其推理过程通常符合事实,但常缺失关键步骤,尤其在检查建议和治疗规划环节[3]。这意味着模型可能给出正确的最终答案,却跳过了重要的中间逻辑,导致其推理在高风险决策中不可靠。在软件工程任务中,负责规划并执行多步骤修复的复杂自主智能体,其表现反而逊于更简单的无智能体方法——后者在SWE-bench Lite基准测试中以低成本(每次修复0.70美元)实现了32%的正确修复率[8]。这表明当前LLMs的规划能力尚不足以支撑复杂的智能体架构。
LLM在多步推理中还会出现三种特定类型的错误:计算错误、步骤遗漏错误和语义理解错误[10]。即使采用高级提示方法,这些错误依然存在。例如,在医学推理领域,较小的模型在处理高度专业化的内容时仍存在困难,需要借助检索增强生成技术来缩小与大型模型之间的差距[5]。此外,LLM常常无法运用必要且充分的知识,导致因证据缺失或错误推理路径而得出错误结论[9]。这些局限性意味着,在关键应用中,人机协作仍然不可或缺[1]。
本文引用的文献
使用大型语言模型进行医学问答推理。
在医学问答任务中,集成推理使GPT-3.5和Med42-70B的准确率提升了最多4%,使GPT-4的准确率提升了1.15%。
多步检索与推理提升了基于大语言模型的放射学问答能力。
一种多步检索框架(RaR)将25个大型语言模型在放射学问题上的平均诊断准确率从67%提升至75%。
量化大型语言模型在临床案例中的推理能力。
当前推理型大语言模型在简单诊断任务中准确率超过85%,但在治疗方案制定和检查推荐方面表现下降,且常遗漏关键推理步骤。
LlamaV-o1:重新思考大语言模型中的逐步视觉推理
LlamaV-o1 在六项视觉推理基准测试中取得了67.3%的平均得分,比之前的模型高出3.8%,同时速度提升了5倍。
面向小型语言模型的医学推理思维链策略。
思维链提示帮助较小的语言模型分解复杂的医学查询,提升了在PubMedQA上的准确性和可解释性。
思维导图:为大语言模型构建多步推理的证据链
MindMap通过证据链显著提升了在bAbI和ProofWriterOWA等多步推理基准上的CoT与选择推理表现。
ChatLogic:将逻辑编程与大型语言模型相结合,实现多步推理
ChatLogic通过整合逻辑编程,将问题转化为符号形式,显著提升了大型语言模型的多步演绎推理能力。
揭秘基于大语言模型的软件工程智能体
一种无需代理的简单方法在SWE-bench Lite上实现了32%的正确修复率,每次修复成本仅0.70美元,性能优于复杂的自主软件代理。
必要且充分的知识增强型大语言模型协作逻辑推理。
一种协作式逻辑推理框架(CLR)通过结合演绎推理、溯因推理和归纳推理,在多个数据集上均优于基线方法。
计划与解决提示:通过大型语言模型改进零样本思维链推理
计划与求解提示在十个数据集上始终优于零样本思维链,在数学推理方面与8样本思维链表现相当。
