LLMs 能否可靠地规划和执行多步推理任务？

大语言模型在多步推理中的实际表现如何？

大语言模型能够执行多步推理，但其准确性因任务和模型不同而差异显著。在放射学问题中，一种多步检索框架（RaR）将25个模型的平均诊断准确率从67%提升至75%[2]。在医学执业考试中，集成推理方法使GPT-3.5和Med42-70B的准确率提升高达4%，GPT-4提升1.15%[1]。然而，在复杂临床病例中，即使最先进的推理模型也仅在提供充分检测结果时，对简单诊断任务的准确率超过85%，而在治疗方案制定和检查推荐方面表现急剧下降[3]。这意味着，尽管大语言模型能进行逐步推理，但它们最可靠的应用场景仍是定义明确、数据丰富的问题，而在开放式规划任务中则表现挣扎。

在视觉推理任务中，一项涵盖超过4000个推理步骤的新基准测试发现，最佳开源多模态模型（LlamaV-o1）在六个基准上的平均得分为67.3%，比此前模型高出3.8%，同时速度提升5倍[4]。这表明结构化的分步训练既能提高准确性也能提升效率，但绝对性能仍有改进空间。

哪些提示策略能让大语言模型推理得更好？

几种提示策略显著提升了多步推理能力。链式思维（CoT）提示要求模型“逐步思考”，帮助较小模型将复杂的医学查询分解为连续步骤，从而在PubMedQA数据集上提高了准确性和可解释性[5]。一种更先进的方法——规划与求解（PS）提示，首先制定计划将任务划分为子任务，然后依次执行，在十个数学与推理数据集上始终优于标准的零样本CoT[10]。例如，PS提示在数学问题上达到了与8样本CoT相当的性能，这意味着它在无需人工示例的情况下实现了相似的准确率。

另一种有效的方法是证据链（evidence chaining），即将相关事实分组为“证据链”，以避免遗漏重要信息。这种方法（MindMap）在bAbI和ProofWriterOWA等多步推理基准测试中，显著提升了CoT和Selection-Inference框架的表现[6]。类似地，通过将问题转化为符号形式并利用推理引擎，集成逻辑编程（ChatLogic）增强了LLMs的多步演绎推理能力[7]。这些结果表明，恰当的提示结构即使对较小或能力较弱的模型，也能使其推理更加可靠。

大语言模型在多步推理中仍会在哪些情况下失败？

尽管大语言模型（LLMs）在多个方面表现突出，但仍存在关键缺陷。在临床病例中，其推理过程通常符合事实，但常缺失关键步骤，尤其在检查建议和治疗规划环节[3]。这意味着模型可能给出正确的最终答案，却跳过了重要的中间逻辑，导致其推理在高风险决策中不可靠。在软件工程任务中，负责规划并执行多步骤修复的复杂自主智能体，其表现反而逊于更简单的无智能体方法——后者在SWE-bench Lite基准测试中以低成本（每次修复0.70美元）实现了32%的正确修复率[8]。这表明当前LLMs的规划能力尚不足以支撑复杂的智能体架构。

LLM在多步推理中还会出现三种特定类型的错误：计算错误、步骤遗漏错误和语义理解错误[10]。即使采用高级提示方法，这些错误依然存在。例如，在医学推理领域，较小的模型在处理高度专业化的内容时仍存在困难，需要借助检索增强生成技术来缩小与大型模型之间的差距[5]。此外，LLM常常无法运用必要且充分的知识，导致因证据缺失或错误推理路径而得出错误结论[9]。这些局限性意味着，在关键应用中，人机协作仍然不可或缺[1]。

本文引用的文献

使用大型语言模型进行医学问答推理。

在医学问答任务中，集成推理使GPT-3.5和Med42-70B的准确率提升了最多4%，使GPT-4的准确率提升了1.15%。

2024 · Mary M Lucas, Justin Yang, Jon K Pomeroy, Christopher C Yang · Journal of the American Medical Informatics Association : JAMIA

原文

多步检索与推理提升了基于大语言模型的放射学问答能力。

一种多步检索框架（RaR）将25个大型语言模型在放射学问题上的平均诊断准确率从67%提升至75%。

2025 · Sebastian Wind, Jeta Sopa, Daniel Truhn, Mahshad Lotfinia, Tri-Thien Nguyen, Keno Bressem, Lisa Adams, Mirabela Rusu, Harald Köstler, Gerhard Wellein, Andreas Maier, Soroosh Tayebi Arasteh · NPJ digital medicine

原文

量化大型语言模型在临床案例中的推理能力。

当前推理型大语言模型在简单诊断任务中准确率超过85%，但在治疗方案制定和检查推荐方面表现下降，且常遗漏关键推理步骤。

2025 · Pengcheng Qiu, Chaoyi Wu, Shuyu Liu, Yanjie Fan, Weike Zhao, Zhuoxia Chen, Hongfei Gu, Chuanjin Peng, Ya Zhang, Yanfeng Wang, Weidi Xie · Nature communications

原文

LlamaV-o1：重新思考大语言模型中的逐步视觉推理

LlamaV-o1 在六项视觉推理基准测试中取得了67.3%的平均得分，比之前的模型高出3.8%，同时速度提升了5倍。

2025 · Omkar Thawakar, Dinura Dissanayake, Ketan Pravin More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman H. Khan · Findings of the Association for Computational Linguistics: ACL 2025

原文

面向小型语言模型的医学推理思维链策略。

思维链提示帮助较小的语言模型分解复杂的医学查询，提升了在PubMedQA上的准确性和可解释性。

2025 · Hurmat Ali Shah, Mowafa Househ · Studies in health technology and informatics

原文

思维导图：为大语言模型构建多步推理的证据链

MindMap通过证据链显著提升了在bAbI和ProofWriterOWA等多步推理基准上的CoT与选择推理表现。

2024 · Yangyu Wu, Xu Han, Wei Song, Miaomiao Cheng, Fei Li · AAAI

原文

ChatLogic：将逻辑编程与大型语言模型相结合，实现多步推理

ChatLogic通过整合逻辑编程，将问题转化为符号形式，显著提升了大型语言模型的多步演绎推理能力。

2024 · Zhongsheng Wang, Jiamou Liu, Qiming Bao, Hongfei Rong, Jingfeng Zhang · IJCNN

原文

揭秘基于大语言模型的软件工程智能体

一种无需代理的简单方法在SWE-bench Lite上实现了32%的正确修复率，每次修复成本仅0.70美元，性能优于复杂的自主软件代理。

2025 · Chunqiu Steven Xia, Yinlin Deng, Soren Dunn, Lingming Zhang · Proc. ACM Softw. Eng.

原文

必要且充分的知识增强型大语言模型协作逻辑推理。

一种协作式逻辑推理框架（CLR）通过结合演绎推理、溯因推理和归纳推理，在多个数据集上均优于基线方法。

2025 · Peng Wang, Xiao Ding, Kai Xiong, Bing Qin, Ting Liu · Neural networks : the official journal of the International Neural Network Society

原文

计划与解决提示：通过大型语言模型改进零样本思维链推理

计划与求解提示在十个数据集上始终优于零样本思维链，在数学推理方面与8样本思维链表现相当。

2023 · Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee, Ee-Peng Lim · Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

原文