WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite

提示工程是一门合法的科学学科吗?

提示工程是一项新兴的、有实证支持的技能,具备系统化的方法和可衡量的成果,但尚未达到成熟科学学科应有的严谨规范。

直接答案

提示工程尚未成为一门完全合法的科学学科,但它正迅速具备相关特征。它拥有系统的方法、可量化的成果,以及不断增长的研究基础——例如,一种结构化提示工程流程在提取化学合成数据时实现了90-99%的精确率和召回率[1],而一种元提示方法在数学推理准确率上比标准技术提升了6.3%[4]。然而,该领域仍缺乏标准化的评估框架,61%的医学提示设计研究未报告任何用于比较的非提示基线[5],且许多从业者依赖试错法而非可复现的原则[6][7]。因此,尽管提示工程是一项强大且基于证据的技能,它更像是一门新兴的手艺,而非成熟的科学。

11篇文献引用

本文由 WisPaper 驱动的搜索和论文分析生成。

“提示工程到底是什么,它为什么重要?”

提示工程是一种设计和优化指令(即提示词)的技术,用于指导像ChatGPT这样的大型语言模型(LLM)生成有用、准确且可靠的输出。它之所以重要,是因为LLM虽然强大但难以预测——若缺乏精心设计的提示词,它们可能产生无关、有偏见甚至虚构的信息。例如,一种名为“ChemPrompt”的提示工程策略曾被用于引导ChatGPT从化学论文中提取合成条件,其精确率、召回率和F1分数均达到90-99%[1]。这意味着该系统能以极低的错误率正确识别并记录几乎所有相关数据点,将容易产生幻觉的聊天机器人转变为可靠的研究助手。在医疗领域,提示工程正被称作医疗专业人员“重要的新兴技能”,目前已有相关教程帮助医生和护士设计能产出临床实用答案的提示词[2][3]

有哪些证据表明提示工程不仅仅是碰运气?

多项研究表明,提示工程遵循系统化、可复现的方法,能够带来可量化的性能提升。2024年的一项研究提出了一种名为PE2的方法,该方法采用包含逐步推理模板的详细元提示,在数学推理基准测试MultiArith上比标准的“让我们逐步思考”提示高出6.3%,在另一项基准测试GSM8K上高出3.1%[4]。这些并非微不足道的进步——它们表明,精心设计的提示能够持续提升大语言模型在复杂任务上的表现。类似地,研究人员还开发了一套可复用的“提示模式”目录——类似于软件设计模式——用于解决常见问题,例如强制输出格式或自动化多步骤流程[10]。这种基于模式的方法已成功应用于软件测试[11]和STEM教育领域:一个经过提示工程优化的工具可充当虚拟导师,根据学生的年级水平生成定制化的测验和讲解[9]。这些案例表明,提示工程并非仅凭经验之谈,而是拥有可迁移、有文献记载的技术,能够产生可靠的结果。

提示工程要成为真正的科学学科,还缺少什么?

尽管已有令人鼓舞的证据,但提示工程仍缺乏成熟科学所具备的标准化评估与理论基础。一项2024年针对114项医学提示工程研究的系统综述发现,61%的提示设计论文未报告任何非提示基线作为对照,这意味着它们无法证明其提示优于简单的替代方案[5]。许多研究也未能记录关键细节,如确切的提示措辞或所用模型版本,导致结果难以复现。另一篇论文提出系统性评估框架(SAFE-PE),正是由于当前实践“基于试错或特定任务基准”[6]。该领域在可重复性方面同样面临困境:一项诠释学研究发现,提高提示特异性会导致ChatGPT输出“中立性增强”,这表明优化事实准确性反而可能降低回应的意义[8]。这些空白意味着,尽管提示工程具备科学元素,但它仍更像一门手艺——虽有效用,却尚未受到普遍认可的同行评审标准约束。

本文引用的文献

1

用于文本挖掘和MOF合成预测的ChatGPT化学助手

一种ChemPrompt工程工作流在从约800篇MOF论文中提取26,257个合成参数时,实现了90-99%的精确率、召回率和F1分数,由此产生的数据训练出的机器学习模型在预测结晶结果时准确率超过87%。

2

提示工程:医疗专业人员的重要新兴技能——教程

提示工程被描述为一个相对较新的研究领域,也是医疗专业人员一项重要的新兴技能,并提供了改善与大型语言模型互动的实用建议。

3

医疗领域的提示工程

文章指出了医学教育中在提示工程方面的知识空白,并主张将其作为一项核心能力,以改善患者预后和医疗服务交付。

4

提示工程:培养提示工程师

PE2方法通过使用详细的元提示并逐步推理,在MultiArith上比“让我们一步步思考”高出6.3%,在GSM8K上高出3.1%,并在反事实任务上以6.9%的优势击败了竞争基线。

5

医学应用中的提示工程范式:范围综述。

一项涵盖114项医学提示工程研究的范围综述发现,61%的提示设计论文未报告任何非提示基线,且许多研究未能记录关键的提示工程特有信息。

6

SAFE-PE:一种用于评估生成式人工智能中提示工程(Prompt Engineering)的系统性评估框架

SAFE-PE框架提出了衡量提示词质量、可靠性与可重复性的标准指标(准确性、多样性、鲁棒性、可解释性、公平性、伦理性),以应对当前缺乏清晰评估框架的问题。

7

迈向提示模式目录:提升提示工程学科的系统化建设

论文指出,当前对有效提示的理解大多基于零散的经验之谈,缺乏系统性,因此呼吁采用系统化、规范化的提示工程方法,以提升关键任务软件的可靠性。

8

提示意义:一种诠释学方法,用于优化ChatGPT的提示工程

提高提示词的明确性会导致ChatGPT输出更加中立,这表明优化事实准确性可能会降低文本的诠释价值(即意义丰富性)。

9

运用提示工程提升STEM教育

开发了一款基于提示工程的原型工具,用于生成针对K-12学生年级水平定制的教育内容(描述、问答、测验),充当虚拟导师以提升STEM教育效果。

10

提升ChatGPT提示工程能力的提示模式目录

本文提出了一份包含15种以上提示模式(如角色设定、思维链、输出格式化等)的目录,将其作为与大型语言模型对话时常见问题的可复用解决方案,类似于软件设计模式。

11

提示工程对软件测试架构的影响:从初学者到专家

本文为软件测试工程师介绍了提示工程的相关概念,提供了示例提示词,并探讨了如何利用提示工程改进AI辅助测试,同时指出这仅仅是一个开端。