WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite

LLMs能否为新颖的科学发现做出有意义的贡献?

大语言模型能够生成新颖的研究思路,但在可行性和可靠性方面仍面临挑战。来自专家研究和天文学领域的证据既展现了其潜力,也揭示了潜在问题。

直接答案

是的,大型语言模型(LLMs)能够为新颖的科学发现做出有意义的贡献,但需注意重要前提。一项涵盖超过100名自然语言处理(NLP)研究人员的大规模研究发现,LLM生成的想法在新颖性上被评判为优于人类专家(统计显著性p<0.05),尽管在可行性上稍弱[1]。在天文学领域,一个LLM框架成功识别出数十个此前未分类的天体,这些天体具有很高的科学潜力,甚至还提出了后续观测计划[3]。然而,LLM在自我评估方面仍存在困难,想法生成缺乏多样性,并且在缺乏结构化知识支撑时,可能产生不可靠的“幻觉”[1][4]

5篇文献引用

本文由 WisPaper 驱动的搜索和论文分析生成。

LLM的想法真的比人类的想法更具新颖性吗?

是的,根据迄今为止最严谨的对比研究,答案是肯定的。研究人员招募了100多位自然语言处理专家撰写新颖的研究思路,随后让他们对人工提出的想法和大型语言模型生成的想法进行盲审。结果显示,大型语言模型提出的想法在创新性上被显著评为更高(p<0.05,即结果不太可能由偶然因素导致)[1]。然而,同一批评审专家认为这些想法在可行性上略逊一筹——也就是说,它们更具创意,但实际执行起来难度更大。这一权衡至关重要:仅凭新颖性并不能保证研究成果的实用性。

大语言模型真能从真实数据中发现新东西吗?

是的,天文学中有一个具体例证。研究人员利用大语言模型(LLM)解读了机器学习算法在NEOWISE巡天数据中标记为异常的奇特天体源——这些异常体现在红外光变曲线和光谱能量分布上。在通过已知稀有变源验证该方法后,他们将其应用于此前未分类的天体,成功识别出数十个具有极高科学潜力的目标,而LLM甚至生成了AI建议的后续观测方案[3]。这表明,LLM能够弥合数据驱动的异常检测与物理解释之间的“最后一公里”——这一环节常因现代天体物理学知识体系过于庞杂,令单个专家束手无策。

问题在哪里?大语言模型还有哪些不足?

主要问题在于可靠性。同一项研究发现,虽然大语言模型更具新颖性,但也暴露出“大语言模型自我评估的失败”和“生成内容缺乏多样性”——这意味着模型往往无法判断自身想法的优劣,且倾向于产出雷同的观点[1]。在生物学领域,尝试用大语言模型筛选预测结果和生成假设时,“常因幻觉问题及缺乏结构化知识支撑而受阻”[4]。为解决这一难题,研究人员构建了名为HypoChainer的协作系统,将大语言模型与知识图谱及人类专业知识相结合,证明将大语言模型锚定在结构化数据(如知识图谱)中,能使其输出在假设驱动型发现中更可靠[4]。因此,大语言模型的最佳定位是团队协作——而非单打独斗的发明家。

本文引用的文献

1

LLMs能否生成新颖的研究想法?一项涉及100多位NLP研究人员的大规模人类研究

基于100多位NLP研究人员的盲审评估,LLM生成的研究想法在创新性上显著优于人类专家(p<0.05),但在可行性上略逊一筹。

2

大型语言模型及其在现代科学发现中的作用

大语言模型通过高效处理大数据加速了科学研究,但也引发了一些根本性问题:这些成果是否构成新知识?在大计算时代,科学创造力又意味着什么?

3

在数据驱动发现的最后一公里中实现闭环:利用大型语言模型跨多模态数据解读未知天体源

一个LLM框架成功解读了NEOWISE数据中的异常天体源,识别出数十个此前未分类且具有高科学潜力的天体,并生成了由AI提出的后续观测计划。

4

HypoChainer:一种结合大语言模型与知识图谱的协作系统,用于假设驱动的科学发现。

结合大语言模型、知识图谱与人类专业知识的协作系统(HypoChainer),提升了生物学中假设驱动型发现的效率,有效克服了大语言模型的幻觉问题及缺乏结构化依据的缺陷。

5

社论:利用基于大语言模型的聊天机器人推动科学发现

社论视角:基于大语言模型的聊天机器人在科学发现(尤其是化学与药物设计领域)中展现出巨大潜力,同时指出需谨慎将其与现有方法相整合。