LLMs能否为新颖的科学发现做出有意义的贡献？

LLM的想法真的比人类的想法更具新颖性吗？

是的，根据迄今为止最严谨的对比研究，答案是肯定的。研究人员招募了100多位自然语言处理专家撰写新颖的研究思路，随后让他们对人工提出的想法和大型语言模型生成的想法进行盲审。结果显示，大型语言模型提出的想法在创新性上被显著评为更高（p<0.05，即结果不太可能由偶然因素导致）[1]。然而，同一批评审专家认为这些想法在可行性上略逊一筹——也就是说，它们更具创意，但实际执行起来难度更大。这一权衡至关重要：仅凭新颖性并不能保证研究成果的实用性。

大语言模型真能从真实数据中发现新东西吗？

是的，天文学中有一个具体例证。研究人员利用大语言模型（LLM）解读了机器学习算法在NEOWISE巡天数据中标记为异常的奇特天体源——这些异常体现在红外光变曲线和光谱能量分布上。在通过已知稀有变源验证该方法后，他们将其应用于此前未分类的天体，成功识别出数十个具有极高科学潜力的目标，而LLM甚至生成了AI建议的后续观测方案[3]。这表明，LLM能够弥合数据驱动的异常检测与物理解释之间的“最后一公里”——这一环节常因现代天体物理学知识体系过于庞杂，令单个专家束手无策。

问题在哪里？大语言模型还有哪些不足？

主要问题在于可靠性。同一项研究发现，虽然大语言模型更具新颖性，但也暴露出“大语言模型自我评估的失败”和“生成内容缺乏多样性”——这意味着模型往往无法判断自身想法的优劣，且倾向于产出雷同的观点[1]。在生物学领域，尝试用大语言模型筛选预测结果和生成假设时，“常因幻觉问题及缺乏结构化知识支撑而受阻”[4]。为解决这一难题，研究人员构建了名为HypoChainer的协作系统，将大语言模型与知识图谱及人类专业知识相结合，证明将大语言模型锚定在结构化数据（如知识图谱）中，能使其输出在假设驱动型发现中更可靠[4]。因此，大语言模型的最佳定位是团队协作——而非单打独斗的发明家。

本文引用的文献

LLMs能否生成新颖的研究想法？一项涉及100多位NLP研究人员的大规模人类研究

基于100多位NLP研究人员的盲审评估，LLM生成的研究想法在创新性上显著优于人类专家（p<0.05），但在可行性上略逊一筹。

2024 · Chenglei Si, Diyi Yang, Tatsunori Hashimoto · arXiv.org

原文

大型语言模型及其在现代科学发现中的作用

大语言模型通过高效处理大数据加速了科学研究，但也引发了一些根本性问题：这些成果是否构成新知识？在大计算时代，科学创造力又意味着什么？

2024 · V. Yu. Filimonov · Philosophical Problems of IT & Cyberspace (PhilIT&C)

原文

在数据驱动发现的最后一公里中实现闭环：利用大型语言模型跨多模态数据解读未知天体源

一个LLM框架成功解读了NEOWISE数据中的异常天体源，识别出数十个此前未分类且具有高科学潜力的天体，并生成了由AI提出的后续观测计划。

2025 · Yanxia Zhang, Zihan Kang, Jingyi Zhang, Jinghang Shi, Changhua Li

原文

HypoChainer：一种结合大语言模型与知识图谱的协作系统，用于假设驱动的科学发现。

结合大语言模型、知识图谱与人类专业知识的协作系统（HypoChainer），提升了生物学中假设驱动型发现的效率，有效克服了大语言模型的幻觉问题及缺乏结构化依据的缺陷。

2026 · Haoran Jiang, Shaohan Shi, Yunjie Yao, Chang Jiang, Quan Li · IEEE transactions on visualization and computer graphics

原文

社论：利用基于大语言模型的聊天机器人推动科学发现

社论视角：基于大语言模型的聊天机器人在科学发现（尤其是化学与药物设计领域）中展现出巨大潜力，同时指出需谨慎将其与现有方法相整合。

2023 · Kenneth M. Merz Jr., Guo-Wei Wei, Feng Zhu · Journal of chemical information and modeling

原文