大语言模型能否取代传统搜索引擎进行信息检索？

大语言模型真的比谷歌搜索回答得更好吗？

尚未如此——在某些方面甚至更差。2023年一项研究直接对比了ChatGPT与谷歌在回答患者关于常见疾病（良性阵发性位置性眩晕）问题时的表现。ChatGPT的回答阅读难度显著更高：需要13.9年级的阅读水平，而谷歌为10.7级；在标准质量评分（DISCERN第二部分：满分40分中，ChatGPT得17.5分，谷歌得25.4分）上也更低[1]。这意味着普通人会觉得ChatGPT的解释比典型的谷歌搜索结果更难理解。

不过，ChatGPT在准确性（满分5分，得分4.19）和时效性（满分5分，得分4.31）方面表现良好，这意味着其提供的信息正确且及时——只是更难以理解[1]。因此，权衡在于：大语言模型能够给出准确、最新的答案，但往往用复杂的语言表达；而搜索引擎则能从不同来源提供更易读的内容。

仅将大语言模型作为搜索工具有何根本缺陷？

核心问题在于幻觉——大语言模型会自信地生成虚假信息。2024年，一位顶尖信息检索研究者在观点论文中直言不讳地指出：“幻觉等问题削弱了其可信度，限制了它们在现实应用中的实际效用，尤其是在信任至关重要的高风险场景中”[2]。与能提供可验证来源链接的搜索引擎不同，大语言模型给出的答案听起来流畅合理，却无法保证其真实性。

这正是同一篇论文认为“大语言模型无法取代搜索引擎”的原因，并预测未来的大语言模型需要“学会如何使用搜索引擎”——本质上成为传统检索之上更智能的界面[2]。另一场2024年的演讲也提出了相同观点：检索技术“比以往任何时候都更重要，因为我们需要信息有据可查”[4]。结论是：大语言模型在理解和生成语言方面能力强大，但单凭自身却无法可靠地核查事实。

那么，未来究竟会是什么样子？

证据指向一种混合模式，即大语言模型与搜索引擎协同工作，而非相互取代。主流搜索引擎已开始将AI对话整合至搜索结果中：谷歌推出Gemini，微软推出Copilot（原必应聊天），百度推出文心一言[3]。这些系统利用大语言模型理解复杂或对话式查询，再依托搜索引擎的索引检索并引用真实来源。

研究也证实了这一点。2024年一项关于跨语言搜索的研究表明，将多语言检索系统与大语言模型相结合，取得了最先进的成果，其表现优于单独使用任何一种方法[5]。而2023年的一篇论文发现，在提供少量示例的情况下，大语言模型能够生成准确的URL——其中近90%的URL指向包含正确答案的文档——但大语言模型仍需依赖搜索引擎的数据库来定位这些信息[6]。关键在于：大语言模型正成为更智能的搜索前端，而非搜索引擎本身的替代品。

本文引用的文献

谷歌上的BPPV信息与人工智能（ChatGPT）的对比

ChatGPT的医疗回答虽然准确且时效性强，但比谷歌前30条结果更难读懂（阅读难度等级13.9 vs 10.7），且质量更低（DISCERN评分17.5 vs 25.4）。

2023 · Jeffrey R Bellinger, Julian S De La Chapa, Minhie W Kwak, Gabriel A Ramos, Daniel Morrison, Bradley W Kesser · Otolaryngology--head and neck surgery : official journal of American Academy of Otolaryngology-Head and Neck Surgery

原文