大语言模型真的比谷歌搜索回答得更好吗?
尚未如此——在某些方面甚至更差。2023年一项研究直接对比了ChatGPT与谷歌在回答患者关于常见疾病(良性阵发性位置性眩晕)问题时的表现。ChatGPT的回答阅读难度显著更高:需要13.9年级的阅读水平,而谷歌为10.7级;在标准质量评分(DISCERN第二部分:满分40分中,ChatGPT得17.5分,谷歌得25.4分)上也更低[1]。这意味着普通人会觉得ChatGPT的解释比典型的谷歌搜索结果更难理解。
不过,ChatGPT在准确性(满分5分,得分4.19)和时效性(满分5分,得分4.31)方面表现良好,这意味着其提供的信息正确且及时——只是更难以理解[1]。因此,权衡在于:大语言模型能够给出准确、最新的答案,但往往用复杂的语言表达;而搜索引擎则能从不同来源提供更易读的内容。
仅将大语言模型作为搜索工具有何根本缺陷?
核心问题在于幻觉——大语言模型会自信地生成虚假信息。2024年,一位顶尖信息检索研究者在观点论文中直言不讳地指出:“幻觉等问题削弱了其可信度,限制了它们在现实应用中的实际效用,尤其是在信任至关重要的高风险场景中”[2]。与能提供可验证来源链接的搜索引擎不同,大语言模型给出的答案听起来流畅合理,却无法保证其真实性。
这正是同一篇论文认为“大语言模型无法取代搜索引擎”的原因,并预测未来的大语言模型需要“学会如何使用搜索引擎”——本质上成为传统检索之上更智能的界面[2]。另一场2024年的演讲也提出了相同观点:检索技术“比以往任何时候都更重要,因为我们需要信息有据可查”[4]。结论是:大语言模型在理解和生成语言方面能力强大,但单凭自身却无法可靠地核查事实。
那么,未来究竟会是什么样子?
证据指向一种混合模式,即大语言模型与搜索引擎协同工作,而非相互取代。主流搜索引擎已开始将AI对话整合至搜索结果中:谷歌推出Gemini,微软推出Copilot(原必应聊天),百度推出文心一言[3]。这些系统利用大语言模型理解复杂或对话式查询,再依托搜索引擎的索引检索并引用真实来源。
研究也证实了这一点。2024年一项关于跨语言搜索的研究表明,将多语言检索系统与大语言模型相结合,取得了最先进的成果,其表现优于单独使用任何一种方法[5]。而2023年的一篇论文发现,在提供少量示例的情况下,大语言模型能够生成准确的URL——其中近90%的URL指向包含正确答案的文档——但大语言模型仍需依赖搜索引擎的数据库来定位这些信息[6]。关键在于:大语言模型正成为更智能的搜索前端,而非搜索引擎本身的替代品。
本文引用的文献
谷歌上的BPPV信息与人工智能(ChatGPT)的对比
ChatGPT的医疗回答虽然准确且时效性强,但比谷歌前30条结果更难读懂(阅读难度等级13.9 vs 10.7),且质量更低(DISCERN评分17.5 vs 25.4)。
大型语言模型与信息检索的未来:机遇与挑战
由于存在幻觉和信任问题,大语言模型无法取代搜索引擎;未来的大语言模型将需要借助搜索引擎来确保其回答的可靠性。
类似ChatGPT的技术会取代商业搜索引擎吗?
谷歌、微软和百度均已将AI聊天功能整合到其搜索引擎中,形成了混合系统,而非完全替代原有模式。
未来的搜索引擎会是聊天机器人吗?
检索技术比以往任何时候都更加重要,因为信息必须基于可靠来源,即便大语言模型正在改变用户与信息互动的方式。
引导大型语言模型实现跨语言信息检索
将多语言检索系统与大语言模型结合(ASMR),在跨语言搜索基准测试中取得了最先进的结果,性能优于单独使用其中任何一种。
大型语言模型是内置的自回归搜索引擎。
在提供少量示例的情况下,大语言模型能够以近90%的成功率生成用于文档检索的准确URL,但其仍依赖于搜索引擎的数据库。
