WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[SIGIR 2026] KARMA:破解淘宝个性化搜索中的“语义崩溃”,实现零开销 LLM 增强
总结
问题
方法
结果
要点
摘要

本文提出了 KARMA,一种自阿里巴巴淘宝团队的个性化搜索对齐框架。该方法通过引入“知识-行动”正则化机制,在不增加推理成本的前提下,利用 LLM 的语义生成能力指导用户兴趣向量的表示学习,实现了搜索全链路(召回、粗排、精排)的 SOTA 性能。

TL;DR

在将大语言模型(LLM)引入搜索和推荐系统时,开发者往往面临一个尴尬的局面:追求性能提升进行判别式微调,却导致 LLM 的语义空间被破坏,变成了只会死记硬背特征的“查表器”。阿里巴巴淘宝团队在本文中提出的 KARMA (Knowledge-Action Regularized Multimodal Alignment) 框架,通过引入“仅训练可见”的辅助解码任务,成功弥补了**知识(预训练语义)行动(用户点击行为)**之间的鸿沟,在不增加任何线上推理延迟的情况下,大幅提升了搜索的泛化能力。

1. 痛点:为什么 LLM 在搜索系统中会“语义崩溃”?

传统的工业级搜索系统依赖点击率(CTR)等判别式目标进行优化。当我们尝试将 LLM 接入时,由于推理延迟限制,通常将商品历史压缩为连续的 Embedding。

然而,作者深入分析发现,在这种“Embedding-only”的微调下,LLM 出现了严重的语义崩溃(Semantic Collapse)

  • 注意力汇聚(Attention Sinks):模型在处理历史序列时,注意力图会呈现出“条形码”状的异常分布,仅盯着少数几个位置(Shortcut),而忽略了商品本身的语义。
  • 判别式短路:模型学会了利用 ID 类的统计捷径来区分正负样本,导致 LLM 沦为一个纯粹的 ID 编码器,失去了处理冷启动和长尾数据的通用语义能力。

语义崩溃下的注意力汇聚分析(图b/c对比) 左图显示了原生训练下的异常注意力,右图展现了 KARMA 修复后的分布式语义捕捉能力。

2. 核心方法论:知识与行动的平衡术

KARMA 的核心逻辑在于:强制让模型生成的兴趣向量(Action-aligned Embedding)具备还原出商品原貌的本领(Knowledge Decodability)。

2.1 模型架构详解

KARMA 维持了一个高效的流水线:

  1. Item Encoder:将多模态商品信息压缩为 Continuous Token(e_i)。
  2. User Decoder:基于 Qwen3 等 LLM 背景的解码器对用户历史进行建模,生成当前兴趣向量

KARMA 框架总览图

2.2 双路径解码正则化

为了防止语义崩溃,KARMA 创新性地在训练阶段挂载了两个“解码头”:

  • 路径一:历史条件生成 (Task 1) 直接根据用户历史预测下一个真实商品的文本 Token。这保证了 LLM 的骨干网络不会忘记如何“听人话”。
  • 路径二:向量条件重构 (Task 2) 要求仅凭最终生成的 向量,也要能把商品的文本和视觉特征还原出来。这把 变成了一个“语义瓶颈”,逼迫它必须承载足够的语义干货,而不是简单的 ID 映射。

值得注意的是:这些解码头在 Inference(线上推理)阶段是完全拆卸掉的,因此实现了真正的“训练重、推理轻”。

3. 实验发现:为什么不用 Diffusion 做检索?

在多模态实验中,作者分享了一个非常有趣的洞察:关于 趋模态(Mode-seeking)vs. 趋均值(Mean-seeking)

作者尝试使用 Diffusion(扩散模型)直接生成检索用的兴趣向量 ,结果发现效果并不理想。

  • 原因分析:Diffusion 的目标是生成尽可能真实、具体的“点”(Mode-seeking),而检索任务需要向量作为一个“中心点”(Mean-seeking),去召回周围一圈可能感兴趣的物品。
  • 结论:Diffusion 更适合作为语义重构的正则项,帮助捕捉复杂的视觉分布,而非直接作为生成检索向量的引擎。

4. 落地战绩

KARMA 在淘宝庞大的流量池中展现了全方位的统治力:

  • 召回(Recall):HR@5000 提升达 +2.51
  • 精排(Ranking):CTR AUC 提升 +0.25,并在 14 天的线上 A/B 测试中斩获了 0.5% 的点击增长
  • 消融分析:如表 1 所示,单纯加入向量重构(Lrecon)就为模型带来了质的飞跃,证明了“语义瓶颈”约束的必要性。

核心实验对比表

5. 总结与启示

KARMA 的成功告诉我们,在 LLM 落地工业界的过程中,性能与泛化并非不可得兼。通过巧妙地利用 Train-only Regularizers,我们可以把训练时的强监管转化为模型深层的语义直觉,从而在不损耗推理毫秒数的前提下,释放 LLM 的知识红利。这一思路不仅适用于搜索,对于推荐系统、多模态对话等领域同样具有强大的参考价值。

发现相似论文

试试这些示例

  • 查找最近其他关于解决大语言模型在个性化推荐中出现“语义崩溃”或“注意力汇聚”现象的论文。
  • 探讨在检索和表征学习中,对比学习(Contrastive Learning)与生成式正则化(Generative Regularization)结合的最新研究综述。
  • 有哪些研究在工业级大规模系统中成功将 Diffusion 模型作为多模态特征的辅助训练任务而非直接推理模块?
目录
[SIGIR 2026] KARMA:破解淘宝个性化搜索中的“语义崩溃”,实现零开销 LLM 增强
1. TL;DR
2. 1. 痛点:为什么 LLM 在搜索系统中会“语义崩溃”?
3. 2. 核心方法论:知识与行动的平衡术
3.1. 2.1 模型架构详解
3.2. 2.2 双路径解码正则化
4. 3. 实验发现:为什么不用 Diffusion 做检索?
5. 4. 落地战绩
6. 5. 总结与启示