KARMA: Knowledge-Action Regularized Multimodal Alignment for Personalized Search at Taobao

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

KARMA: Knowledge-Action Regularized Multimodal Alignment for Personalized Search at Taobao

[SIGIR 2026] KARMA：破解淘宝个性化搜索中的“语义崩溃”，实现零开销 LLM 增强

总结

问题

方法

结果

要点

摘要

本文提出了 KARMA，一种自阿里巴巴淘宝团队的个性化搜索对齐框架。该方法通过引入“知识-行动”正则化机制，在不增加推理成本的前提下，利用 LLM 的语义生成能力指导用户兴趣向量的表示学习，实现了搜索全链路（召回、粗排、精排）的 SOTA 性能。

TL;DR

在将大语言模型（LLM）引入搜索和推荐系统时，开发者往往面临一个尴尬的局面：追求性能提升进行判别式微调，却导致 LLM 的语义空间被破坏，变成了只会死记硬背特征的“查表器”。阿里巴巴淘宝团队在本文中提出的 KARMA (Knowledge-Action Regularized Multimodal Alignment) 框架，通过引入“仅训练可见”的辅助解码任务，成功弥补了**知识（预训练语义）与行动（用户点击行为）**之间的鸿沟，在不增加任何线上推理延迟的情况下，大幅提升了搜索的泛化能力。

1. 痛点：为什么 LLM 在搜索系统中会“语义崩溃”？

传统的工业级搜索系统依赖点击率（CTR）等判别式目标进行优化。当我们尝试将 LLM 接入时，由于推理延迟限制，通常将商品历史压缩为连续的 Embedding。

然而，作者深入分析发现，在这种“Embedding-only”的微调下，LLM 出现了严重的语义崩溃（Semantic Collapse）：

注意力汇聚（Attention Sinks）：模型在处理历史序列时，注意力图会呈现出“条形码”状的异常分布，仅盯着少数几个位置（Shortcut），而忽略了商品本身的语义。
判别式短路：模型学会了利用 ID 类的统计捷径来区分正负样本，导致 LLM 沦为一个纯粹的 ID 编码器，失去了处理冷启动和长尾数据的通用语义能力。

语义崩溃下的注意力汇聚分析（图b/c对比） 左图显示了原生训练下的异常注意力，右图展现了 KARMA 修复后的分布式语义捕捉能力。

2. 核心方法论：知识与行动的平衡术

KARMA 的核心逻辑在于：强制让模型生成的兴趣向量（Action-aligned Embedding）具备还原出商品原貌的本领（Knowledge Decodability）。

2.1 模型架构详解

KARMA 维持了一个高效的流水线：

Item Encoder：将多模态商品信息压缩为 Continuous Token（e_i）。
User Decoder：基于 Qwen3 等 LLM 背景的解码器对用户历史进行建模，生成当前兴趣向量 $h_{t}$ 。

KARMA 框架总览图

2.2 双路径解码正则化

为了防止语义崩溃，KARMA 创新性地在训练阶段挂载了两个“解码头”：

路径一：历史条件生成 (Task 1) 直接根据用户历史预测下一个真实商品的文本 Token。这保证了 LLM 的骨干网络不会忘记如何“听人话”。
路径二：向量条件重构 (Task 2) 要求仅凭最终生成的 $h_{t}$ 向量，也要能把商品的文本和视觉特征还原出来。这把 $h_{t}$ 变成了一个“语义瓶颈”，逼迫它必须承载足够的语义干货，而不是简单的 ID 映射。

值得注意的是：这些解码头在 Inference（线上推理）阶段是完全拆卸掉的，因此实现了真正的“训练重、推理轻”。

3. 实验发现：为什么不用 Diffusion 做检索？

在多模态实验中，作者分享了一个非常有趣的洞察：关于 趋模态（Mode-seeking）vs. 趋均值（Mean-seeking）。

作者尝试使用 Diffusion（扩散模型）直接生成检索用的兴趣向量 $h_{t}$ ，结果发现效果并不理想。

原因分析：Diffusion 的目标是生成尽可能真实、具体的“点”（Mode-seeking），而检索任务需要向量作为一个“中心点”（Mean-seeking），去召回周围一圈可能感兴趣的物品。
结论：Diffusion 更适合作为语义重构的正则项，帮助捕捉复杂的视觉分布，而非直接作为生成检索向量的引擎。

4. 落地战绩

KARMA 在淘宝庞大的流量池中展现了全方位的统治力：

召回（Recall）：HR@5000 提升达 +2.51。
精排（Ranking）：CTR AUC 提升 +0.25，并在 14 天的线上 A/B 测试中斩获了 0.5% 的点击增长。
消融分析：如表 1 所示，单纯加入向量重构（Lrecon）就为模型带来了质的飞跃，证明了“语义瓶颈”约束的必要性。

核心实验对比表

5. 总结与启示

KARMA 的成功告诉我们，在 LLM 落地工业界的过程中，性能与泛化并非不可得兼。通过巧妙地利用 Train-only Regularizers，我们可以把训练时的强监管转化为模型深层的语义直觉，从而在不损耗推理毫秒数的前提下，释放 LLM 的知识红利。这一思路不仅适用于搜索，对于推荐系统、多模态对话等领域同样具有强大的参考价值。

发现相似论文

试试这些示例

查找最近其他关于解决大语言模型在个性化推荐中出现“语义崩溃”或“注意力汇聚”现象的论文。
探讨在检索和表征学习中，对比学习(Contrastive Learning)与生成式正则化(Generative Regularization)结合的最新研究综述。
有哪些研究在工业级大规模系统中成功将 Diffusion 模型作为多模态特征的辅助训练任务而非直接推理模块？

[SIGIR 2026] KARMA：破解淘宝个性化搜索中的“语义崩溃”，实现零开销 LLM 增强

1. TL;DR

2. 1. 痛点：为什么 LLM 在搜索系统中会“语义崩溃”？

3. 2. 核心方法论：知识与行动的平衡术

3.1. 2.1 模型架构详解

3.2. 2.2 双路径解码正则化

4. 3. 实验发现：为什么不用 Diffusion 做检索？

5. 4. 落地战绩

6. 5. 总结与启示