WisPaper
WisPaper
学术搜索
学术问答
论文订阅
价格
TrueCite
Generative Rec 真的更擅长泛化吗?揭秘生成式推荐的“记忆悖论”
总结
问题
方法
结果
要点
摘要

本文系统研究了生成式推荐(GR)模型相比传统 ID 模型的泛化能力,提出了名为 MemGen-GR 的分析框架。研究通过 TIGER(语义 ID 路径)与 SASRec(唯一 ID 路径)的对比,证明 GR 模型在泛化任务上具有显著优势,而 ID 模型在记忆任务上更强。

TL;DR

生成式推荐(Generative Recommendation, GR)在近两年学术界风头无两,大家普遍认为它取代传统的 SASRec 是因为“泛化能力强”。但本文通过对 7 个真实数据集的精细化拆解发现:GR 模型的所谓“泛化”,其实是“Token 级的记忆”换了个马甲。 研究表明,GR 擅长组合新模式,而传统的 Item ID 模型在忠实记忆历史上表现更佳。基于此,作者提出了一个“自适应集成”方案,实现了 1+1>2 的性能突破。

背景定位

本文是推荐系统领域对 GR 范式的一次深度“审计”。它不满足于 SOTA 刷榜,而是从数据动力学的角度,精准划定了 GR 模型(如 TIGER)与 ID 模型(如 SASRec)的势力范围。

痛点深挖:记忆还是泛化?

在序列推荐任务中,我们通常根据用户的历史行为 [i1, i2, ...] 预测下一个项 it

  • 记忆 (Memorization):如果训练集里存在 i_{t-1} -> it 的转换,模型只需死记硬背。
  • 泛化 (Generalization):如果这个转换从未出现,模型必须通过传递性(Transitivity)、对称性(Symmetry)或多跳关联来推断。

以往的对比往往只看总分,导致我们忽略了 GR 模型在某些简单记忆场景下其实是不如传统 ID 模型的。

核心机制:Token 级别的显微镜

为什么 GR 表现出更好的泛化性?作者通过 Prefix N-gram Memorization 这一概念给出了物理直觉:

模型架构与分析框架

核心洞察

  1. 项级泛化 = Token 级记忆:虽然 Item A -> Item B 的转换在训练集中没见过,但 Item A 的语义前缀(Token)到 Item B 的语义前缀转换可能出现过成千上万次。GR 模型通过学习这些子项 Token 的规律,“拼凑”出了对新项转换的预测能力。
  2. 稀释效应 (Dilution Effect):当模型过度关注共享的 Token 前缀时,它对特定项的独特性记忆反而下降了。这就解释了为什么在热门推荐(高频项转换)上,GR 有时会被简单的 SASRec 吊打。

实验战绩

作者在 Sports、Beauty、Steam 等 7 个数据集上进行了大规模消融实验:

实验结果细分对比

  • 关键发现 1:在所有数据集上,TIGER 在泛化子集(Generalization Groups)上均保持领先。
  • 关键发现 2:在跳数(Hops)增加的情况下,SASRec 的性能崩塌速度远快于 TIGER,证明了生成式架构对长距离抽象关联的处理能力。

深度洞察:自适应集成 (Adaptive Ensemble)

既然两种 paradigm 各有千秋,能不能既要又要? 作者提出了一个由 MSP (Maximum Softmax Probability) 驱动的指标。

  • 当模型对某个预测非常“自信”(MSP 高)时,通常意味着这更倾向于一个记忆任务,此时调高 SASRec 的权重;
  • 反之,权重向 TIGER 倾斜。

MSP指标与模型性能交叉

这种“因材施教”的方法在几乎所有指标上都刷新了基准。

总结与局限

Takeaway: 生成式推荐不是万灵药,它的强大源于对语义空间的“碎片化记忆”。

局限性: 当前框架主要基于语义 ID。如果未来引入多模态(图片/文本)作为 Token,这种记忆与泛化的分界线可能会进一步模糊。此外,如何设计更高效的 Tokenizer 以平衡“稀释效应”和“泛化收益”,仍是亟待解决的工业界难题。

发现相似论文

试试这些示例

  • 搜索最近关于生成式推荐系统中语义 ID(Semantic ID)生成算法改进的 SOTA 论文。
  • 哪篇论文最早在推荐系统中引入了“生成式检索(Generative Retrieval)”的概念,本文的评估框架如何扩展了其理论边界?
  • 调研是否存在将大语言模型(LLM)的 N-gram 记忆分析方法应用到多模态推荐任务中的相关研究。
目录
Generative Rec 真的更擅长泛化吗?揭秘生成式推荐的“记忆悖论”
1. TL;DR
2. 背景定位
3. 痛点深挖:记忆还是泛化?
4. 核心机制:Token 级别的显微镜
5. 实验战绩
6. 深度洞察:自适应集成 (Adaptive Ensemble)
7. 总结与局限