WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[KDD 2025] GR4AD:快手万亿级生成式广告推荐系统的全栈演进
Summary
Problem
Method
Results
Takeaways

本文提出了 GR4AD,一种面向大规模实时广告场景的生成式推荐系统。该系统通过协同设计架构(LazyAR)、学习算法(RSPO)和在线工程(DBS),在快手 4 亿用户的生产环境中实现了显著的收入提升(+4.2%)和高效的实时推理。

TL;DR

在推荐系统领域,“生成式推荐(Generative Recommendation)”正迅速从理论走向工业大规模部署。快手团队在本文推出的 GR4AD 系统,首次在拥有 4 亿用户的真实广告场景中,完整展示了如何通过“架构-学习-工程”三位一体的协同设计,攻克 LLM 架构在实时系统中的延迟瓶颈与业务对齐难题。

背景定位:该工作不仅是 SOTA 的刷榜,更是生成式模型替代传统 DLRM 体系的工程蓝图。

1. 痛点:为什么 LLM 不能直接拿来做广告?

传统的 DLRM 模型(如 DeepFM, DIN)属于“判别式”,通过计算 Score 进行排序。而生成式推荐将“推荐”建模为“Next-token Prediction”,即根据用户历史序列逐位生成商品 ID(Semantic ID)。

但在广告场景下,直接套用 LLM 存在三大硬伤:

  • 语义与业务的鸿沟:广告有复杂的 B2B 属性(如转化目标、账户 ID),纯视觉/文本语义不足以区分两个内容相同但投放策略不同的广告。
  • 价值不敏感:LLM 优化的是“预测准确率”,但广告关心的核心指标是 eCPM(商业价值) 和排列顺序。
  • 推理性能灾难:实时的 Beam Search 产生的 KV Cache 增量与延迟,在广告这种对毫秒级要求极高的场景下近乎致死。

2. 核心架构:LazyAR 解码器与 UA-SID

延迟注入的直觉 (LazyAR)

作者发现:在生成 Semantic ID 时,第一位 Token 的生成最难,但计算量相对小(Beam 宽为 1);而后续 Token 虽容易预测,却要在数百个候选 Beam 上重复计算。 LazyAR (Lazy Autoregressive) 巧妙地将自回归依赖推迟到中间层(第 K 层):

  • 前 K 层 (Parallel Trunk):并行计算,不依赖前一个 Token。
  • 后 L-K 层 (Sequential Head):执行自回归注入。 这种通过“延迟注入”释放并行性的设计,在不损效果的前提下使吞吐量(QPS)提升了 117%

模型架构图 图 1:GR4AD 整体架构,展示了从 UAE 编码到 LazyAR 解码的过程

统一广告语义 ID (UA-SID)

为了解决 Collision(碰撞)问题,UA-SID 在 MLLM 提取的语义嵌入基础上,引入了 MGMR (Multi-Granularity Multi-Resolution) 量化策略。它在底层不仅使用视觉语义,还通过哈希手段强行注入了非语义字段(如 Account ID),显著提升了 Codebook 的利用率。

3. 学习范式:RSPO 排名对齐

仅有 Supervised Learning 只能让模型“模仿”过去。为了让模型学会有目的性地“赚钱”,作者提出了 RSPO (Ranking-Guided Softmax Preference Optimization)

  • 核心逻辑:将 LambdaLoss 框架引入 RL 目标函数。
  • 优势:不再是简单的 Pair-wise 比较(比 A 好还是比 B 好),而是直接针对 NDCG 指标进行列表级(List-wise)优化。
  • 动态统一:系统根据模型当前表现与奖励目标的 Discrepancy,动态调整 VSL(稳定性)与 RSPO(探索性)的权重。

4. 实验验证:Scaling Law 的再现

GR4AD 在快手 4 亿用户量级下进行了 A/B 分流。实验数据呈现出明显的 Scaling Laws

  • 模型规模:从 0.03B 到 0.32B,广告收入(Revenue)随参数量提升单调增长。
  • 推理计算:增加 Beam Width 也能带来稳定的业务收益。

实验结果对比 图 2:展现了模型规模与 Inference-time Scaling(Beam 宽度)对收入的直接增益

5. 结语与洞察

GR4AD 的成功证明了:生成式推荐的核心竞争力不仅仅在于强大的 Transformer 建模,更在于从底层 Token 到顶层服务环节的深度重构

  • 局限性:尽管已经极致优化,生成式架构对算力的原始需求仍高于精简的 MLP 模型。
  • 启示:未来的推荐系统将不再是一个静态的打分模型,而是一个能实时探索、自我对齐业务价值的智能 Generative Agent。

关键词:Generative Recommendation, RSPO, LazyAR, 广告推荐, Scaling Law

Find Similar Papers

Try Our Examples

  • 查找最近其他针对生成式推荐系统(Generative Recommendation)进行解码速度优化或非自回归(Non-autoregressive)改进的论文。
  • 哪篇论文最早提出了 LambdaLoss 框架进行排名度量优化,本文的 RSPO 是如何在 RL 背景下应用这一思想的?
  • 有哪些最新的研究尝试将 LLM 中的 PPO 或 DPO 偏好模型直接应用在需要多目标优化(如 Revenue 和 CTR)的推荐系统中?
Contents
[KDD 2025] GR4AD:快手万亿级生成式广告推荐系统的全栈演进
1. TL;DR
2. 1. 痛点:为什么 LLM 不能直接拿来做广告?
3. 2. 核心架构:LazyAR 解码器与 UA-SID
3.1. 延迟注入的直觉 (LazyAR)
3.2. 统一广告语义 ID (UA-SID)
4. 3. 学习范式:RSPO 排名对齐
5. 4. 实验验证:Scaling Law 的再现
6. 5. 结语与洞察