Generative Recommendation for Large-Scale Advertising

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Generative Recommendation for Large-Scale Advertising

[KDD 2025] GR4AD：快手万亿级生成式广告推荐系统的全栈演进

Summary

Problem

Method

Results

Takeaways

本文提出了 GR4AD，一种面向大规模实时广告场景的生成式推荐系统。该系统通过协同设计架构（LazyAR）、学习算法（RSPO）和在线工程（DBS），在快手 4 亿用户的生产环境中实现了显著的收入提升（+4.2%）和高效的实时推理。

TL;DR

在推荐系统领域，“生成式推荐（Generative Recommendation）”正迅速从理论走向工业大规模部署。快手团队在本文推出的 GR4AD 系统，首次在拥有 4 亿用户的真实广告场景中，完整展示了如何通过“架构-学习-工程”三位一体的协同设计，攻克 LLM 架构在实时系统中的延迟瓶颈与业务对齐难题。

背景定位：该工作不仅是 SOTA 的刷榜，更是生成式模型替代传统 DLRM 体系的工程蓝图。

1. 痛点：为什么 LLM 不能直接拿来做广告？

传统的 DLRM 模型（如 DeepFM, DIN）属于“判别式”，通过计算 Score 进行排序。而生成式推荐将“推荐”建模为“Next-token Prediction”，即根据用户历史序列逐位生成商品 ID（Semantic ID）。

但在广告场景下，直接套用 LLM 存在三大硬伤：

语义与业务的鸿沟：广告有复杂的 B2B 属性（如转化目标、账户 ID），纯视觉/文本语义不足以区分两个内容相同但投放策略不同的广告。
价值不敏感：LLM 优化的是“预测准确率”，但广告关心的核心指标是 eCPM（商业价值） 和排列顺序。
推理性能灾难：实时的 Beam Search 产生的 KV Cache 增量与延迟，在广告这种对毫秒级要求极高的场景下近乎致死。

2. 核心架构：LazyAR 解码器与 UA-SID

延迟注入的直觉 (LazyAR)

作者发现：在生成 Semantic ID 时，第一位 Token 的生成最难，但计算量相对小（Beam 宽为 1）；而后续 Token 虽容易预测，却要在数百个候选 Beam 上重复计算。 LazyAR (Lazy Autoregressive) 巧妙地将自回归依赖推迟到中间层（第 K 层）：

前 K 层 (Parallel Trunk)：并行计算，不依赖前一个 Token。
后 L-K 层 (Sequential Head)：执行自回归注入。这种通过“延迟注入”释放并行性的设计，在不损效果的前提下使吞吐量（QPS）提升了 117%。

模型架构图 图 1：GR4AD 整体架构，展示了从 UAE 编码到 LazyAR 解码的过程

统一广告语义 ID (UA-SID)

为了解决 Collision（碰撞）问题，UA-SID 在 MLLM 提取的语义嵌入基础上，引入了 MGMR (Multi-Granularity Multi-Resolution) 量化策略。它在底层不仅使用视觉语义，还通过哈希手段强行注入了非语义字段（如 Account ID），显著提升了 Codebook 的利用率。

3. 学习范式：RSPO 排名对齐

仅有 Supervised Learning 只能让模型“模仿”过去。为了让模型学会有目的性地“赚钱”，作者提出了 RSPO (Ranking-Guided Softmax Preference Optimization)。

核心逻辑：将 LambdaLoss 框架引入 RL 目标函数。
优势：不再是简单的 Pair-wise 比较（比 A 好还是比 B 好），而是直接针对 NDCG 指标进行列表级（List-wise）优化。
动态统一：系统根据模型当前表现与奖励目标的 Discrepancy，动态调整 VSL（稳定性）与 RSPO（探索性）的权重。

4. 实验验证：Scaling Law 的再现

GR4AD 在快手 4 亿用户量级下进行了 A/B 分流。实验数据呈现出明显的 Scaling Laws：

模型规模：从 0.03B 到 0.32B，广告收入（Revenue）随参数量提升单调增长。
推理计算：增加 Beam Width 也能带来稳定的业务收益。

实验结果对比 图 2：展现了模型规模与 Inference-time Scaling（Beam 宽度）对收入的直接增益

5. 结语与洞察

GR4AD 的成功证明了：生成式推荐的核心竞争力不仅仅在于强大的 Transformer 建模，更在于从底层 Token 到顶层服务环节的深度重构。

局限性：尽管已经极致优化，生成式架构对算力的原始需求仍高于精简的 MLP 模型。
启示：未来的推荐系统将不再是一个静态的打分模型，而是一个能实时探索、自我对齐业务价值的智能 Generative Agent。

关键词：Generative Recommendation, RSPO, LazyAR, 广告推荐, Scaling Law

Find Similar Papers

Try Our Examples

查找最近其他针对生成式推荐系统（Generative Recommendation）进行解码速度优化或非自回归（Non-autoregressive）改进的论文。
哪篇论文最早提出了 LambdaLoss 框架进行排名度量优化，本文的 RSPO 是如何在 RL 背景下应用这一思想的？
有哪些最新的研究尝试将 LLM 中的 PPO 或 DPO 偏好模型直接应用在需要多目标优化（如 Revenue 和 CTR）的推荐系统中？

Contents

[KDD 2025] GR4AD：快手万亿级生成式广告推荐系统的全栈演进

1. TL;DR

2. 1. 痛点：为什么 LLM 不能直接拿来做广告？

3. 2. 核心架构：LazyAR 解码器与 UA-SID

3.1. 延迟注入的直觉 (LazyAR)

3.2. 统一广告语义 ID (UA-SID)

4. 3. 学习范式：RSPO 排名对齐

5. 4. 实验验证：Scaling Law 的再现

6. 5. 结语与洞察