本文提出了 GR4AD,一种面向大规模实时广告场景的生成式推荐系统。该系统通过协同设计架构(LazyAR)、学习算法(RSPO)和在线工程(DBS),在快手 4 亿用户的生产环境中实现了显著的收入提升(+4.2%)和高效的实时推理。
TL;DR
在推荐系统领域,“生成式推荐(Generative Recommendation)”正迅速从理论走向工业大规模部署。快手团队在本文推出的 GR4AD 系统,首次在拥有 4 亿用户的真实广告场景中,完整展示了如何通过“架构-学习-工程”三位一体的协同设计,攻克 LLM 架构在实时系统中的延迟瓶颈与业务对齐难题。
背景定位:该工作不仅是 SOTA 的刷榜,更是生成式模型替代传统 DLRM 体系的工程蓝图。
1. 痛点:为什么 LLM 不能直接拿来做广告?
传统的 DLRM 模型(如 DeepFM, DIN)属于“判别式”,通过计算 Score 进行排序。而生成式推荐将“推荐”建模为“Next-token Prediction”,即根据用户历史序列逐位生成商品 ID(Semantic ID)。
但在广告场景下,直接套用 LLM 存在三大硬伤:
- 语义与业务的鸿沟:广告有复杂的 B2B 属性(如转化目标、账户 ID),纯视觉/文本语义不足以区分两个内容相同但投放策略不同的广告。
- 价值不敏感:LLM 优化的是“预测准确率”,但广告关心的核心指标是 eCPM(商业价值) 和排列顺序。
- 推理性能灾难:实时的 Beam Search 产生的 KV Cache 增量与延迟,在广告这种对毫秒级要求极高的场景下近乎致死。
2. 核心架构:LazyAR 解码器与 UA-SID
延迟注入的直觉 (LazyAR)
作者发现:在生成 Semantic ID 时,第一位 Token 的生成最难,但计算量相对小(Beam 宽为 1);而后续 Token 虽容易预测,却要在数百个候选 Beam 上重复计算。 LazyAR (Lazy Autoregressive) 巧妙地将自回归依赖推迟到中间层(第 K 层):
- 前 K 层 (Parallel Trunk):并行计算,不依赖前一个 Token。
- 后 L-K 层 (Sequential Head):执行自回归注入。 这种通过“延迟注入”释放并行性的设计,在不损效果的前提下使吞吐量(QPS)提升了 117%。
图 1:GR4AD 整体架构,展示了从 UAE 编码到 LazyAR 解码的过程
统一广告语义 ID (UA-SID)
为了解决 Collision(碰撞)问题,UA-SID 在 MLLM 提取的语义嵌入基础上,引入了 MGMR (Multi-Granularity Multi-Resolution) 量化策略。它在底层不仅使用视觉语义,还通过哈希手段强行注入了非语义字段(如 Account ID),显著提升了 Codebook 的利用率。
3. 学习范式:RSPO 排名对齐
仅有 Supervised Learning 只能让模型“模仿”过去。为了让模型学会有目的性地“赚钱”,作者提出了 RSPO (Ranking-Guided Softmax Preference Optimization)。
- 核心逻辑:将 LambdaLoss 框架引入 RL 目标函数。
- 优势:不再是简单的 Pair-wise 比较(比 A 好还是比 B 好),而是直接针对 NDCG 指标进行列表级(List-wise)优化。
- 动态统一:系统根据模型当前表现与奖励目标的 Discrepancy,动态调整 VSL(稳定性)与 RSPO(探索性)的权重。
4. 实验验证:Scaling Law 的再现
GR4AD 在快手 4 亿用户量级下进行了 A/B 分流。实验数据呈现出明显的 Scaling Laws:
- 模型规模:从 0.03B 到 0.32B,广告收入(Revenue)随参数量提升单调增长。
- 推理计算:增加 Beam Width 也能带来稳定的业务收益。
图 2:展现了模型规模与 Inference-time Scaling(Beam 宽度)对收入的直接增益
5. 结语与洞察
GR4AD 的成功证明了:生成式推荐的核心竞争力不仅仅在于强大的 Transformer 建模,更在于从底层 Token 到顶层服务环节的深度重构。
- 局限性:尽管已经极致优化,生成式架构对算力的原始需求仍高于精简的 MLP 模型。
- 启示:未来的推荐系统将不再是一个静态的打分模型,而是一个能实时探索、自我对齐业务价值的智能 Generative Agent。
关键词:Generative Recommendation, RSPO, LazyAR, 广告推荐, Scaling Law
