WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[SIGIR 2025] OneRanker:生成与排序的一体化,腾讯视频号广告系统的架构跃迁
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 OneRanker,一种面向工业级广告推荐的端到端生成与排序统一框架。该模型通过 HSTU 架构,采用价值感知的多任务解耦、粗细结合的目标感知机制及双端一致性约束,实现了广告召回与精排在模型架构层面的深度融合。

TL;DR

在大型工业推荐系统中,将传统的“级联架构”转化为“端到端生成架构”已成趋势。腾讯推出的 OneRanker 进一步突破了生成式推荐的瓶颈,通过一个统一模型同时完成了候选生成(Generation)精排(Ranking)。它巧妙地解决了生成模型不看目标(Target-agnostic)和业务价值冲突的难题,在微信视频号广告业务中实现了 GMV +1.34% 的显著增长。

1. 痛点:为什么“先生成、后排序”不再够用?

传统的生成式推荐(如 TIGER, GPR)虽然效率高,但在处理高度复杂的**工业广告(Advertising)**场景时,面临三个致命伤:

  • 目标打架 (Objective Misalignment):模型在预测“用户喜欢什么”(用户兴趣)和“哪个广告赚得多”(业务价值,如 eCPM)之间存在优化张力。
  • 盲目生成 (Target-agnostic):生成器在解码时往往只基于用户历史,不看当前的候选广告特征,这就像是闭着眼猜用户要什么。
  • 阶段断裂 (Stage Disconnection):生成和排序模型通常是两个独立的模型,存在严重的特征偏差和误差累积。

现有方法与 OneRanker 的逻辑对比

2. Methodology:OneRanker 的三大核心进化

OneRanker 的架构设计分为三个逻辑递进的步骤,实现了从“粗”到“细”的协同感知。

A. 价值感知的多任务解耦 (Step 1 & 2)

为了缓解兴趣与价值的冲突,作者不再将所有目标塞进一个 Head。模型引入了一组学习的 Task Tokens

  • Interest Tokens:负责捕捉多维度的用户兴趣(如点击、点击后转化)。
  • Value Task Token:专门负责学习业务价值。 利用 Causal Mask 建立任务依赖优先级(曝光 -> 点击 -> 转化 -> 价值),实现知识的层级传递。

B. 粗细结合的目标感知 (Step 2 & 3)

为了解决生成过程的“盲目性”,OneRanker 设计了两级结构:

  1. 粗粒度 (Fake Item Tokens):在生成阶段,通过对全量物品空间进行 K-means 聚类,生成的 个聚类中心(Fake Items)被充当 Query。这让模型在生成时能“隐式”感知物品空间的语义分布。
  2. 细粒度 (Ranking Decoder):在最后的 Ranking 阶段,利用 Cross-Attention 让候选物品与任务 Token 进行深度交互,完成精准的价值对齐。

OneRanker 总体架构图

C. 双端一致性保证 (End-to-End Consistency)

这是实现“一个模型(One Model)”的关键。

  • 输入端:Ranking Decoder 直接复用前两个阶段生成的 Key/Value 矩阵,杜绝了特征碎片化。
  • 输出端:引入 分布一致性损失 (DC Loss)。这实际上是一种分阶段的知识蒸馏,让生成阶段的分布尽可能靠近排序阶段的预测结果,使得生成器学会“预判”排序器的偏好。

3. 实验战果:离线大胜,在线创效

离线表现

在与 Meta 的 HSTU 以及腾讯自研的 GPR 对比中,OneRanker 在 HR@1 指标上达到了 0.2639,相比 GPR 提升了 44.7%。这证明了引入目标感知和解耦机制后,检索的精度有了质的飞跃。

离线 HR 指标对比表

消融实验

实验发现,移除 DC LossFake Item Token 都会导致性能显著下降(HR@5 分别下降 0.4% 和 4.5%)。特别是 Fake Item Token 的引入,标志着生成式模型从“静态用户表达”向“动态目标交互”的进化。

在线收益

OneRanker 现已全量上线微信视频号广告系统。在真实的流量测试中:

  • GMV-Normal:提升 +1.34%
  • Costs:提升 +0.72%。 在日活数亿的平台上,每一千分点的提升都意味着巨大的商业价值。

4. 深度洞察与总结

OneRanker 的成功在于它不只是简单地把模型做大,而是深挖了工业界中**推荐漏斗(Funnel)**的本质矛盾。

  • Insight 1:生成式模型不应该是盲目的。通过 Fake Item 这种“桩点”设计,它在算力可控的情况下实现了检索阶段的“看菜吃饭”。
  • Insight 2:一致性是架构统一的灵魂。DC Loss 的引入通过梯度闭环,让模型在训练时就消除了两阶段之间的决策缝隙。

局限性:虽然架构高度统一,但端到端的训练对算力和样本均衡提出了更高要求,如何在百亿级 ID 的长尾分布中保持价值预测的鲁棒性,仍是未来的挑战。

未来展望:随着多模态大模型的成熟,OneRanker 的思路可以扩展到视频、图文描述的直接端到端理解,真正实现从原始素材到最终排序的一步到位。

Find Similar Papers

Try Our Examples

  • 查找最近一年内在工业级推荐系统领域(如广告、电商)实现检索与排序模型融合(Joint Optimization)的其他 SOTA 方法。
  • 哪篇论文最早提出了将 Item ID 进行语义化向量量化(RQ-VAE)或层次化编码,本文的 Token 化方案与之有何异同?
  • 探索在大模型指令微调(Instruction Tuning)中通过引入分布一致性损失(DC Loss)来解决多阶段决策偏差的相关研究。
Contents
[SIGIR 2025] OneRanker:生成与排序的一体化,腾讯视频号广告系统的架构跃迁
1. TL;DR
2. 1. 痛点:为什么“先生成、后排序”不再够用?
3. 2. Methodology:OneRanker 的三大核心进化
3.1. A. 价值感知的多任务解耦 (Step 1 & 2)
3.2. B. 粗细结合的目标感知 (Step 2 & 3)
3.3. C. 双端一致性保证 (End-to-End Consistency)
4. 3. 实验战果:离线大胜,在线创效
4.1. 离线表现
4.2. 消融实验
4.3. 在线收益
5. 4. 深度洞察与总结