OneRanker: Unified Generation and Ranking with One Model in Industrial Advertising Recommendation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

OneRanker: Unified Generation and Ranking with One Model in Industrial Advertising Recommendation

[SIGIR 2025] OneRanker：生成与排序的一体化，腾讯视频号广告系统的架构跃迁

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 OneRanker，一种面向工业级广告推荐的端到端生成与排序统一框架。该模型通过 HSTU 架构，采用价值感知的多任务解耦、粗细结合的目标感知机制及双端一致性约束，实现了广告召回与精排在模型架构层面的深度融合。

TL;DR

在大型工业推荐系统中，将传统的“级联架构”转化为“端到端生成架构”已成趋势。腾讯推出的 OneRanker 进一步突破了生成式推荐的瓶颈，通过一个统一模型同时完成了候选生成（Generation）与精排（Ranking）。它巧妙地解决了生成模型不看目标（Target-agnostic）和业务价值冲突的难题，在微信视频号广告业务中实现了 GMV +1.34% 的显著增长。

1. 痛点：为什么“先生成、后排序”不再够用？

传统的生成式推荐（如 TIGER, GPR）虽然效率高，但在处理高度复杂的**工业广告（Advertising）**场景时，面临三个致命伤：

目标打架 (Objective Misalignment)：模型在预测“用户喜欢什么”（用户兴趣）和“哪个广告赚得多”（业务价值，如 eCPM）之间存在优化张力。
盲目生成 (Target-agnostic)：生成器在解码时往往只基于用户历史，不看当前的候选广告特征，这就像是闭着眼猜用户要什么。
阶段断裂 (Stage Disconnection)：生成和排序模型通常是两个独立的模型，存在严重的特征偏差和误差累积。

现有方法与 OneRanker 的逻辑对比

2. Methodology：OneRanker 的三大核心进化

OneRanker 的架构设计分为三个逻辑递进的步骤，实现了从“粗”到“细”的协同感知。

A. 价值感知的多任务解耦 (Step 1 & 2)

为了缓解兴趣与价值的冲突，作者不再将所有目标塞进一个 Head。模型引入了一组学习的 Task Tokens：

Interest Tokens：负责捕捉多维度的用户兴趣（如点击、点击后转化）。
Value Task Token：专门负责学习业务价值。利用 Causal Mask 建立任务依赖优先级（曝光 -> 点击 -> 转化 -> 价值），实现知识的层级传递。

B. 粗细结合的目标感知 (Step 2 & 3)

为了解决生成过程的“盲目性”，OneRanker 设计了两级结构：

粗粒度 (Fake Item Tokens)：在生成阶段，通过对全量物品空间进行 K-means 聚类，生成的 $k$ 个聚类中心（Fake Items）被充当 Query。这让模型在生成时能“隐式”感知物品空间的语义分布。
细粒度 (Ranking Decoder)：在最后的 Ranking 阶段，利用 Cross-Attention 让候选物品与任务 Token 进行深度交互，完成精准的价值对齐。

OneRanker 总体架构图

C. 双端一致性保证 (End-to-End Consistency)

这是实现“一个模型（One Model）”的关键。

输入端：Ranking Decoder 直接复用前两个阶段生成的 Key/Value 矩阵，杜绝了特征碎片化。
输出端：引入 分布一致性损失 (DC Loss)。这实际上是一种分阶段的知识蒸馏，让生成阶段的分布尽可能靠近排序阶段的预测结果，使得生成器学会“预判”排序器的偏好。

3. 实验战果：离线大胜，在线创效

离线表现

在与 Meta 的 HSTU 以及腾讯自研的 GPR 对比中，OneRanker 在 HR@1 指标上达到了 0.2639，相比 GPR 提升了 44.7%。这证明了引入目标感知和解耦机制后，检索的精度有了质的飞跃。

离线 HR 指标对比表

消融实验

实验发现，移除 DC Loss 或 Fake Item Token 都会导致性能显著下降（HR@5 分别下降 0.4% 和 4.5%）。特别是 Fake Item Token 的引入，标志着生成式模型从“静态用户表达”向“动态目标交互”的进化。

在线收益

OneRanker 现已全量上线微信视频号广告系统。在真实的流量测试中：

GMV-Normal：提升 +1.34%。
Costs：提升 +0.72%。在日活数亿的平台上，每一千分点的提升都意味着巨大的商业价值。

4. 深度洞察与总结

OneRanker 的成功在于它不只是简单地把模型做大，而是深挖了工业界中**推荐漏斗（Funnel）**的本质矛盾。

Insight 1：生成式模型不应该是盲目的。通过 Fake Item 这种“桩点”设计，它在算力可控的情况下实现了检索阶段的“看菜吃饭”。
Insight 2：一致性是架构统一的灵魂。DC Loss 的引入通过梯度闭环，让模型在训练时就消除了两阶段之间的决策缝隙。

局限性：虽然架构高度统一，但端到端的训练对算力和样本均衡提出了更高要求，如何在百亿级 ID 的长尾分布中保持价值预测的鲁棒性，仍是未来的挑战。

未来展望：随着多模态大模型的成熟，OneRanker 的思路可以扩展到视频、图文描述的直接端到端理解，真正实现从原始素材到最终排序的一步到位。

Find Similar Papers

Try Our Examples

查找最近一年内在工业级推荐系统领域（如广告、电商）实现检索与排序模型融合（Joint Optimization）的其他 SOTA 方法。
哪篇论文最早提出了将 Item ID 进行语义化向量量化（RQ-VAE）或层次化编码，本文的 Token 化方案与之有何异同？
探索在大模型指令微调（Instruction Tuning）中通过引入分布一致性损失（DC Loss）来解决多阶段决策偏差的相关研究。

Contents

[SIGIR 2025] OneRanker：生成与排序的一体化，腾讯视频号广告系统的架构跃迁

1. TL;DR

2. 1. 痛点：为什么“先生成、后排序”不再够用？

3. 2. Methodology：OneRanker 的三大核心进化

3.1. A. 价值感知的多任务解耦 (Step 1 & 2)

3.2. B. 粗细结合的目标感知 (Step 2 & 3)

3.3. C. 双端一致性保证 (End-to-End Consistency)

4. 3. 实验战果：离线大胜，在线创效

4.1. 离线表现

4.2. 消融实验

4.3. 在线收益

5. 4. 深度洞察与总结