WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
UniVA:突破语义局限,实现生成式广告推荐的统一价值对齐
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 UniVA,一个专为工业级广告生成的统一价值对齐框架。该框架将推荐任务转化为 Next-token 生成问题,通过 Commercial SID 构造、Generation-as-Ranking 解码器以及价值引导的个性化 Beam Search,首次在生成式推荐(GR)中实现了语义兴趣与商业价值(eCPM/GMV)的全链路对齐。

TL;DR

生成式推荐(GR)正在重塑工业推荐系统的格局,但在广告这一追求“真金白银”的场景下,单纯的语义模仿(Semantics-centric)会导致商业价值的损失。腾讯、武大、北大联合推出的 UniVA 框架,通过对 Tokenization、Decoding 和 Serving 的全链条改造,实现了语义相关性与商业价值(eCPM)的统一对齐,在视频号广告场景下实现了 1.5% 的 GMV 提升。

背景:为什么生成式广告推荐这么难?

传统的生成式推荐将 item 映射为 Semantic ID (SID),模型只需学习“预测下一个 token”。然而,在广告领域,系统不仅要看用户喜不喜欢(语义匹配),还要看广告主出的钱多不多(eCPM、ROI)。

作者敏锐地指出,目前的 GR 框架存在三大痛点:

  1. 价值迟钝的 SID:语义相近的广告可能商业价值天差地别,但它们被分配了相似的 ID 路径。
  2. 语义主导的解码:解码逻辑只看概率(Likelihood),导致高商业价值但概率略低的路径被过早裁剪。
  3. 价值盲视的服务:在线搜索时,模型在海量无效路径上浪费算力,且没有实时“钱”的意识。

核心技术:三位一体的统一对齐

1. 商业 SID 分词器 (Commercial SID Tokenizer)

UniVA 不再使用纯语义的 ID。它在 SID 的顶层保留语义信息,但在底层引入了 Commercial SID (CSID)

  • 属性压缩:将长尾的行业、目标等属性进行聚类和合并。
  • 等频 binning:根据出价(Bid)进行分桶,确保同一个 SID 路径下的广告不仅长得像,而且“价位相近”。

2. 双头解码器:生成即排序 (Generation-as-Ranking)

这是 UniVA 的灵魂。它在隐藏层之上设计了两个输出头:

  • Generation Head:通过监督学习保证生成的连贯性。
  • Value Head:通过强化学习(RL)估计每个 Token 的未来商业收益。

模型架构图

在推理时,这两个头的得分会直接融合。这意味着解码过程本身就是在进行实时排序,彻底告别了“先生成、后重排”的低效流水线。

3. eCPM 感知的强化学习加速

为了让 Value Head 学得准,作者引入了模拟器(Simulator)驱动的 RL 训练。利用 MCTS-PPO 算法在离线环境进行大规模探索,并通过动态采样策略捕捉高价值路径。这种方法让模型不仅能看到当前的 Token,还能“看到”整条 SID 路径跑通后的期望收益。

实验战绩

UniVA 在腾讯的大规模广告语料库上进行了严苛测试。

  • 离线精度:HR@100 相对基线提升了 37.04%
  • 商业敏锐度:价值加权的 wNDCG@100 提升了 26.20%
  • 消融实验:结果显示 MoE (提升 18.4%) 和 Commercial SID (提升 5.78%) 是核心驱动力(见下表)。

实验结果对比

关键洞察:商用 ID 的“降噪”能力

通过对比发现,引入 Commercial SID 后,同一路径下广告的出价方差(Bid Variance)降低了约一个数量级。这意味着模型现在拥有了一个“干净”的价值学习坐标系。

价值对齐分析图

总结与价值

UniVA 代表了生成式推荐从“实验室原型”向“商业闭环”迈出的关键一步。它告诉我们:

  1. Inductive Bias 依然重要:将商业属性结构化地注入 ID 设计比纯端到端学习更高效。
  2. 端到端优化的必要性:将排序(Ranking)逻辑下沉到解码(Decoding)层,不仅能减少漏斗损失,还能大幅优化在线延时。

局限性:尽管 UniVA 引入了 MoE 和 MoR 来应对模型扩展,但全路径搜索的计算成本依然是工业落地时的挑战。未来的方向可能在于更极速的非自回归生成架构。

Find Similar Papers

Try Our Examples

  • 查找最近一年内针对生成式推荐(Generative Recommendation)中商业价值建模或多目标优化的相关论文。
  • Transformer 架构中“混合专家模型(MoE)”与“混合递归(MoR)”结合的其他典型工业级应用案例有哪些?
  • 在生成式搜索或推荐系统中,除 Trie 树外,还有哪些先进的受限解码(Constrained Decoding)技术可用于提高在线推理效率?
Contents
UniVA:突破语义局限,实现生成式广告推荐的统一价值对齐
1. TL;DR
2. 背景:为什么生成式广告推荐这么难?
3. 核心技术:三位一体的统一对齐
3.1. 1. 商业 SID 分词器 (Commercial SID Tokenizer)
3.2. 2. 双头解码器:生成即排序 (Generation-as-Ranking)
3.3. 3. eCPM 感知的强化学习加速
4. 实验战绩
4.1. 关键洞察:商用 ID 的“降噪”能力
5. 总结与价值