本文提出了 MAC (Multi-Attribution BenChmark),这是首个包含多种归因机制(Last-click, First-click, Linear, DDA)标签的公开 CVR 预测数据集。同时,作者提出了 MoAE (Mixture of Asymmetric Experts) 模型,通过结合 MoE 架构与非对称知识迁移,在多归因学习(MAL)任务上取得了 SOTA 性能。
TL;DR
传统的转化率(CVR)预估通常只锁定一种“归因方式”(如最后一次点击),这显然忽略了用户决策链条的全局。本文发布了全球首个多归因 CVR 评测基准 MAC,并配套了算法库 PyMAL。更重要的是,作者提出了一种新型架构 MoAE (Mixture of Asymmetric Experts),通过混合专家模型与非对称特征迁移,在阿里妈妈真实场景下显著刷新了性能指标。
1. 痛点:被困在“最后一次点击”里的 CVR 预估
在在线广告系统中,归因机制(Attribution Mechanisms)决定了谁该为转化“领功”。目前大多数模型都是“单归因”的:
- Last-click:功劳全给最后一次点击。
- First-click:功劳全给第一次触达。
- Linear / DDA:按规则或数据驱动分配功劳。
问题在于:单一视角会造成严重的归因偏差。例如,一个用户可能受第一次展示的影响产生了兴趣,但最终点击了另一个广告完成转化。如果只学 Last-click,模型就学不到这种“心智培育”的过程。
由于缺乏公开的多标签数据集,学术界一直难以进行**多归因学习(Multi-Attribution Learning, MAL)**的深入研究。
2. 核心贡献:MAC 数据集与 PyMAL 库
作者从淘宝广告系统中提取了 7900 万次点击数据,构建了 MAC 基准。
- 多维度标签:每个样本同时拥有四种标签:Last-click, First-click, Linear, DDA。
- PyMAL 库:集成了从传统的 Shared-Bottom 到最新的 NATAL 等一系列 MAL 模型。

3. 方法论:MoAE (Mixture of Asymmetric Experts)
作者通过对比分析发现,一个优秀的 MAL 模型必须满足两个 Inductive Bias:
- 全面性:需要能够捕捉不同归因视角下的共有特征和特有特征(MoE 的强项)。
- 主从性:辅助任务的知识必须服务于主任务,而非干扰(非对称迁移的强项)。
架构拆解
MoAE 的设计非常精巧:
- 底座 (Backbone):采用了类似于 PLE 的结构,包含 Shared Experts(学习通用的转化规律)和 Specific Experts(学习特定归因下的偏差)。
- 非对称迁移 (Asymmetric Transfer):不同于传统的全连接共享,MoAE 将辅助塔的特征单向聚合到主任务预测器(Primary Target Predictor)中。这确保了主任务能够充分利用辅任务的“辅助视角”,同时避免了梯度冲突带来的负迁移。

4. 实验发现:为什么 MAL 有效?
作者在 MAC 数据集上进行了严谨的对比实验,得出了几个颠覆性的结论:
- 转化路径越长,效果越好:实验发现,对于那些点击很多次才转化的“深思熟虑型”用户,MAL 带来的提升远高于短路径用户。这证明了多视角学习确实捕捉到了复杂的转化决策链。
- 不是辅助任务越多越好:在预测 First-click 目标时,盲目增加辅助任务反而会损害效果。这说明了辅助目标的选择策略在 MAL 中至关重要。
- 信息增益而非参数量:通过将辅助任务权重设为零的消融实验发现,仅仅增加参数量并不能提升性能,真正的增益来自于多归因标签提供的监督信号。

5. 总结与展望
MAC 评测基准填补了 CVR 预估领域的空白。MoAE 的成功不仅在于它刷高了 AUC(GAUC 提升高达 2.12pt),更在于它提供了一套处理多源标签的系统化方法。
资深主编点评: 该工作的高明之处在于将“归因”这一业务逻辑问题转化为了“多任务表示学习”的学术方案。它告诉我们:与其纠结哪种归因规则最公平,不如让模型“全都要”,通过端到端的学习自动提取多种规则下的信息。
论文地址:https://huggingface.co/datasets/alimamaTech/MAC 代码地址:https://github.com/alimama-tech/PyMAL
