WisPaper
WisPaper
Search
QA
Pricing
TrueCite
[SIGKDD 2025] 突破单一视角:MAC 评测基准与 MoAE 模型引领多归因 CVR 预估
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 MAC (Multi-Attribution BenChmark),这是首个包含多种归因机制(Last-click, First-click, Linear, DDA)标签的公开 CVR 预测数据集。同时,作者提出了 MoAE (Mixture of Asymmetric Experts) 模型,通过结合 MoE 架构与非对称知识迁移,在多归因学习(MAL)任务上取得了 SOTA 性能。

TL;DR

传统的转化率(CVR)预估通常只锁定一种“归因方式”(如最后一次点击),这显然忽略了用户决策链条的全局。本文发布了全球首个多归因 CVR 评测基准 MAC,并配套了算法库 PyMAL。更重要的是,作者提出了一种新型架构 MoAE (Mixture of Asymmetric Experts),通过混合专家模型与非对称特征迁移,在阿里妈妈真实场景下显著刷新了性能指标。


1. 痛点:被困在“最后一次点击”里的 CVR 预估

在在线广告系统中,归因机制(Attribution Mechanisms)决定了谁该为转化“领功”。目前大多数模型都是“单归因”的:

  • Last-click:功劳全给最后一次点击。
  • First-click:功劳全给第一次触达。
  • Linear / DDA:按规则或数据驱动分配功劳。

问题在于:单一视角会造成严重的归因偏差。例如,一个用户可能受第一次展示的影响产生了兴趣,但最终点击了另一个广告完成转化。如果只学 Last-click,模型就学不到这种“心智培育”的过程。

由于缺乏公开的多标签数据集,学术界一直难以进行**多归因学习(Multi-Attribution Learning, MAL)**的深入研究。


2. 核心贡献:MAC 数据集与 PyMAL 库

作者从淘宝广告系统中提取了 7900 万次点击数据,构建了 MAC 基准。

  • 多维度标签:每个样本同时拥有四种标签:Last-click, First-click, Linear, DDA。
  • PyMAL 库:集成了从传统的 Shared-Bottom 到最新的 NATAL 等一系列 MAL 模型。

MAC 数据集中的四种归因机制


3. 方法论:MoAE (Mixture of Asymmetric Experts)

作者通过对比分析发现,一个优秀的 MAL 模型必须满足两个 Inductive Bias:

  1. 全面性:需要能够捕捉不同归因视角下的共有特征和特有特征(MoE 的强项)。
  2. 主从性:辅助任务的知识必须服务于主任务,而非干扰(非对称迁移的强项)。

架构拆解

MoAE 的设计非常精巧:

  • 底座 (Backbone):采用了类似于 PLE 的结构,包含 Shared Experts(学习通用的转化规律)和 Specific Experts(学习特定归因下的偏差)。
  • 非对称迁移 (Asymmetric Transfer):不同于传统的全连接共享,MoAE 将辅助塔的特征单向聚合到主任务预测器(Primary Target Predictor)中。这确保了主任务能够充分利用辅任务的“辅助视角”,同时避免了梯度冲突带来的负迁移。

MoAE 模型架构图


4. 实验发现:为什么 MAL 有效?

作者在 MAC 数据集上进行了严谨的对比实验,得出了几个颠覆性的结论:

  • 转化路径越长,效果越好:实验发现,对于那些点击很多次才转化的“深思熟虑型”用户,MAL 带来的提升远高于短路径用户。这证明了多视角学习确实捕捉到了复杂的转化决策链。
  • 不是辅助任务越多越好:在预测 First-click 目标时,盲目增加辅助任务反而会损害效果。这说明了辅助目标的选择策略在 MAL 中至关重要。
  • 信息增益而非参数量:通过将辅助任务权重设为零的消融实验发现,仅仅增加参数量并不能提升性能,真正的增益来自于多归因标签提供的监督信号。

实验结果对比表


5. 总结与展望

MAC 评测基准填补了 CVR 预估领域的空白。MoAE 的成功不仅在于它刷高了 AUC(GAUC 提升高达 2.12pt),更在于它提供了一套处理多源标签的系统化方法。

资深主编点评: 该工作的高明之处在于将“归因”这一业务逻辑问题转化为了“多任务表示学习”的学术方案。它告诉我们:与其纠结哪种归因规则最公平,不如让模型“全都要”,通过端到端的学习自动提取多种规则下的信息。


论文地址https://huggingface.co/datasets/alimamaTech/MAC 代码地址https://github.com/alimama-tech/PyMAL

Find Similar Papers

Try Our Examples

  • 查找最近其他针对广告预估中多触点归因(Multi-Touch Attribution, MTA)与端到端模型结合的 SOTA 论文。
  • 哪篇论文最早在推荐系统中提出了非对称知识迁移(Asymmetric Knowledge Transfer)的概念,本文是如何演进该架构的?
  • 调研除了 MoE 和梯度操作(如 PCGrad)之外,还有哪些最新的多任务学习(MTL)优化技术被证明在 CVR 预估中有效?
Contents
[SIGKDD 2025] 突破单一视角:MAC 评测基准与 MoAE 模型引领多归因 CVR 预估
1. TL;DR
2. 1. 痛点:被困在“最后一次点击”里的 CVR 预估
3. 2. 核心贡献:MAC 数据集与 PyMAL 库
4. 3. 方法论:MoAE (Mixture of Asymmetric Experts)
4.1. 架构拆解
5. 4. 实验发现:为什么 MAL 有效?
6. 5. 总结与展望