LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

LoopCTR：解锁循环缩放之力，让 CTR 预测模型“以一当十”

总结

问题

方法

结果

要点

摘要

本文提出了 LoopCTR，一种基于循环缩放（Loop Scaling）范式的点击率（CTR）预测架构。通过递归重用模型层而不是堆叠新参数，该方法实现了计算量与参数规模的解耦，在多个基准测试中达到了 SOTA 性能。

TL;DR

在点击率（CTR）预测领域，模型缩放（Scaling）通常意味着更深的层数和更臃肿的参数。阿里巴巴与中国人民大学的研究者们提出 LoopCTR，反其道而行之：通过**递归重用（Recursive Reuse）同一模型层来增加计算深度。这种“循环缩放”范式通过过程监督，实现了“训练时多循环，推理时零循环”**的惊人效果——推理成本极低，性能却稳居 SOTA。

1. 痛点：缩放野心与部署约束的矛盾

传统的 Transformer 缩放路径（如增加深度、宽度或序列长度）虽然能提升 AUC，但会带来成比例的存储和计算开销。在工业级推荐系统中，毫秒级的低延迟要求使得这些“巨型模型”难以落地。

此外，推荐数据具有高度稀疏性。研究发现，简单地增加参数深度往往会由于过拟合而导致边际收益递减。作者认为，我们需要一种能解耦参数增长与计算增长的新方案。

2. 核心设计：LoopCTR 的“三明治”架构

LoopCTR 的核心是一个由 Entry Block（入口）、Loop Block（循环）和 Exit Block（出口）组成的架构。

2.1 循环块（Loop Block）的表达能力增强

如果只是简单地重复应用同一个 Transformer 层，模型会很快遇到表达能力瓶颈。LoopCTR 引入了两个关键模块来破局：

超连接残差 (Hyper-Connected Residuals, HCR)：将标准残差改为多流（Multi-stream）自适应融合。其系数是输入相关的，允许模型在不同循环迭代中动态控制信息流。
混合专家模型 (MoE)：在不增加每个样本计算量的前提下，通过稀疏激活极大地扩展了共享层的参数容量。

模型架构图 图 1：LoopCTR 整体架构，展示了其独特的三明治设计与 HCR/MoE 模块。

2.2 过程监督（Process Supervision）

这是实现“零循环推理”的关键。在训练期间，模型在每一个循环深度（从 0 到 L）都会通过 Exit Block 输出预测并计算 Loss。

逻辑本质：深层的循环作为“老师”，通过共享参数将其提取的特征知识“蒸馏”给浅层。
结果：在推理时，即使跳过所有 Loop Block（即 Zero-loop），Entry Block 生成的特征也已经包含了迭代优化的增益。

3. 实验结果：降维打击般的效率

在 Amazon、TaobaoAds、KuaiVideo 和大规模 InHouse 数据集上的测试显示，LoopCTR(0/3)（推理时 0 循环）在所有指标上均显著优于传统的 DIN、OneTrans 和强基线 HSTU。

| Method | AUC (Amazon) | FLOPs (InHouse) | Latency (InHouse) | | :--- | :--- | :--- | :--- | | OneTrans | 0.8689 | 417.97M | 494.58ms | | HSTU | 0.8657 | 2150.00M | 775.72ms | | LoopCTR(0/3) | 0.8715 | 13.38M | 9.26ms |

实验结果对比 表 1：LoopCTR 与各基线的性能对比，展示了其在 AUC 和效率上的巨大优势。

4. 深度洞察：被隐藏的“神谕”性能

作者通过 Oracle Analysis（即假设我们能为每个样本自动选择最佳循环深度）发现了一个惊人的结论：

当前模型仍有 0.02-0.04 的 AUC 潜力尚未被挖掘。
反直觉发现：训练循环次数较少的模型，其 Oracle 天花板反而更高。这说明减少训练循环能保持更好的表示多样性（Representational Diversity），为未来的**自适应推理（Adaptive Inference）**留下了巨大的想象空间。

5. 总结与展望

LoopCTR 成功证明了在推荐系统中，“思考”比“背诵”更重要。通过递归共享层，模型不仅更轻量，还获得了更好的泛化能力。

价值：为内存受限的移动端部署或极低延迟的实时推荐提供了完美方案。
局限：目前的自适应选择仍基于后验（Oracle），如何在线上实时判断一个样本是否需要更多循环“思考”，将是下一个研究高地。

资深主编点评：LoopCTR 的意义在于它打破了 LLM 时代“参数即正义”的思维定势。它告诉我们，通过巧妙的设计，共享参数同样能涌现出深度推理的能力，而这对成本敏感的工业界而言，价值千金。

发现相似论文

试试这些示例

查找最近其他探讨在推荐系统或 CTR 预测中应用权重共享（Weight Sharing）或循环架构（Recurrent/Looped Architecture）的论文。
哪篇论文最早提出了超连接（Hyper-Connections）或超残差的概念，本文在残差设计上与之有何差异？
有哪些研究在探讨 CTR 模型的自适应推理（Adaptive Inference），即根据样本复杂度动态决定计算深度的相关方法？

LoopCTR：解锁循环缩放之力，让 CTR 预测模型“以一当十”

1. TL;DR

2. 1. 痛点：缩放野心与部署约束的矛盾

3. 2. 核心设计：LoopCTR 的“三明治”架构

3.1. 2.1 循环块（Loop Block）的表达能力增强

3.2. 2.2 过程监督（Process Supervision）

4. 3. 实验结果：降维打击般的效率

5. 4. 深度洞察：被隐藏的“神谕”性能

6. 5. 总结与展望