WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[2026 预研] IDProxy:小红书如何利用 MLLM 攻克亿级流量下的冷启动难题?
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 IDProxy,一种利用多模态大语言模型 (MLLM) 解决推荐系统冷启动问题的框架。该方法通过将 MLLM 生成的内容表示与现有的 ID 嵌入空间进行粗到细(Coarse-to-Fine)的两阶段对齐,实现了在无交互数据下对新内容的精准 CTR 预估。

TL;DR

小红书(Xiaohongshu)的研究团队提出了一种名为 IDProxy 的新框架。它不仅解决了新笔记、新广告上线时的“冷启动”预估难题,还成功将 Multimodal LLM (MLLM) 的强大语义能力转化为了生产环境中的 CTR(点击率)增量。通过两阶段的 Coarse-to-Fine 对齐方法,IDProxy 在不改变现有架构的前提下,实现了 MLLM 语义空间与推荐系统 ID 空间的完美融合。

背景定位:这是一项极具工程落地参考价值的工业级 SOTA 工作,成功在日活数亿的真实场景(小红书发现页信息流与展示广告)中上线。


痛点深挖:语义空间 vs. 协作空间

在工业级推荐系统中,排序模型(Ranker)主要依赖 Item ID Embedding。这些 ID 嵌入捕捉的是协同过滤信号,即“谁看过、谁买了”。

  • 新内容的死结:新笔记刚发布,没有交互,ID 嵌入就是随机抽取的初值,模型根本无法判断其潜力。
  • 语义鸿沟:虽然我们可以用 CLIP 或其他模型提取图像、文本特征,但如图 1 所示,工业界的 ID 空间分布非常“杂乱(Irregular)”,不像学术数据集(如 MovieLens)那样有明显的聚类结构。简单的线性映射(MLP)根本无法填补这种异构空间之间的断层。

ID 空间对比预览 图 1:左侧学术数据集 ID 聚类明显,右侧小红书生产环境 ID 分布复杂,对齐难度极高。


核心机制:IDProxy 的两阶段进化论

为了让 MLLM 生成的特征能“像 ID 嵌入一样好用”,IDProxy 设计了两个关键步骤:

1. 粗粒度代理生成 (Stage 1: Coarse Alignment)

第一步是“大方向对齐”。

  • 预处理:由于冷启动关注的是新内容,作者先筛选出已经“活了”的高频 Item ID 作为目标锚点。
  • 对比学习:利用 MLLM(如 InternVL)编码图文信息,通过一个专门的 [EMB] Token 聚合信息,并使用 Contrastive Loss 将 MLLM 输出的空间强行拉向 ID 嵌入空间。这样,我们得到了一个初步的“代理 ID(Proxy ID)”。

2. 细粒度 CTR 感知对齐 (Stage 2: Fine-grained Refinement)

如果只停留在第一阶段,那它只是一个更好的编码器。IDProxy 的精髓在于第二阶段的**“结构复用”**。

  • 层级分区提取:研究发现 MLLM 的不同层蕴含不同深度的语义。IDProxy 通过 K-means 将 MLLM 的几十层 Transformer 划分为三个子群(浅、中、深),全方位提取特征。
  • 轻量级适配器:引入一个极小的 Adaptor 和 残差门控模块 (Residual Gating)
  • 端到端联调:将提取的特征注入到主排模型的原子位(Feature Interaction 和 Target Attention)。这意味着 MLLM 特征可以像原生 ID 一样,享受主模型中复杂的序列建模能力。

模型架构图 图 2:IDProxy 的两阶段框架图,展示了从 MLLM 层级提取到 Ranker 注入的全过程。


实验与结果:冷启动性能翻倍

实验证明,IDProxy 的每一层设计都有其必要性:

  • 结构复用的威力:仅将 MLLM 特征作为普通特征输入(v4)提升有限,但当它被注入到 Ranker 的核心 ID 位并复用其结构先验时(v5),AUC 提升显著增加。
  • 冷启动奇效:针对发布 24 小时内的“新笔记”,IDProxy 带来的在线 AUC 提升(+0.23%~0.32%)是全量流量(+0.12%~0.15%)的两倍以上。

实验结果对比 表 1:消融实验显示,只有在 Stage 2 同时开启端到端训练与结构复用时,性能才达到最优。

在小红书的线上 A/B 测试中:

  • 内容流:用户点击(Reads)提升 0.39%,互动量提升 0.5%
  • 广告流:广告主消耗(COST)提升 1.73%,广告价值提升 1.93%

深度总结与展望

IDProxy 给工业界带来的最大启示在于:不要试图用 LLM 替换现有的推荐模型,而是要让 LLM 学习如何成为由于数据缺失而受损的 ID 的“完美替身”。

局限性与挑战

  1. 推理开销:尽管适配器很轻量,但 MLLM 的实时推理成本依然很高。小红书通过离线计算写入 KV 存储的方式解决了这个问题,但对于瞬时响应要求极高的场景仍有挑战。
  2. 动态性:ID 空间是随训练不断漂移的,Stage 1 的静态对齐可能需要更频繁的重刷。

未来启示

随着多模态大模型的推理成本进一步降低,我们可以预见,未来的推荐系统将不再受限于“交互历史”,每一个新产生的创意、每一个刚拍摄的视频,都能通过 IDProxy 这种架构,在上线的第一秒就找到最懂它的用户。

Find Similar Papers

Try Our Examples

  • 查找最近其他利用 MLLM 隐藏层表示(Hidden States)进行推荐系统特征增强或对齐的研究论文。
  • 哪篇论文最早探讨了工业级推荐系统中 ID 嵌入空间的不规则分布(Non-clustered distribution)问题,本文提到的处理方法与其有何异同?
  • 有哪些研究尝试将类似 IDProxy 的对比对齐机制应用到视频理解(Video-based)的冷启动推荐任务中?
Contents
[2026 预研] IDProxy:小红书如何利用 MLLM 攻克亿级流量下的冷启动难题?
1. TL;DR
2. 痛点深挖:语义空间 vs. 协作空间
3. 核心机制:IDProxy 的两阶段进化论
3.1. 1. 粗粒度代理生成 (Stage 1: Coarse Alignment)
3.2. 2. 细粒度 CTR 感知对齐 (Stage 2: Fine-grained Refinement)
4. 实验与结果:冷启动性能翻倍
5. 深度总结与展望
5.1. 局限性与挑战
5.2. 未来启示