RecGPT-Mobile: On-Device Large Language Models for User Intent Understanding in Taobao Feed Recommendation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

RecGPT-Mobile: On-Device Large Language Models for User Intent Understanding in Taobao Feed Recommendation

RecGPT-Mobile：淘宝如何将 LLM 塞进手机，实时读懂你的购物意图

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 RecGPT-Mobile，这是首个在移动端部署 LLM 进行推荐意图理解的框架。该方法通过轻量化 Qwen3-0.6B 模型，配合自适应 Prompt 构建与意图漂移触发机制，实现了在端侧实时将用户行为转化为搜索查询（Next-query Prediction），显著提升了淘宝 Feed 流的推荐精度。

TL;DR

在移动互联网时代，用户的购物兴趣瞬息万变。传统的“云端计算”由于延迟问题，往往当你已经买完东西，系统还在推荐刚才搜过的商品。RecGPT-Mobile 改变了这一游戏规则——它是业内首个将大语言模型（LLM）直接部署在手机端的推荐框架，通过实时分析用户行为并自动生成精准的搜索 Query，实现了点击率（+1.8%）和交易额（+2.5%）的双重增长。

核心痛点：云端推荐的“滞后性”与“高昂代价”

推荐系统的本质是捕捉用户潜意识中的下一个需求。目前主流的 SOTA 方法虽然开始引入 LLM 来提升语义理解，但面临两大死穴：

端延迟 (Latency)：用户在手机上刷淘宝时，每一次点击都代表意图的变化。如果行为数据传回云端、LLM 推理、再传回客户端，这长达数百毫秒甚至秒级的链路足以让“实时感”丧失。
算力成本 (Cost)：面对淘宝数亿级别的活跃用户，如果全部依靠云端千亿参数模型进行每秒数万次的并发推理，其服务器硬件投入将是天文数字。

方法论：如何在“螺蛳壳里做道场”？

为了在手机有限的 RAM 和算力（NPU/GPU）中运行 LLM，作者提出了一套完整的“降维打击”策略。

1. 架构总览

RecGPT-Mobile 的核心流程分为：用户行为收集 → 自适应 Prompt 构建 → 意图 Agent（LLM）→ 本地/云端检索。

系统架构图 图 1：RecGPT-Mobile 整体架构，展示了从手机本地数据收集到 LLM 意图生成的全流程。

2. 自适应 Prompt 构建（Adaptive Prompting）

手机端的资源模型（Budget）是随时变化的。算法 1 提出了一套基于得分模型的动态 Prompt 方案：

特征提取：提取用户行为的频率、多样性、新鲜度。
模板与结构自适应：系统会根据当前的计算余量，决定 Prompt 的详略程度。如果电量充足、算力空闲，就提供更详细的上下文；反之则精简。

3. 意图漂移触发机制（Trigger Pipeline）

这是节省端侧功耗的神来之笔。LLM 并不需要在每次点击时都运行。

触发机制图 图 2：意图漂移检测 pipeline。

作者引入了三个数学逻辑来判断“什么时候该让 LLM 出马”：

熵变 ( $Δ H$ )：用户意图是变得专注了还是更发散了？
Jaccard 相似度：前后两个行为窗口的语义重合度。
JS 散度：显式度量分布偏移。只有当融合后的漂移分值 $Δ_{in t e n t} > a u$ 时，才会唤醒 LLM。

实验战果：端侧模型也能打

模型采用了 Qwen3-0.6B 作为底座，并进行了量化 LoRA 微调。实验数据表明，即使经过了极度压缩，模型在语义一致性和逻辑连贯性上依然保持了满意的水平。

| 场景 | CLICK (点击) | PAY (成交) | GMV (交易额) | | :--- | :--- | :--- | :--- | | 购物车页面 | +2.5% | +2.7% | +2.9% | | 物流追踪页 | +2.4% | +2.9% | +3.0% | | 平均提升 | +1.8% | +2.7% | +2.5% |

表 1：淘宝多个核心场景下的在线 A/B Test 结果。

在高分位延迟（P95）测试中，RecGPT-Mobile 表现出了极强的鲁棒性，没有因为长尾行为导致手机卡顿或发烫，证明了其在工业级生产环境的可行性。

深度洞察

RecGPT-Mobile 的成功本质上是对**端侧 Inductive Bias（归纳偏置）**的极佳利用。它不再追求 LLM 能够“上知天文下知地理”，而是将其约束为一个极其专业的“意图翻译官”。其提出的控制触发频率和自适应 Prompt 思想，对于所有希望在移动端部署 AI Agent 的开发者而言，都极具参考价值。

总结：未来的大模型应用，或许并不全在云端。RecGPT-Mobile 告诉我们，一个懂你当下、反馈迅速、且不消耗额外带宽的端侧小模型，往往能发挥出意想不到的巨大业务价值。

Find Similar Papers

Try Our Examples

查找最近关于移动端大语言模型 (On-device LLMs) 在推荐系统重排序 (Re-ranking) 阶段应用的研究论文。
哪篇论文最早提出了低秩适配 (LoRA) 的量化版本 (QLoRA)，本文在端侧部署时对其进行了哪些具体优化？
有哪些研究在探讨如何利用大模型生成的合成数据来增强推荐系统中的长尾意图理解（Next-query Prediction）？

Contents

RecGPT-Mobile：淘宝如何将 LLM 塞进手机，实时读懂你的购物意图

1. TL;DR

2. 核心痛点：云端推荐的“滞后性”与“高昂代价”

3. 方法论：如何在“螺蛳壳里做道场”？

3.1. 1. 架构总览

3.2. 2. 自适应 Prompt 构建（Adaptive Prompting）

3.3. 3. 意图漂移触发机制（Trigger Pipeline）

4. 实验战果：端侧模型也能打

5. 深度洞察