WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[CVPR/CIKM 2025] OneSearch-V2:内化推理逻辑,让生成式搜索告别“性能与延迟”的权衡
总结
问题
方法
结果
要点
摘要

本文提出了 OneSearch-V2,一个应用于快手电商搜索的高性能生成式检索(Generative Retrieval)框架。该框架通过引入潜在推理增强和自蒸馏技术,实现了端到端直接生成商品 Semantic IDs (SIDs),在不增加推理延迟的前提下,显著提升了复杂长尾查询的理解能力和个性化匹配精度。

TL;DR

快手技术团队推出的 OneSearch-V2 彻底打破了工业级搜索中“深度推理必有高延迟”的魔咒。通过 关键词级 CoT (Chain-of-Thought) 构建逻辑模板,并利用独特的 自蒸馏技术 将这些逻辑“内化”到模型权重中,V2 版本在不增加任何线上推理开销的情况下,实现了 3.98% 的点击率增长,尤其在处理复杂长尾需求时表现惊人。

1. 背景:搜索系统的“极速”与“深思”之争

目前的生成式检索(Generative Retrieval, GR)已经成为搜索领域的前沿范式。它直接根据用户 Query 生成商品的 Semantic ID (SID)。然而,工业场景面临三重挑战:

  • Query 复杂性:比如“室内健身器材”,模型需要推导出跑步机、哑铃等具体类目词。
  • 推理延迟:LLM 虽强,但生成一段显式的推理过程(CoT)太慢。
  • 奖励偏见:单纯拟合历史点击日志会让模型陷入“信息茧房”,忽略真正的新增意图。

2. 核心架构:三位一体的改进

OneSearch-V2 由三个核心模块构成,分别解决了“懂、记、调”的问题。

2.1 思想增强的 Query 理解 (Thought-Augmented Understanding)

不再强制模型生硬地匹配字符串,而是引入 Keyword-based CoT

  • 逻辑流:意图分析 $\rightarrow$ 细类目识别 $\rightarrow$ 显式属性提取 $\rightarrow$ 潜在主题推荐。
  • 价值:将逻辑链压缩为极高信息密度的“关键词组”,这些关键词在训练阶段作为“上帝视角”输入,引导模型学习潜在路径。

OneSearch-V2 总体架构图 图 1:OneSearch-V2 总体架构,包含 Query 理解、自蒸馏训练与偏好对齐三部分。

2.2 思维内化:自蒸馏的“无感推理”

这是 OneSearch-V2 最具洞察力的设计。为了让模型在没有关键词输入的线上环境也能“举一反三”,作者设计了 信息不对称自蒸馏

  • 教师路径:输入为 [Query + 关键词 CoT],输出 SID。
  • 学生路径:输入仅为 [Query],输出 SID。
  • 内化过程:通过 KL 散度约束,让学生强制模拟教师的分布。为了防止表现不稳定,作者还加入了 R-Drop (预测一致性)FGM (对抗鲁棒性)

2.3 偏好对齐:TPMA-GRPO 机制

针对 SID 的 由粗到精 (Coarse-to-fine) 结构,传统的 RL 算法对所有位置一视同仁是不科学的。

  • TPMA (Token-Position Marginal Advantage):给前几个代表大类目的 Token 赋予更高的权重,并设计了“前缀门控”,如果前面的类目错了,后面的属性渐进梯度将被抑制。

3. 实验战绩:全线突破

在快手真实的电商直播间和货架搜索场景中,OneSearch-V2 对不同规模的模型(BART, GPT-2, Qwen-0.6B)均展现出强大的普适性。

不同 Query 类型的提升对比 图 2:OneSearch-V2 在冷启动商品和长尾 Query 上的 CTR 提升显著高于热门品类。

关键数据亮点:

  • 全量提升:订单量增加 2.11%,GMV 增加 3.45%。
  • 长尾拯救者:长尾 Query 的点击率提升幅度(+5.37%)远超头部(+5.01%)。
  • 生态利好:冷启动(新发布)商品的点击率大幅提升 6.16%,缓解了电商系统长期存在的“马太效应”。

4. 深度洞察:为什么不直接做 Latent Token?

很多人会问,为什么不用 Coconut 等方法生成的“潜在向量”?OneSearch-V2 的消融实验给了答案:

  • 监督粒度:自蒸馏提供了逐位置的概率分布对齐,而向量对齐(L1 Loss)往往只监督单一节点,损失了语义迁移的细腻度。
  • 架构纯净度:自蒸馏无需更改模型结构,现有推理引擎直接兼容,这对大规模工业部署至关重要。

5. 局限与未来

尽管 OneSearch-V2 表现卓越,但在多模型融合(如视频、直播与商品的统一 ID 化)和实时干预策略上仍有优化空间。作者也提到,未来的方向是迈向 Agentic Search,即系统能根据用户反馈实时更新模型行为。

总结:OneSearch-V2 证明了推理能力可以被“压缩”进模型权重。对于追求极致性能又受限于 CPU/GPU 算力的搜索团队,这种“内化推理”的范式无疑是一剂良方。

发现相似论文

试试这些示例

  • 查找最近一年关于工业级生成式检索(Generative Retrieval)在处理长尾查询和冷启动问题上的最新 SOTA 论文。
  • 追溯“推理内化”(Reasoning Internalization)或“潜在思维空间”(Latent Thought Space)在小模型蒸馏上的核心理论起源。
  • 有哪些研究探讨了将 GRPO 等强化学习算法应用在具有严格层级语义结构的离散 Token(如 Semantic ID)生成的信度分配优化?
目录
[CVPR/CIKM 2025] OneSearch-V2:内化推理逻辑,让生成式搜索告别“性能与延迟”的权衡
1. TL;DR
2. 1. 背景:搜索系统的“极速”与“深思”之争
3. 2. 核心架构:三位一体的改进
3.1. 2.1 思想增强的 Query 理解 (Thought-Augmented Understanding)
3.2. 2.2 思维内化:自蒸馏的“无感推理”
3.3. 2.3 偏好对齐:TPMA-GRPO 机制
4. 3. 实验战绩:全线突破
5. 4. 深度洞察:为什么不直接做 Latent Token?
6. 5. 局限与未来