WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
字节跳动电商搜索:从模型刷榜到 Agent 自主进化的范式转移
总结
问题
方法
结果
要点
摘要

字节跳动电商搜索团队提出了一个名为“Case-Driven”的多智能体框架,旨在自动化处理电商搜索相关性(Relevance)优化任务。该框架通过 Annotator, Optimizer 和 User 等多个 Agent 协作,实现了从 Bad-case 发现、诊断到自动修复的闭环,在生产环境中取得了显著的 SOTA 效果。

TL;DR

字节跳动 Global E-Commerce 团队发布了一项突破性工作,将电商搜索相关性(Search Relevance)的优化从“人工驱动”转变为“智能体驱动”。通过构建一个包含标注、优化、用户模拟等角色的多智能体(Multi-Agent)闭环,系统能够自动发现 Bad-case 并自我修复,显著降低了 75% 的标注成本。

背景:相关性优化的“人力瓶颈”

在电商搜索领域,“相关性”是用户体验的基石。然而,工业界的现状是:每一分相关性的提升都背后都堆砌着海量的人工。

  • 痛点 1:人类标注员对复杂查询(Query)的理解不一致,标准难以统一。
  • 痛点 2:从发现一个 Bad-case 到模型重新训练上线,周期往往以周甚至月为单位。
  • 痛点 3:标准的演进(如政策变化、大促规则)难以实时同步给模型。

核心方法:Case-Driven 的多智能体闭环

作者认为,相关性不应该只是一个算法问题,而是一个闭环生态系统。他们设计了三个核心 Agent 来模拟人类专家:

1. Annotator Agent(数字标注员)

取代传统外包标注。它不只是简单的 LLM 调用,而是采用了:

  • Query Grounding:通过 Web Search 获取外部知识。
  • GRM-based Selection:利用训练好的生成式奖励模型(Generative Reward Model)在多个推理路径中选出最准确的标签。

2. Optimizer Agent(自动化算法工程师)

这是系统的“大脑”,负责:

  • 故障诊断:判断坏例是特征缺失(Feature-side)还是模型认知错误(Model-side)。
  • 数据炼制:自动生成对抗样本和扩充数据,触发自动化迭代流水线(Automated Iteration Pipeline)。

3. User Agent(模拟消费者)

最有趣的模块。它是“标准无关”的,仅凭购物直觉与 Annotator 辩论。当 User 觉得“不爽”而 Annotator 觉得“符合标准”时,系统会自动捕捉这种标准与体验的 Gap

模型架构图 图 1:Case-driven 多智能体框架总览。User 发现问题,Annotator 判别准则,Optimizer 解决问题。

工程硬核扩展:Harness Engineering

为了让 Agent 在生产环境跑得通,字节团队做了大量的底层重构:

  1. All-In-One Model:将召回(Retrieval)、粗排(Coarse Rank)和精排(Fine Rank)统一到一个 Backbone 下,解决模型间的信息不对称。
  2. Instruction-Following:通过自然语言指令(Instruction)实时干预模型行为。比如大促期间,PM 只需输入一条指令,模型无需重新训练即可即时下架不合规商品。
  3. Global Memory:一个共享的“知识图谱/存储器”,确保所有 Agent 实时同步最新的判别标准和案例。

实验结果:全方位的效率跨越

  • 成本革命:标注成本下降 75.4%
  • 效果提升:在线场景下,该框架带来的 SBS 胜率提升在不同阶段均超过了经典的 BERT 基线。在多语言市场的迁移测试中,累积胜率(Win-Rate)提升高达 13%
  • 响应速度:通过指令遵循能力,系统的应急处理能力从“天级”缩短到了“分钟级”。

实验结果对比 表 1:User-Annotator 辩论机制显著提升了坏例识别的精度(Precision)和召回(Recall)。

总结与思考

这篇论文给工业界最大的启发是:不要试图去训练一个完美的模型,而要构建一个能够自我修正的系统

虽然该框架目前仍存在 LLM 幻觉、计算成本较高(Multi-agent 编排需要大量 TPU/GPU 资源)以及对复杂业务逻辑覆盖不全的局限性,但它为搜索系统的“无人驾驶”指明了方向。从“数据中心 AI”进化到“Agent 中心 AI”,搜索相关性的天花板才刚刚被掀开。


关键词:Search Relevance, Multi-Agent System, LLM, ByteDance, E-Commerce, Automated Machine Learning.

发现相似论文

试试这些示例

  • 查找最近关于利用多智能体框架(Multi-Agent Framework)自动化机器学习 Pipeline 或数据标注的其他 industrial 论文。
  • 哪篇论文最早提出了 Generative Reward Model (GRM) 的概念,本文在电商相关性判别中对其做了哪些特定改进?
  • 调研当前大型电商搜索系统中,如何结合状态空间模型(SSM)或长上下文 Transformer 来替代本文中的 All-In-One 架构以处理更复杂的 User Session?
目录
字节跳动电商搜索:从模型刷榜到 Agent 自主进化的范式转移
1. TL;DR
2. 背景:相关性优化的“人力瓶颈”
3. 核心方法:Case-Driven 的多智能体闭环
3.1. 1. Annotator Agent(数字标注员)
3.2. 2. Optimizer Agent(自动化算法工程师)
3.3. 3. User Agent(模拟消费者)
4. 工程硬核扩展:Harness Engineering
5. 实验结果:全方位的效率跨越
6. 总结与思考