A Case-Driven Multi-Agent Framework for E-Commerce Search Relevance

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

A Case-Driven Multi-Agent Framework for E-Commerce Search Relevance

字节跳动电商搜索：从模型刷榜到 Agent 自主进化的范式转移

总结

问题

方法

结果

要点

摘要

字节跳动电商搜索团队提出了一个名为“Case-Driven”的多智能体框架，旨在自动化处理电商搜索相关性（Relevance）优化任务。该框架通过 Annotator, Optimizer 和 User 等多个 Agent 协作，实现了从 Bad-case 发现、诊断到自动修复的闭环，在生产环境中取得了显著的 SOTA 效果。

TL;DR

字节跳动 Global E-Commerce 团队发布了一项突破性工作，将电商搜索相关性（Search Relevance）的优化从“人工驱动”转变为“智能体驱动”。通过构建一个包含标注、优化、用户模拟等角色的多智能体（Multi-Agent）闭环，系统能够自动发现 Bad-case 并自我修复，显著降低了 75% 的标注成本。

背景：相关性优化的“人力瓶颈”

在电商搜索领域，“相关性”是用户体验的基石。然而，工业界的现状是：每一分相关性的提升都背后都堆砌着海量的人工。

痛点 1：人类标注员对复杂查询（Query）的理解不一致，标准难以统一。
痛点 2：从发现一个 Bad-case 到模型重新训练上线，周期往往以周甚至月为单位。
痛点 3：标准的演进（如政策变化、大促规则）难以实时同步给模型。

核心方法：Case-Driven 的多智能体闭环

作者认为，相关性不应该只是一个算法问题，而是一个闭环生态系统。他们设计了三个核心 Agent 来模拟人类专家：

1. Annotator Agent（数字标注员）

取代传统外包标注。它不只是简单的 LLM 调用，而是采用了：

Query Grounding：通过 Web Search 获取外部知识。
GRM-based Selection：利用训练好的生成式奖励模型（Generative Reward Model）在多个推理路径中选出最准确的标签。

2. Optimizer Agent（自动化算法工程师）

这是系统的“大脑”，负责：

故障诊断：判断坏例是特征缺失（Feature-side）还是模型认知错误（Model-side）。
数据炼制：自动生成对抗样本和扩充数据，触发自动化迭代流水线（Automated Iteration Pipeline）。

3. User Agent（模拟消费者）

最有趣的模块。它是“标准无关”的，仅凭购物直觉与 Annotator 辩论。当 User 觉得“不爽”而 Annotator 觉得“符合标准”时，系统会自动捕捉这种标准与体验的 Gap。

模型架构图 图 1：Case-driven 多智能体框架总览。User 发现问题，Annotator 判别准则，Optimizer 解决问题。

工程硬核扩展：Harness Engineering

为了让 Agent 在生产环境跑得通，字节团队做了大量的底层重构：

All-In-One Model：将召回（Retrieval）、粗排（Coarse Rank）和精排（Fine Rank）统一到一个 Backbone 下，解决模型间的信息不对称。
Instruction-Following：通过自然语言指令（Instruction）实时干预模型行为。比如大促期间，PM 只需输入一条指令，模型无需重新训练即可即时下架不合规商品。
Global Memory：一个共享的“知识图谱/存储器”，确保所有 Agent 实时同步最新的判别标准和案例。

实验结果：全方位的效率跨越

成本革命：标注成本下降 75.4%。
效果提升：在线场景下，该框架带来的 SBS 胜率提升在不同阶段均超过了经典的 BERT 基线。在多语言市场的迁移测试中，累积胜率（Win-Rate）提升高达 13%。
响应速度：通过指令遵循能力，系统的应急处理能力从“天级”缩短到了“分钟级”。

实验结果对比 表 1：User-Annotator 辩论机制显著提升了坏例识别的精度（Precision）和召回（Recall）。

总结与思考

这篇论文给工业界最大的启发是：不要试图去训练一个完美的模型，而要构建一个能够自我修正的系统。

虽然该框架目前仍存在 LLM 幻觉、计算成本较高（Multi-agent 编排需要大量 TPU/GPU 资源）以及对复杂业务逻辑覆盖不全的局限性，但它为搜索系统的“无人驾驶”指明了方向。从“数据中心 AI”进化到“Agent 中心 AI”，搜索相关性的天花板才刚刚被掀开。

关键词：Search Relevance, Multi-Agent System, LLM, ByteDance, E-Commerce, Automated Machine Learning.

发现相似论文

试试这些示例

查找最近关于利用多智能体框架（Multi-Agent Framework）自动化机器学习 Pipeline 或数据标注的其他 industrial 论文。
哪篇论文最早提出了 Generative Reward Model (GRM) 的概念，本文在电商相关性判别中对其做了哪些特定改进？
调研当前大型电商搜索系统中，如何结合状态空间模型（SSM）或长上下文 Transformer 来替代本文中的 All-In-One 架构以处理更复杂的 User Session？

字节跳动电商搜索：从模型刷榜到 Agent 自主进化的范式转移

1. TL;DR

2. 背景：相关性优化的“人力瓶颈”

3. 核心方法：Case-Driven 的多智能体闭环

3.1. 1. Annotator Agent（数字标注员）

3.2. 2. Optimizer Agent（自动化算法工程师）

3.3. 3. User Agent（模拟消费者）

4. 工程硬核扩展：Harness Engineering

5. 实验结果：全方位的效率跨越

6. 总结与思考