WisPaper
WisPaper
Scholar Search
Scholar QA
AI Feeds
Pricing
TrueCite
[SIGCOMM 2025] MFS:攻克 LLM 推理瓶颈,多阶段调度让 TTFT SLO 提升 2.4 倍
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 MFS,一种针对大语言模型(LLM)推理服务的全阶段多级流调度框架。该框架通过 Disaggregated 架构下的 KV-cache 检索、集合通信和 P2D 传输的协同调度,利用 Defer-and-Promote 机制优化了首字延迟(TTFT),使 TTFT SLO 达标率提升了 1.2-2.4 倍。

TL;DR

在 LLM 服务中,首字延迟(TTFT)是用户体验的核心。然而,现代推理架构(如预填充-解码分离、KV 缓存重用)引入了极其复杂的网络竞争。本文提出的 MFS (Multi-stage Flow Scheduling) 突破了传统“阶段无关”调度的局限,通过**反向多级队列(RMLQ)延迟晋升(Defer-and-Promote)**机制,实现了网络带宽的极致精确分配,将 TTFT 的 SLO 达标率提升了最高 2.4 倍。

1. 痛点:被忽视的网络内战

在分布式 LLM 推理中,生成第一个 token 需要经历三个关键通信阶段:

  1. KV-cache 检索:从远程节点抓取可复用的上下文。
  2. 集合通信 (Collective):模型并行(如 All-to-All)时的中间激活值同步。
  3. P2D 传输:将预填充结果发送给解码节点。

核心矛盾在于:这些流在物理链路上是重叠且竞争的。

  • 请求内竞争 (Intra-request):本层的集合通信(阻塞计算)被下一层的 KV 预取阻塞。
  • 请求间竞争 (Inter-request):不同请求的流在交换机处“打架”。

现有的调度器(如 SJF 或 EDF)往往只看单个流的大小或截止日期,缺乏全局视角。正如论文所指出的,这种“阶段盲目性”是导致 40% 服务超时的罪魁祸首。

2. 核心直觉:从“暗盒”到“透视”

作者提出了一个深刻的洞见:LLM 预填充的执行过程,实际上是请求截止日期逐层“具象化”的过程。

  • 早期阶段(Stage 1&2):截止日期是隐式的,因为后续还有很多层要跑。
  • 最终阶段(Stage 3):截止日期是显式的,直接对应 TTFT 目标。

基于此,MFS 确立了 Defer-and-Promote(延迟与晋升) 原则:

  • 先延迟:初始时将所有流放在低优先级。
  • 后晋升:随着“松弛时间”(Laxity)减少,或者计算迫切需要该数据时,才向上晋升优先级。

3. 架构解析:反向多级队列 (RMLQ)

传统的多级反馈队列(MLFQ)随时间推移降低优先级,而 MFS 的 RMLQ 恰恰相反。

模型架构图

3.1 显式截止日期调度 (Stage 3)

利用 最小链路利用率 (MLU) 作为指标: $$MLU(t) = \frac{Size_{rem}(t)}{Time_{rem}(t) \cdot B \cdot (1-\rho)}$$ 当 $MLU$ 接近 1 时,意味着必须全速传输才能赶上截止日期,此时强制晋升。

3.2 隐式截止日期调度 (Stage 1&2)

引入 相对层索引 (RLI):$RLI = L_{target} - L_{curr}$。

  • $RLI = 0$:表示该通信直接阻塞当前计算,优先级最高。
  • $RLI > 0$:表示是“前瞻性”传输,可以适度延迟。

为了应对不确定性,MFS 还加入了鲁棒有效截止日期 (RED) 机制,防止个别极短截止日期的请求“绑架”整个 Batch 的优先级(Piggyback Effect)。

4. 实验战绩

作者在 32 个 GPU 的真实测试床上进行了验证,并使用了 Qwen 生产环境的真实 Trace。

4.1 性能飞跃

在 DBRX 和 Mixtral 等主流 MoE 模型上,MFS 在中高负载下的 TTFT SLO 达标率显著超过了 Karuna 和 EDF 等基准。

实验结果对比

4.2 为什么有效?

通过微观分析(Micro-benchmarks),MFS 成功将集合通信的非重叠时间缩短了 50% 以上。它通过精准的“延迟”非紧急流,为关键路径上的集合通信腾出了宝贵的带宽“红利”。

5. 资深主编点评

MFS 的价值在于它不是一个纯粹的算法改进,而是对 AI 任务语义与底层网络协议的一次深度解耦与重构。

  • 工业界启示:在构建大规模算力集群时,单纯堆砌带宽(Scale-up)边际效应在递减。MFS 证明了通过软件层面的“阶段感知”调度,可以在现有硬件上挖掘出巨大的 SLO 潜能。
  • 局限性:该方法高度依赖于对计算时间的准确评估。虽然论文中提到 20% 的误差可控,但在极其动态的 Agent 场景下,这种预测挑战依然巨大。

总结: MFS 是 LLM 推理走向毫秒级响应、强实时保障的重要基石,为未来超大规模分布式推理系统的网络协同提供了清晰的蓝图。

Find Similar Papers

Try Our Examples

  • 查找最近其他针对大模型 Prefill 与 Decode 分离(Disaggregated Architecture)架构下网络通信优化的论文。
  • 哪篇论文最早提出了 Least-Laxity-First (LLF) 调度策略,本文是如何将其改造并应用到分布式深度学习推理任务中的?
  • 有哪些研究探讨了将 MFS 中的多阶段流调度思想应用到超大规模 MoE 模型训练中的集合通信优化?
Contents
[SIGCOMM 2025] MFS:攻克 LLM 推理瓶颈,多阶段调度让 TTFT SLO 提升 2.4 倍
1. TL;DR
2. 1. 痛点:被忽视的网络内战
3. 2. 核心直觉:从“暗盒”到“透视”
4. 3. 架构解析:反向多级队列 (RMLQ)
4.1. 3.1 显式截止日期调度 (Stage 3)
4.2. 3.2 隐式截止日期调度 (Stage 1&2)
5. 4. 实验战绩
5.1. 4.1 性能飞跃
5.2. 4.2 为什么有效?
6. 5. 资深主编点评