Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning

[ICLR 2025] LTD：拒绝盲目猜测，用强化学习通过“吞吐量”定义投机解码新高度

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 LTD (Learning to Draft)，一种基于强化学习的自适应投机解码方法。该方法通过训练两个协同演化的策略网络，动态调整草案模型的生成深度和验证令牌数量，在多个 LLM 上实现了 2.24x 至 4.32x 的推理加速，显著优于 SOTA 方法 Eagle3。

TL;DR

在 LLM 推理加速领域，投机解码（Speculative Decoding）已成为标配。然而，一味追求“高接受率”往往会陷入“草案生成太久”或“验证开销过大”的陷阱。北京大学与微软研究院联合提出的 LTD (Learning to Draft) 撕掉了传统方法中繁琐的启发式规则，直接利用**强化学习（RL）**优化每秒生成的令牌数（Throughput），在 Llama-3、Qwen3 等主流模型上实现了比 SOTA 方案 Eagle3 更高的加速比。

痛点深挖：接受长度不等同于推理速度

投机解码的物理直觉很简单：用一个小模型（Draft Model）先猜几个词，再让大模型（Target Model）一次性验证。目前最好的方法如 Eagle3 倾向于生成复杂的“草案树”来增加命中率。

但问题随之而来：

时间浪费：在简单的语境下，小模型即便不生成那么深的树，大模型也能轻松过关；此时多余的生成步骤纯属浪费。
验证瓶颈：目标模型验证 100 个令牌和验证 10 个令牌的时间是不一样的。如果候选词质量很低，大规模验证反而会拖慢整体进度。
静态配置的无力感：现有方法大多使用固定的树深度（Depth）和验证规模（Size），无法像人类一样根据问题难度动态调整思考深度。

核心直觉：从“猜得准”转向“效率优先”

LTD 的核心贡献在于将吞吐量 $λ_{c} = L_{A} / T_{t o t a l}$ （接受令牌数 / 总耗时）作为强化学习的 Reward。通过这种方式，算法学会了在“多猜一点可能对的词”和“尽快结束这一轮去验证”之间寻求最优解。

1. 协同演化的双策略架构

作者设计了两个轻量级的 MLP 策略：

深度策略 (Depth Policy)：在草案生成的每一步，根据当前令牌的概率分布，决定是“继续（Continue）”还是“停止（Stop）”。
规模策略 (Size Policy)：在生成结束后，根据整棵树的质量，决定挑出多少个最有潜力的令牌送去大模型验证。

模型架构图

2. 迭代式协同训练

为了让两个策略配合默契，LTD 采用了一种“轮流优化”的博弈训练方法：

固定规模策略，优化深度策略，使其适应当前的验证负载。
固定深度策略，优化规模策略，使其学会从不同深度的树中筛选精华。这种 Co-adaptive 的训练方式最终让系统达成了一种协同效应：在面对简单文本时缩减树深度以节省执行时间，而在面对复杂推理时扩展树规模以博取更高的接受率。

实验与结果：全线超越 SOTA

作者在五种大模型上进行了严苛的测试，性能提升令人瞩目：

性能冠冕：在 Qwen3-32B 上，LTD 相比 Eagle3 提升了 36.4% 的吞吐量。
鲁棒性卓越：在传统的动态方法往往失效的“高温采样（Temperature=1.0）”场景下，LTD 依然稳定保持了约 5% 的额外收益。

实验结果对比

深度分析：为什么 LTD 更快？

通过对推理时间的拆解分析发现：LTD 显著降低了**验证阶段（Verification Time）**的开销。以往的方法为了刷高接受率（ $a u$ ），会塞入大量冗余令牌；而 LTD 发现，在某些时刻减少几个预测令牌，虽然看似让单个循环的 $a u$ 降低了，但由于验证时间大幅缩短，整体吞吐量反而上升了。

局限性与展望

尽管 LTD 表现出色，但它目前主要针对树结构投机解码。在未来的工作中，如何将这种 RL 优化思路扩展到诸如“多模型协作投机”或“跨机分布式推理”场景，将是非常有趣的课题。同时，训练策略网络虽然开销极低（不到 30 GPU 小时），但对于零碎任务的冷启动仍有一定的门槛。

总结

LTD 的成功在于它正视了 LLM 推理中的物理时间成本。它告诉我们，最高效的系统不一定是预测最准的，而是最能“见机行事”、在精度与速度之间精准拿捏分寸的。

本文由资深学术技术主编重构，旨在提供对 arXiv:250X.XXXXX 的深度解读。

Find Similar Papers

Try Our Examples

查找最近其他尝试在投机解码中使用强化学习（Reinforcement Learning）来优化端到端推理延迟或吞吐量的论文。
深入研究 Eagle3 框架的架构设计，分析 LTD 方法是如何作为插件式策略在其基础上提升动态决策能力的？
调研未来研究中是否已将此类自适应深度和规模的策略应用到视频生成模型（Video Diffusion Models）等更复杂的自回归生成任务中。

Contents

[ICLR 2025] LTD：拒绝盲目猜测，用强化学习通过“吞吐量”定义投机解码新高度

1. TL;DR

2. 痛点深挖：接受长度不等同于推理速度

3. 核心直觉：从“猜得准”转向“效率优先”

3.1. 1. 协同演化的双策略架构

3.2. 2. 迭代式协同训练

4. 实验与结果：全线超越 SOTA

4.1. 深度分析：为什么 LTD 更快？

5. 局限性与展望

6. 总结