本文提出了 LTD (Learning to Draft),一种基于强化学习的自适应投机解码方法。该方法通过训练两个协同演化的策略网络,动态调整草案模型的生成深度和验证令牌数量,在多个 LLM 上实现了 2.24x 至 4.32x 的推理加速,显著优于 SOTA 方法 Eagle3。
TL;DR
在 LLM 推理加速领域,投机解码(Speculative Decoding)已成为标配。然而,一味追求“高接受率”往往会陷入“草案生成太久”或“验证开销过大”的陷阱。北京大学与微软研究院联合提出的 LTD (Learning to Draft) 撕掉了传统方法中繁琐的启发式规则,直接利用**强化学习(RL)**优化每秒生成的令牌数(Throughput),在 Llama-3、Qwen3 等主流模型上实现了比 SOTA 方案 Eagle3 更高的加速比。
痛点深挖:接受长度不等同于推理速度
投机解码的物理直觉很简单:用一个小模型(Draft Model)先猜几个词,再让大模型(Target Model)一次性验证。目前最好的方法如 Eagle3 倾向于生成复杂的“草案树”来增加命中率。
但问题随之而来:
- 时间浪费:在简单的语境下,小模型即便不生成那么深的树,大模型也能轻松过关;此时多余的生成步骤纯属浪费。
- 验证瓶颈:目标模型验证 100 个令牌和验证 10 个令牌的时间是不一样的。如果候选词质量很低,大规模验证反而会拖慢整体进度。
- 静态配置的无力感:现有方法大多使用固定的树深度(Depth)和验证规模(Size),无法像人类一样根据问题难度动态调整思考深度。
核心直觉:从“猜得准”转向“效率优先”
LTD 的核心贡献在于将吞吐量 (接受令牌数 / 总耗时)作为强化学习的 Reward。通过这种方式,算法学会了在“多猜一点可能对的词”和“尽快结束这一轮去验证”之间寻求最优解。
1. 协同演化的双策略架构
作者设计了两个轻量级的 MLP 策略:
- 深度策略 (Depth Policy):在草案生成的每一步,根据当前令牌的概率分布,决定是“继续(Continue)”还是“停止(Stop)”。
- 规模策略 (Size Policy):在生成结束后,根据整棵树的质量,决定挑出多少个最有潜力的令牌送去大模型验证。

2. 迭代式协同训练
为了让两个策略配合默契,LTD 采用了一种“轮流优化”的博弈训练方法:
- 固定规模策略,优化深度策略,使其适应当前的验证负载。
- 固定深度策略,优化规模策略,使其学会从不同深度的树中筛选精华。 这种 Co-adaptive 的训练方式最终让系统达成了一种协同效应:在面对简单文本时缩减树深度以节省执行时间,而在面对复杂推理时扩展树规模以博取更高的接受率。
实验与结果:全线超越 SOTA
作者在五种大模型上进行了严苛的测试,性能提升令人瞩目:
- 性能冠冕:在 Qwen3-32B 上,LTD 相比 Eagle3 提升了 36.4% 的吞吐量。
- 鲁棒性卓越:在传统的动态方法往往失效的“高温采样(Temperature=1.0)”场景下,LTD 依然稳定保持了约 5% 的额外收益。

深度分析:为什么 LTD 更快?
通过对推理时间的拆解分析发现:LTD 显著降低了**验证阶段(Verification Time)**的开销。 以往的方法为了刷高接受率(),会塞入大量冗余令牌;而 LTD 发现,在某些时刻减少几个预测令牌,虽然看似让单个循环的 降低了,但由于验证时间大幅缩短,整体吞吐量反而上升了。
局限性与展望
尽管 LTD 表现出色,但它目前主要针对树结构投机解码。在未来的工作中,如何将这种 RL 优化思路扩展到诸如“多模型协作投机”或“跨机分布式推理”场景,将是非常有趣的课题。同时,训练策略网络虽然开销极低(不到 30 GPU 小时),但对于零碎任务的冷启动仍有一定的门槛。
总结
LTD 的成功在于它正视了 LLM 推理中的物理时间成本。它告诉我们,最高效的系统不一定是预测最准的,而是最能“见机行事”、在精度与速度之间精准拿捏分寸的。
本文由资深学术技术主编重构,旨在提供对 arXiv:250X.XXXXX 的深度解读。
