TARo: Token-level Adaptive Routing for LLM Test-time Alignment

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

TARo: Token-level Adaptive Routing for LLM Test-time Alignment

[Arxiv 2025] TARo：Token 级自适应路由开启 LLM 测试时推理对齐新范式

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 TARo，一种针对大语言模型（LLM）推理任务的 Token 级自适应路由方法。通过在推理过程中动态平衡冻结的主模型与专门的奖励模型（Reward Model）的输出，TARo 在 MATH500 逻辑推理任务上相比基座模型提升了高达 22.4% 的准确率，实现了高效的测试时对齐（Test-time Alignment）。

TL;DR

Meta 与 Pitt 等机构的研究人员提出了一种名为 TARo 的新框架。它不需要对庞大的基座模型进行重训练（Post-training），而是通过一个极其轻量级的“路由器”，在生成每个字（Token）时动态决定：这一步是听“底座模型”的常识，还是听“专家奖励模型”的逻辑。在 MATH500 任务中，这种灵活性带来了惊人的 22.4% 性能跃升。

背景定位

目前提升 LLM 推理能力的手段大多集中在后训练阶段（如强化学习 GRPO）。虽然效果显著，但代价极大：显存爆炸、领域锁定，且容易产生“偏好塌陷”。测试时对齐（Test-time Alignment） 是一条更轻量化的路径，但之前的做法（如 GenARM）太死板——全局用统一的权重分配，就像给所有难度的数学题都配同样比例的草稿纸，显然不够智能。

痛点深挖：为什么“一刀切”的融合会失效？

传统的对齐方法使用固定系数 $α$ ： $π_{g u i d e d} = π_{ba se} + α π_{r e w a r d}$ 实验证明（见下图）， $α$ 的最优值随任务和模型规模剧烈波动。对于某些任务，固定的奖励引导甚至会起到副作用。

性能对硬编码系数 Alpha 的敏感性

核心方法：Token-level Adaptive Routing (TARo)

TARo 的核心直觉是：并非每个 token 都需要同等强度的奖励引导。

1. 推理奖励模型 (Reasoning Reward LLM)

作者首先在 Math-StepDPO-10K 数据集上训练了一个小巧的奖励模型。它的特殊之处在于使用了 Step-wise（步骤级）的偏好对：当一步推导正确而另一步错误时，强迫模型识别其中的逻辑断点。

2. 轻量级路由器设计

这是本文的精华。路由器 $g_{h} e t a$ 在每个解码步 $t$ 接收两个模型的 Logits 信息，输出一个动态的 $\overset{α}{^}_{t} \in (0, 1)$ 。

输入特征：作者权衡了 Hidden States（隐层状态）和 Logits。最终选择了 Logits，因为 Logits 是模型规模无关的（Scale-agnostic），这为后面的“弱到强泛化”埋下了伏笔。
Top-k 策略：为了减小噪音，路由器只关注两个模型输出概率最高的 K 个候选词。

TARo 整体架构图

实验与结果分析

令人惊喜的“弱到强”泛化

最令人振奋的实验是：在 Llama-3-8B 上训练的路由器，可以直接“搬”到 Llama-3-70B 上使用，且效果依然显著。这说明路由器学到的是一种“什么时候该怀疑基座模型”的普适策略，而非特定的参数记忆。

| Method | MATH500 (Acc) | MedXpertQA (OOD) | AlpacaEval (Win Rate) | | :--- | :---: | :---: | :---: | | Base (Llama-3.1-8B) | 32.0 | 13.0 | 17.3 | | GenARM (Fixed Weight) | 49.2 | 11.2 | 10.8 | | TARo (Ours) | 54.4 | 13.2 | 20.8 |

路由器究竟在干什么？

通过对 $α$ 值的可视化分析（见下表），研究者发现：

高 $α$ Token：集中在 rightarrow, Step, critical, Evaluate 等逻辑转折和运算符号上。
低 $α$ Token：集中在 period, students, houses 等背景描述词上。这证明了路由器学会了“逻辑骨架靠奖励模型，自然语言表达靠基座模型”的分工模式。

实验结果对比表格

深度洞察：为什么 TARo 有效？

Inductive Bias 的精准捕捉：推理任务的本质是离散的逻辑跳跃，而非平滑的文本生成。Token 级的路由精准捕捉到了这些“关键节点”。
避免“指令退化”：通过动态路由，当模型生成通用文本时（ $α$ 低），基座模型的预训练知识得以保留，避免了为了逻辑而丢失指令遵循能力的代价。

结论与展望

TARo 提供了一种极具工程价值的思路：我们可能不需要为每个垂直领域都去微调一遍 70B 甚至 400B 的巨型模型。通过训练一系列 1B/8B 规模的领域路由器和奖励专家，我们可以像“外挂组件”一样动态提升巨型模型在数学、医学或编程上的表现。

局限性：目前的奖励模型仍然可能在错误的路径上一条路走到黑，未来引入“回溯（Backtracking）”机制将是更进一步的突破口。

Find Similar Papers

Try Our Examples

查找最近其他关于 LLM 测试时对齐（Test-time Alignment）或推理阶段引导（Inference-time Guidance）的 SOTA 论文。
哪篇论文最早提出了在 LLM 解码阶段使用辅助模型进行 Logits 融合（Logit Warping）的方法，本文与其差异点在何处？
探究是否有研究将类似的自适应路由机制应用到多模态模型（如 VLM）的逻辑推理对齐中？

Contents

[Arxiv 2025] TARo：Token 级自适应路由开启 LLM 测试时推理对齐新范式

1. TL;DR

2. 背景定位

3. 痛点深挖：为什么“一刀切”的融合会失效？

4. 核心方法：Token-level Adaptive Routing (TARo)

4.1. 1. 推理奖励模型 (Reasoning Reward LLM)

4.2. 2. 轻量级路由器设计

5. 实验与结果分析

5.1. 令人惊喜的“弱到强”泛化

5.2. 路由器究竟在干什么？

6. 深度洞察：为什么 TARo 有效？

7. 结论与展望