本文推出了 ActiveUltraFeedback,一种基于主动学习(Active Learning)的模块化偏好数据生成框架。该框架结合不确定性估计,通过新提出的 DRTS 和 DeltaUCB 采样算法,显著提升了模型对齐的样本效率,在仅使用 1/6 标注量的情况下达到了与 SOTA 静态模型相当的性能。
TL;DR
在 LLM 对齐领域,获取高质量的偏好数据(Preference Data)一直是成本最高的环节。来自 ETH Zurich 的研究团队推出了 ActiveUltraFeedback。它通过将数据采集建模为主动学习过程,利用一种名为“主动 Delta 学习”的策略,实现了惊人的数据效率:仅需原先六分之一的标注量,即可在模型微调和奖励模型训练上超越传统静态采样方法。
痛点深挖:昂贵且低效的“被动”标注
目前主流的偏好数据集(如 UltraFeedback)大多采用静态采样:给模型一个提示词(Prompt),生成 N 个候选,然后随机选两个或选最好的两个给奖励模型/人类打分。
- 信息冗余:随机抽取的回复对可能质量非常接近,标注员很难区分,模型也学不到东西。
- 方法僵化:有些方法(如 Delta Learning)必须要求是同一家族的大小模型对比,在低资源或特定专家领域(如医疗、法律)完全无法使用。
作者的核心 Insight 是:偏好学习的关键不在于回复本身有多好,而在于回复对之间的“质量差(Quality Delta)”是否足够明显且具有确定性。
Methodology:ActiveUltraFeedback 架构解析
ActiveUltraFeedback 这是一个循环增强的模块化管线,主要包含五个核心阶段:
- 多样化生成:从 30 个不同的模型池(涵盖 Llama 3, Qwen 2.5, DeepSeek V3 等)中为同一 Prompt 生成回复。
- 不确定性奖励预测:使用 ENN (Epistemic Neural Network)。不同于普通奖励模型输出一个死板的分数,ENN 通过多层感知机(MLP)集成,能够输出“分数的均值”和“认知不确定性(标准差)”。
- 核心采样策略(Active Delta Learning):
- DRTS (Double Reverse Thompson Sampling):从后验分布中分别采样一个“最好”和一个“最坏”的回复进行对比,确保捕获最大的质量 Delta,同时兼顾探索(Exploration)。
- DeltaUCB:基于上置信界(UCB),寻找预测胜率最具潜力(最具乐观差异)的回复对。
- 标注与更新:通过 LLM-as-a-Judge 进行打分,并循环更新奖励模型的参数。

实验与结果:小样本的全面逆袭
1. 样本效率的量化奇迹
实验结果表明,在微调模型(DPO)时,使用 DRTS 或 DeltaUCB 选择的 5k-10k 条数据,其表现就足以压倒使用 60k 条数据的其他所有基线方法。这意味着标注成本直接缩减了一个数量级。

2. 算法与数据集的普适性
研究者在 DPO 之外,还测试了 IPO 和 SimPO 算法,并在 Skywork、Tulu 3 等多个 Prompt 数据集上进行了消融实验。结果一致显示:Active Delta Learning 策略(DRTS, DeltaUCB)在各种配置下都极其稳定,且始终显著优于 Random 或传统的 Dueling Bandit 方法。
上图显示,DTS(传统 Dueling Bandit)倾向于只选最好的模型回复,而本研究提出的 DRTS 能够像人类专家一样,识别出具有高质量落差的样本对。
深度洞察:为什么传统 Dueling Bandit 失效了?
这是一个非常深刻的学术发现:传统的 Dueling Bandit 算法(旨在最小化遗憾或寻找最优回复)在偏好对齐中反而表现不佳。 原因在于: 它们的理论目标是“找到最好的回复”,所以会选两个同样非常优秀的回复进行对比。但对于 DPO 或奖励模型训练来说,两个“同样好”的回复只能提供微弱的学习信号。相反,ActiveUltraFeedback 故意寻找“一好一坏”的组合,这为模型提供了最清晰的差异边界(Decision Boundary)。
总结与局限性
Takeaway:ActiveUltraFeedback 证明了通过引入决策不确定性和质量差分采样,我们可以用极小的代价构建出极高质量的对齐数据集。
局限性:目前由于需要在推理阶段运行几十个 LLM 来生成候选池,计算成本(GPU Hours)仍然较高。虽然标注成本降低了,但前置的生成成本需要平衡。
未来瞻望:作者已经将代码和数据集全部开源,未来的研究方向将聚焦于如何在生成候选时也引入主动选择,从而进一步节省推理资源。
参考资料:
- 项目地址:https://github.com/lasgroup/ActiveUltraFeedback
- 偏好数据集:https://huggingface.co/ActiveUltraFeedback
