ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

[ICLR 2025/ArXiv] ActiveUltraFeedback：1/6 数据即达 SOTA，开启偏好对齐的高效主动学习时代

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 ActiveUltraFeedback，一种基于主动学习（Active Learning）的模块化偏好数据生成框架。该框架结合不确定性估计，通过新提出的 DRTS 和 DeltaUCB 采样算法，显著提升了模型对齐的样本效率，在仅使用 1/6 标注量的情况下达到了与 SOTA 静态模型相当的性能。

TL;DR

在 LLM 对齐领域，获取高质量的偏好数据（Preference Data）一直是成本最高的环节。来自 ETH Zurich 的研究团队推出了 ActiveUltraFeedback。它通过将数据采集建模为主动学习过程，利用一种名为“主动 Delta 学习”的策略，实现了惊人的数据效率：仅需原先六分之一的标注量，即可在模型微调和奖励模型训练上超越传统静态采样方法。

痛点深挖：昂贵且低效的“被动”标注

目前主流的偏好数据集（如 UltraFeedback）大多采用静态采样：给模型一个提示词（Prompt），生成 N 个候选，然后随机选两个或选最好的两个给奖励模型/人类打分。

信息冗余：随机抽取的回复对可能质量非常接近，标注员很难区分，模型也学不到东西。
方法僵化：有些方法（如 Delta Learning）必须要求是同一家族的大小模型对比，在低资源或特定专家领域（如医疗、法律）完全无法使用。

作者的核心 Insight 是：偏好学习的关键不在于回复本身有多好，而在于回复对之间的“质量差（Quality Delta）”是否足够明显且具有确定性。

Methodology：ActiveUltraFeedback 架构解析

ActiveUltraFeedback 这是一个循环增强的模块化管线，主要包含五个核心阶段：

多样化生成：从 30 个不同的模型池（涵盖 Llama 3, Qwen 2.5, DeepSeek V3 等）中为同一 Prompt 生成回复。
不确定性奖励预测：使用 ENN (Epistemic Neural Network)。不同于普通奖励模型输出一个死板的分数，ENN 通过多层感知机（MLP）集成，能够输出“分数的均值”和“认知不确定性（标准差）”。
核心采样策略（Active Delta Learning）：
- DRTS (Double Reverse Thompson Sampling)：从后验分布中分别采样一个“最好”和一个“最坏”的回复进行对比，确保捕获最大的质量 Delta，同时兼顾探索（Exploration）。
- DeltaUCB：基于上置信界（UCB），寻找预测胜率最具潜力（最具乐观差异）的回复对。
标注与更新：通过 LLM-as-a-Judge 进行打分，并循环更新奖励模型的参数。

ActiveUltraFeedback 流程架构图

实验与结果：小样本的全面逆袭

1. 样本效率的量化奇迹

实验结果表明，在微调模型（DPO）时，使用 DRTS 或 DeltaUCB 选择的 5k-10k 条数据，其表现就足以压倒使用 60k 条数据的其他所有基线方法。这意味着标注成本直接缩减了一个数量级。

实验结果对比图

2. 算法与数据集的普适性

研究者在 DPO 之外，还测试了 IPO 和 SimPO 算法，并在 Skywork、Tulu 3 等多个 Prompt 数据集上进行了消融实验。结果一致显示：Active Delta Learning 策略（DRTS, DeltaUCB）在各种配置下都极其稳定，且始终显著优于 Random 或传统的 Dueling Bandit 方法。

不同采样策略下的模型分布 上图显示，DTS（传统 Dueling Bandit）倾向于只选最好的模型回复，而本研究提出的 DRTS 能够像人类专家一样，识别出具有高质量落差的样本对。

深度洞察：为什么传统 Dueling Bandit 失效了？

这是一个非常深刻的学术发现：传统的 Dueling Bandit 算法（旨在最小化遗憾或寻找最优回复）在偏好对齐中反而表现不佳。 原因在于： 它们的理论目标是“找到最好的回复”，所以会选两个同样非常优秀的回复进行对比。但对于 DPO 或奖励模型训练来说，两个“同样好”的回复只能提供微弱的学习信号。相反，ActiveUltraFeedback 故意寻找“一好一坏”的组合，这为模型提供了最清晰的差异边界（Decision Boundary）。

总结与局限性

Takeaway：ActiveUltraFeedback 证明了通过引入决策不确定性和质量差分采样，我们可以用极小的代价构建出极高质量的对齐数据集。

局限性：目前由于需要在推理阶段运行几十个 LLM 来生成候选池，计算成本（GPU Hours）仍然较高。虽然标注成本降低了，但前置的生成成本需要平衡。

未来瞻望：作者已经将代码和数据集全部开源，未来的研究方向将聚焦于如何在生成候选时也引入主动选择，从而进一步节省推理资源。

参考资料：

项目地址：https://github.com/lasgroup/ActiveUltraFeedback
偏好数据集：https://huggingface.co/ActiveUltraFeedback

Find Similar Papers

Try Our Examples

查找最近一年内在 RLHF 领域中使用主动学习（Active Learning）或不确定性估计（Uncertainty Estimation）来优化偏好数据采集效率的 SOTA 论文。
哪篇论文最早提出了 Delta Learning Hypothesis (DLH) 理论，本文提到的针对回复对质量差异进行对比学习的方法是如何在 DLH 基础上演进的？
有哪些最新的研究尝试将 Active Learning 框架应用到多模态大模型（如 LLaVA 或 Qwen-VL）的偏好对齐数据收集过程中？

Contents

[ICLR 2025/ArXiv] ActiveUltraFeedback：1/6 数据即达 SOTA，开启偏好对齐的高效主动学习时代

1. TL;DR

2. 痛点深挖：昂贵且低效的“被动”标注

3. Methodology：ActiveUltraFeedback 架构解析

4. 实验与结果：小样本的全面逆袭

4.1. 1. 样本效率的量化奇迹

4.2. 2. 算法与数据集的普适性

5. 深度洞察：为什么传统 Dueling Bandit 失效了？

6. 总结与局限性