WisPaper
WisPaper
Search
QA
Pricing
TrueCite
[ICLR 2025/ArXiv] ActiveUltraFeedback:1/6 数据即达 SOTA,开启偏好对齐的高效主动学习时代
Summary
Problem
Method
Results
Takeaways
Abstract

本文推出了 ActiveUltraFeedback,一种基于主动学习(Active Learning)的模块化偏好数据生成框架。该框架结合不确定性估计,通过新提出的 DRTS 和 DeltaUCB 采样算法,显著提升了模型对齐的样本效率,在仅使用 1/6 标注量的情况下达到了与 SOTA 静态模型相当的性能。

TL;DR

在 LLM 对齐领域,获取高质量的偏好数据(Preference Data)一直是成本最高的环节。来自 ETH Zurich 的研究团队推出了 ActiveUltraFeedback。它通过将数据采集建模为主动学习过程,利用一种名为“主动 Delta 学习”的策略,实现了惊人的数据效率:仅需原先六分之一的标注量,即可在模型微调和奖励模型训练上超越传统静态采样方法。

痛点深挖:昂贵且低效的“被动”标注

目前主流的偏好数据集(如 UltraFeedback)大多采用静态采样:给模型一个提示词(Prompt),生成 N 个候选,然后随机选两个或选最好的两个给奖励模型/人类打分。

  1. 信息冗余:随机抽取的回复对可能质量非常接近,标注员很难区分,模型也学不到东西。
  2. 方法僵化:有些方法(如 Delta Learning)必须要求是同一家族的大小模型对比,在低资源或特定专家领域(如医疗、法律)完全无法使用。

作者的核心 Insight 是:偏好学习的关键不在于回复本身有多好,而在于回复对之间的“质量差(Quality Delta)”是否足够明显且具有确定性。

Methodology:ActiveUltraFeedback 架构解析

ActiveUltraFeedback 这是一个循环增强的模块化管线,主要包含五个核心阶段:

  1. 多样化生成:从 30 个不同的模型池(涵盖 Llama 3, Qwen 2.5, DeepSeek V3 等)中为同一 Prompt 生成回复。
  2. 不确定性奖励预测:使用 ENN (Epistemic Neural Network)。不同于普通奖励模型输出一个死板的分数,ENN 通过多层感知机(MLP)集成,能够输出“分数的均值”和“认知不确定性(标准差)”。
  3. 核心采样策略(Active Delta Learning)
    • DRTS (Double Reverse Thompson Sampling):从后验分布中分别采样一个“最好”和一个“最坏”的回复进行对比,确保捕获最大的质量 Delta,同时兼顾探索(Exploration)。
    • DeltaUCB:基于上置信界(UCB),寻找预测胜率最具潜力(最具乐观差异)的回复对。
  4. 标注与更新:通过 LLM-as-a-Judge 进行打分,并循环更新奖励模型的参数。

ActiveUltraFeedback 流程架构图

实验与结果:小样本的全面逆袭

1. 样本效率的量化奇迹

实验结果表明,在微调模型(DPO)时,使用 DRTS 或 DeltaUCB 选择的 5k-10k 条数据,其表现就足以压倒使用 60k 条数据的其他所有基线方法。这意味着标注成本直接缩减了一个数量级。

实验结果对比图

2. 算法与数据集的普适性

研究者在 DPO 之外,还测试了 IPO 和 SimPO 算法,并在 Skywork、Tulu 3 等多个 Prompt 数据集上进行了消融实验。结果一致显示:Active Delta Learning 策略(DRTS, DeltaUCB)在各种配置下都极其稳定,且始终显著优于 Random 或传统的 Dueling Bandit 方法。

不同采样策略下的模型分布 上图显示,DTS(传统 Dueling Bandit)倾向于只选最好的模型回复,而本研究提出的 DRTS 能够像人类专家一样,识别出具有高质量落差的样本对。

深度洞察:为什么传统 Dueling Bandit 失效了?

这是一个非常深刻的学术发现:传统的 Dueling Bandit 算法(旨在最小化遗憾或寻找最优回复)在偏好对齐中反而表现不佳。 原因在于: 它们的理论目标是“找到最好的回复”,所以会选两个同样非常优秀的回复进行对比。但对于 DPO 或奖励模型训练来说,两个“同样好”的回复只能提供微弱的学习信号。相反,ActiveUltraFeedback 故意寻找“一好一坏”的组合,这为模型提供了最清晰的差异边界(Decision Boundary)。

总结与局限性

Takeaway:ActiveUltraFeedback 证明了通过引入决策不确定性和质量差分采样,我们可以用极小的代价构建出极高质量的对齐数据集。

局限性:目前由于需要在推理阶段运行几十个 LLM 来生成候选池,计算成本(GPU Hours)仍然较高。虽然标注成本降低了,但前置的生成成本需要平衡。

未来瞻望:作者已经将代码和数据集全部开源,未来的研究方向将聚焦于如何在生成候选时也引入主动选择,从而进一步节省推理资源。


参考资料:

  • 项目地址:https://github.com/lasgroup/ActiveUltraFeedback
  • 偏好数据集:https://huggingface.co/ActiveUltraFeedback

Find Similar Papers

Try Our Examples

  • 查找最近一年内在 RLHF 领域中使用主动学习(Active Learning)或不确定性估计(Uncertainty Estimation)来优化偏好数据采集效率的 SOTA 论文。
  • 哪篇论文最早提出了 Delta Learning Hypothesis (DLH) 理论,本文提到的针对回复对质量差异进行对比学习的方法是如何在 DLH 基础上演进的?
  • 有哪些最新的研究尝试将 Active Learning 框架应用到多模态大模型(如 LLaVA 或 Qwen-VL)的偏好对齐数据收集过程中?
Contents
[ICLR 2025/ArXiv] ActiveUltraFeedback:1/6 数据即达 SOTA,开启偏好对齐的高效主动学习时代
1. TL;DR
2. 痛点深挖:昂贵且低效的“被动”标注
3. Methodology:ActiveUltraFeedback 架构解析
4. 实验与结果:小样本的全面逆袭
4.1. 1. 样本效率的量化奇迹
4.2. 2. 算法与数据集的普适性
5. 深度洞察:为什么传统 Dueling Bandit 失效了?
6. 总结与局限性