FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

[NVIDIA] Sol-RL：FP4 探索与 BF16 训练的华丽变奏，扩散模型 RL 对齐提速 4.6x

总结

问题

方法

结果

要点

摘要

本文提出了 Sol-RL，一种专为 text-to-image 扩散模型设计的高效强化学习（RL）对齐框架。该方法引入了 FP4 量化加速 Rollout 探索，并通过“两阶段解耦”架构，在保持 BF16 训练精度的情况下，实现了高达 4.64 倍的收敛加速，显著提升了模型与人类偏好的对齐效果。

TL;DR

在追求扩散模型（Diffusion Models）与人类偏好对齐的路上，Rollout Scaling（增加采样规模） 已被证明是提升性能的“大力出奇迹”良方。然而，面对像 FLUX.1 (12B) 这样的庞然大物，采样成本高得令人发指。NVIDIA 等团队提出的 Sol-RL (Speed-of-light RL) 巧妙利用 NVFP4 量化进行大规模“海选”，再用 BF16 高精度进行“精修”优化。这种硬件与算法的协同设计，在不损失精度的情况下，将对齐速度最高提升了 4.64 倍。

痛点深挖：昂贵的采样与分身乏术的精度

在 RL 训练（尤其是 GRPO 架构）中，为了获得更稳定的梯度信号，我们需要针对每个 Prompt 生成一大批图像（如 96 张），然后从中选出最好和最差的进行对比学习。

这产生了一个尴尬的矛盾：

计算瓶颈迁移：训练过程中，原本耗时的反向传播（Backward）反而成了小头，大规模图像采样（Inference/Rollout）占据了超过 70% 的时间。
精度死局：既然采样慢，用量化加速行吗？不行。前人研究表明，直接用 FP4 等低精度图像训练模型，会引入虚假的伪影和噪声，导致模型学“歪”了，对齐质量断崖式下跌。

核心直觉：语义的“顽强”与权重的“脆弱”

作者发现了一个关键物理直觉：低精度量化虽然会破坏画面的微观细节（像素级误差），但它能完美保留宏观的语义结构。

换句话说，如果一张图在 BF16 下是“高分好图”，那么在 FP4 下它大概率依然是该组中的“相对好图”。实验证明，FP4 采样的奖励排名与 BF16 的相关性高达 0.927。

FP4与BF16排名相关性分析

Sol-RL 方法论：两阶段解耦架构

基于上述发现，Sol-RL 设计了一套“海选-精修”流程：

第一阶段：FP4 高通量探索 (The Scout)

极速采样：将模型量化为 NVFP4，并将 Denoising Steps 压缩（如从 10 步减至 6 步）。
大规模海选：快速生成 96 个候选样本及其初始噪声种子。
排名过滤：通过奖励模型（Reward Model）打分，只留下表现最极端（最强和最弱）的 $K$ 个种子（如 24 个）。

第二阶段：BF16 高保定再生 (The Master)

精准打击：利用筛选出的 $K$ 个优质种子，切换回 BF16 精度重新生成高质量图像。
策略优化：模型仅基于这些“精修”后的高对比度样本进行梯度更新。

Sol-RL 架构图

实验与战绩：全方位的降维打击

研究人员在 SANA-1.6B、FLUX.1-dev 和 SD3.5-Large 等模型上进行了严苛测试。

速度提升：在 FLUX.1 上，Sol-RL 实现了 1.62x 的端到端加速；在收敛效率上，最高达到了 4.64x 的提升。
对齐ceiling：不仅快，而且好。由于实现了更大规模的探索（Exploration Scale），Sol-RL 最终达到的 ImageReward 分数显著高于传统的 DiffusionNFT。

实验结果对比曲线

深度洞察：为什么这很重要？

Sol-RL 的成功在于它深刻理解了 Exploration (探索) 和 Optimization (优化) 在 RL 中的不同需求。

探索阶段：需要的是“直觉”和“速度”，对像素级的精度容忍度高。
优化阶段：需要的是“真理”和“细节”，对数值稳定性要求极高。

这种“软硬结合”的思路（利用 NVIDIA B200 的 NVFP4 硬件特性）预示了未来大规模生成模型训练的新常态：模型训练将不再是单一精度的齐头并进，而是根据任务模块的鲁棒性进行动态精度分配。

局限性与展望

尽管在 T2I 任务上表现优异，但这种基于“排名一致性”的假设在视频生成（T2V）等更复杂的长序列采样中是否依然成立，仍需进一步验证。此外，如何自动化地在不同训练阶段动态调整海选池大小（ $N$ ）与精度步数，也是一个值得探索的方向。

总结： Sol-RL 证明了在算力为王的时代，聪明的算法架构设计可以在不烧更多钱的前提下，触达原本遥不可及的对齐性能边界。

发现相似论文

试试这些示例

查找其他最近试图利用极低比特量化（如 FP4 或 INT4）来加速强化学习中数据收集或推理阶段的论文。
哪篇论文最早探讨了扩散模型中初始噪声种子与最终生成图像奖励排名之间的相关性？
研究如何将这种“两阶段解耦探索”框架应用到视频生成模型或其他多模态 RL 对齐任务中。

[NVIDIA] Sol-RL：FP4 探索与 BF16 训练的华丽变奏，扩散模型 RL 对齐提速 4.6x

1. TL;DR

2. 痛点深挖：昂贵的采样与分身乏术的精度

3. 核心直觉：语义的“顽强”与权重的“脆弱”

4. Sol-RL 方法论：两阶段解耦架构

4.1. 第一阶段：FP4 高通量探索 (The Scout)

4.2. 第二阶段：BF16 高保定再生 (The Master)

5. 实验与战绩：全方位的降维打击

6. 深度洞察：为什么这很重要？

7. 局限性与展望