“强化学习从人类反馈中能否扩展到超人类AI？”

什么是RLHF，它已在哪些领域取得超人类成果？

基于人类反馈的强化学习（RLHF）是一种技术，通过让人类提供评分或修正等反馈来训练AI智能体，尤其适用于目标难以用数学方式定义的情况。例如，在训练ChatGPT时，人类的偏好有助于模型生成更有用且更安全的回答[1]。这种“人在回路”的方法已被证明有效，但其可扩展性取决于人类能否可靠地判断AI的表现。

在狭窄且定义明确的领域中，基于人类反馈的强化学习（RLHF）已能实现超越人类水平的AI。2020年，名为Pluribus的AI在六人无限注德州扑克中击败了顶尖人类职业选手，这被视为里程碑事件，因为多人扑克曾被认为是AI领域的重大挑战[5]。同样在2022年，一套深度学习系统在从电子显微镜图像重建三维神经回路方面超越了人类精度，其在SNEMI3D挑战赛中的得分远高于预估的人类基准线[3]。这些案例表明，当任务范围受限且人类反馈能被精确界定（例如赢得一手扑克牌或准确识别神经元边界）时，RLHF可扩展至超人类水平。

人类的瓶颈：AI反馈能否取代人类反馈？

扩展RLHF的主要障碍在于，收集高质量的人类反馈既昂贵又耗时，尤其是在人类并非专家的任务中。2023年的一项研究直接将RLHF与另一种名为“基于AI反馈的强化学习”（RLAIF）的方法进行了对比，该方法使用现成的大型语言模型生成偏好标签，而非依赖人类[2]。在摘要生成、有益对话和无害对话等任务中，RLAIF的表现与RLHF相当——这意味着AI生成的反馈几乎与人类反馈一样好，而成本却低得多[2]。这表明，人类这一瓶颈可以被部分绕过。

然而，AI反馈仍然依赖于一个最终由人类设计目标塑造的奖励模型。同一研究发现，一种名为直接RLAIF的技术——跳过奖励模型，直接使用AI的原始输出作为奖励——实际上优于标准RLAIF[2]。这表明，尽管AI反馈可以规模化，但它仍然依赖于人类定义的目标。关于人在回路强化学习的调查强调，人类在定义任务、评估智能体以及确保安全性方面仍然不可或缺，尤其是在高风险应用中[1]。因此，瓶颈从收集反馈转向了设计正确的奖励结构。

根本局限：RLHF能否引导超越人类理解的AI？

最根本的挑战在于，RLHF要求人类评估AI的行为，但一旦AI在某个领域超越人类水平，人类可能就不再具备合格的判断能力。例如，在扑克案例中，AI学会了以连顶尖玩家都难以持续应对的方式进行诈唬和制定策略[5]。如果AI的推理过程变得难以理解，或其所用策略超出人类认知范围，人类的反馈就会变得不可靠——这一难题在关于超人类AI的哲学分析中已有提及[4]。

这就形成了一个悖论：RLHF在人类能够提供准确反馈时效果最佳，但超人类AI的定义本身就意味着其能力超越了人类。2024年关于人类参与式强化学习的调查指出，可解释性方法对于弥合这一差距至关重要——即使人类无法直接评估AI的决策，这些方法也能帮助人类理解并信任AI的判断[1]。若缺乏此类方法，RLHF可能会遭遇瓶颈，即人类反馈过于嘈杂或缓慢，难以引导模型进一步优化。因此，尽管RLHF在狭窄任务中能实现超人类表现，但要将其扩展至通用超人类智能，很可能需要依赖AI自我反馈或可解释奖励模型等超越当前人类参与式框架的新技术。

本文引用的文献

人在回路强化学习：需求、挑战与机遇的综述与立场

人在回路强化学习本质上是一种以人为中心的范式；可解释性方法对于将其扩展至超人类人工智能至关重要，尤其是在人类反馈变得不可靠的情况下。

2024 · Carl Orge Retzlaff, Srijita Das, Christabel Wayllace, Payam Mousavi, Mohammad Afshari, Tianpei Yang, Anna Saranti, Alessa Angerschmid, Matthew E. Taylor, Andreas Holzinger · J. Artif. Intell. Res.

原文

RLAIF 与 RLHF：利用人工智能反馈扩展基于人类反馈的强化学习

RLAIF（利用AI生成的偏好）在摘要生成和对话任务中取得了与RLHF相当的性能，而直接RLAIF甚至优于标准RLAIF，这表明AI反馈虽可规模化，但仍依赖于人类设计的奖励模型。

2023 · Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash · ICML

原文