WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite

宪法AI是否比RLHF更有利于价值对齐?

宪法人工智能与基于人类反馈的强化学习在价值对齐上的比较:哪个更优?来自安全、公平与伦理研究的证据。

直接答案

两种方法各有优劣,并无绝对优劣之分。Claude采用的宪法AI在抵御复杂多轮攻击方面表现更佳(攻击成功率17%,而ChatGPT为22%[1]),但ChatGPT使用的RLHF可通过改进更好地处理多样化偏好,优于常规方法[3]。这两种方法在捕捉人类伦理的完整复杂性方面均存在根本性局限[4],且RLHF存在固有的算法偏差,可能忽视少数群体的偏好[5]。选择取决于您更看重抵御操纵的安全性(宪法AI),还是面向多元用户群体的公平性(改进型RLHF)。

5篇文献引用

本文由 WisPaper 驱动的搜索和论文分析生成。

哪种方法在抵御攻击时更安全?

宪法人工智能(Claude)比基于人类反馈的强化学习(ChatGPT)更能抵御复杂的多轮提示攻击,但两者均非完美。在相同条件下对50余种提示攻击的直接对比中,两种模型均完全阻断了简单的一次性攻击(成功率0%)[1]。然而,面对复杂的多轮攻击时,Claude(宪法人工智能)的攻击成功率为17%,而ChatGPT(基于人类反馈的强化学习)则高达22%[1]。这意味着在此场景下,宪法人工智能相较于基于人类反馈的强化学习,成功减少了约23%的攻击。

每种方法易受攻击的类型有所不同。ChatGPT(基于RLHF)更容易受到渐进式语境操控的影响,即攻击者逐步将对话引向有害话题。而Claude(基于宪法AI)则更易受到模仿权威的攻击,即攻击者伪装成有权势的人物[1]。这表明对齐方法决定了具体的安全弱点,因此“更优”的选择取决于你所面临的威胁模型。

哪种方法能更好地处理多样的人类偏好?

标准RLHF在处理多样化偏好时存在根本性问题:它可能将少数群体的观点压缩为多数观点,从而实质上忽视前者。研究人员证明,在RLHF中使用单一奖励模型无法充分代表人类偏好的全貌[3]。一种名为MaxMin-RLHF的新变体在不损害多数群体表现的前提下,将少数群体的胜率提升了超过33%,相较于传统RLHF平均实现了16%的胜率提升[3]。这表明RLHF可以通过改进变得更公平,但标准版本确实存在偏差。

宪法性人工智能在处理多元价值观方面也存在局限性。该方法依赖于一套固定的原则,可能无法涵盖道德多元主义——即不同人群和文化拥有不同伦理框架的现实[2]。这两种方法都面临“规范性困境”,即究竟应嵌入谁的价值观,但RLHF至少可以通过MaxMin-RLHF等方法纳入多元反馈,而宪法性人工智能的原则则更为静态[2][3]

两种方法都无法解决的更深层问题是什么?

RLHF(基于人类反馈的强化学习)与宪法式AI均存在严重的理论与实践缺陷,而当前尚无任何对齐技术能完全解决这些问题。一项跨学科批评指出,RLHF所追求的“有益、无害、诚实”目标本身存在内在矛盾——例如,最大程度的有益可能与诚实相冲突,而这两者又可能同时与无害相矛盾[4]。该论文认为,通过反馈方法(无论是人类反馈还是AI反馈)实现的对齐,无法涵盖人类伦理的全部复杂性,真正的安全性需要超越单一对齐技术,进行更广泛的社会技术变革[4]

RLHF存在一种宪法AI能够避免的额外算法偏差。标准RLHF使用数学惩罚项(KL散度正则化),这本质上会压制少数群体的偏好,可能导致“偏好崩塌”——某些群体的价值观被实际忽略[5]。为此,有人提出了名为“偏好匹配RLHF”的新方法,但尚未得到广泛采用[5]。宪法AI由于不优化奖励模型,因此不存在这种特定偏差,但它面临另一个问题:应编码谁的准则,以及如何随着社会价值观的演变更新这些准则[2]

本文引用的文献

1

ChatGPT与Claude中的提示注入漏洞与数据泄露问题:迈向更安全的对话式人工智能

宪法人工智能(Claude)在复杂多轮攻击中的成功率为17%,而基于人类反馈的强化学习(RLHF,ChatGPT)为22%,两者呈现出不同的脆弱性模式:ChatGPT更容易受到渐进式上下文操纵的影响,而Claude则更易被模仿权威的攻击所突破。

2

从原则到实践:人工智能伦理与治理中的价值对齐

RLHF(基于人类反馈的强化学习)与宪法式人工智能均面临规范困境,包括道德多元主义与价值聚合问题;该论文呼吁超越单一技术路径,构建多元化、跨学科的对齐研究议程。

3

MaxMin-RLHF:面向多样化人类偏好的对齐

标准RLHF无法通过单一奖励模型体现多样的人类偏好;而MaxMin-RLHF相比传统RLHF,将少数群体的胜率提升了超过33%,整体胜率提升了16%。

4

有益、无害、诚实?基于人类反馈的强化学习在人工智能对齐与安全中的社会技术局限

RLHF(以及RLAIF)在捕捉人类伦理方面存在根本性局限,包括助益性、无害性与诚实性之间的固有张力;真正的安全需要更广泛的社会技术变革。

5

关于使用RLHF对齐大语言模型的算法偏差:偏好坍缩与匹配正则化。

RLHF 存在由KL散度正则化导致的固有算法偏差,可能引发“偏好坍缩”现象,即少数群体的偏好被忽视;为此,研究者提出了偏好匹配RLHF以缓解这一问题。