哪种方法在抵御攻击时更安全?
宪法人工智能(Claude)比基于人类反馈的强化学习(ChatGPT)更能抵御复杂的多轮提示攻击,但两者均非完美。在相同条件下对50余种提示攻击的直接对比中,两种模型均完全阻断了简单的一次性攻击(成功率0%)[1]。然而,面对复杂的多轮攻击时,Claude(宪法人工智能)的攻击成功率为17%,而ChatGPT(基于人类反馈的强化学习)则高达22%[1]。这意味着在此场景下,宪法人工智能相较于基于人类反馈的强化学习,成功减少了约23%的攻击。
每种方法易受攻击的类型有所不同。ChatGPT(基于RLHF)更容易受到渐进式语境操控的影响,即攻击者逐步将对话引向有害话题。而Claude(基于宪法AI)则更易受到模仿权威的攻击,即攻击者伪装成有权势的人物[1]。这表明对齐方法决定了具体的安全弱点,因此“更优”的选择取决于你所面临的威胁模型。
哪种方法能更好地处理多样的人类偏好?
标准RLHF在处理多样化偏好时存在根本性问题:它可能将少数群体的观点压缩为多数观点,从而实质上忽视前者。研究人员证明,在RLHF中使用单一奖励模型无法充分代表人类偏好的全貌[3]。一种名为MaxMin-RLHF的新变体在不损害多数群体表现的前提下,将少数群体的胜率提升了超过33%,相较于传统RLHF平均实现了16%的胜率提升[3]。这表明RLHF可以通过改进变得更公平,但标准版本确实存在偏差。
宪法性人工智能在处理多元价值观方面也存在局限性。该方法依赖于一套固定的原则,可能无法涵盖道德多元主义——即不同人群和文化拥有不同伦理框架的现实[2]。这两种方法都面临“规范性困境”,即究竟应嵌入谁的价值观,但RLHF至少可以通过MaxMin-RLHF等方法纳入多元反馈,而宪法性人工智能的原则则更为静态[2][3]。
两种方法都无法解决的更深层问题是什么?
RLHF(基于人类反馈的强化学习)与宪法式AI均存在严重的理论与实践缺陷,而当前尚无任何对齐技术能完全解决这些问题。一项跨学科批评指出,RLHF所追求的“有益、无害、诚实”目标本身存在内在矛盾——例如,最大程度的有益可能与诚实相冲突,而这两者又可能同时与无害相矛盾[4]。该论文认为,通过反馈方法(无论是人类反馈还是AI反馈)实现的对齐,无法涵盖人类伦理的全部复杂性,真正的安全性需要超越单一对齐技术,进行更广泛的社会技术变革[4]。
RLHF存在一种宪法AI能够避免的额外算法偏差。标准RLHF使用数学惩罚项(KL散度正则化),这本质上会压制少数群体的偏好,可能导致“偏好崩塌”——某些群体的价值观被实际忽略[5]。为此,有人提出了名为“偏好匹配RLHF”的新方法,但尚未得到广泛采用[5]。宪法AI由于不优化奖励模型,因此不存在这种特定偏差,但它面临另一个问题:应编码谁的准则,以及如何随着社会价值观的演变更新这些准则[2]。
本文引用的文献
ChatGPT与Claude中的提示注入漏洞与数据泄露问题:迈向更安全的对话式人工智能
宪法人工智能(Claude)在复杂多轮攻击中的成功率为17%,而基于人类反馈的强化学习(RLHF,ChatGPT)为22%,两者呈现出不同的脆弱性模式:ChatGPT更容易受到渐进式上下文操纵的影响,而Claude则更易被模仿权威的攻击所突破。
从原则到实践:人工智能伦理与治理中的价值对齐
RLHF(基于人类反馈的强化学习)与宪法式人工智能均面临规范困境,包括道德多元主义与价值聚合问题;该论文呼吁超越单一技术路径,构建多元化、跨学科的对齐研究议程。
MaxMin-RLHF:面向多样化人类偏好的对齐
标准RLHF无法通过单一奖励模型体现多样的人类偏好;而MaxMin-RLHF相比传统RLHF,将少数群体的胜率提升了超过33%,整体胜率提升了16%。
有益、无害、诚实?基于人类反馈的强化学习在人工智能对齐与安全中的社会技术局限
RLHF(以及RLAIF)在捕捉人类伦理方面存在根本性局限,包括助益性、无害性与诚实性之间的固有张力;真正的安全需要更广泛的社会技术变革。
关于使用RLHF对齐大语言模型的算法偏差:偏好坍缩与匹配正则化。
RLHF 存在由KL散度正则化导致的固有算法偏差,可能引发“偏好坍缩”现象,即少数群体的偏好被忽视;为此,研究者提出了偏好匹配RLHF以缓解这一问题。
