宪法AI是否比RLHF更有利于价值对齐？

哪种方法在抵御攻击时更安全？

宪法人工智能（Claude）比基于人类反馈的强化学习（ChatGPT）更能抵御复杂的多轮提示攻击，但两者均非完美。在相同条件下对50余种提示攻击的直接对比中，两种模型均完全阻断了简单的一次性攻击（成功率0%）[1]。然而，面对复杂的多轮攻击时，Claude（宪法人工智能）的攻击成功率为17%，而ChatGPT（基于人类反馈的强化学习）则高达22%[1]。这意味着在此场景下，宪法人工智能相较于基于人类反馈的强化学习，成功减少了约23%的攻击。

每种方法易受攻击的类型有所不同。ChatGPT（基于RLHF）更容易受到渐进式语境操控的影响，即攻击者逐步将对话引向有害话题。而Claude（基于宪法AI）则更易受到模仿权威的攻击，即攻击者伪装成有权势的人物[1]。这表明对齐方法决定了具体的安全弱点，因此“更优”的选择取决于你所面临的威胁模型。

哪种方法能更好地处理多样的人类偏好？

标准RLHF在处理多样化偏好时存在根本性问题：它可能将少数群体的观点压缩为多数观点，从而实质上忽视前者。研究人员证明，在RLHF中使用单一奖励模型无法充分代表人类偏好的全貌[3]。一种名为MaxMin-RLHF的新变体在不损害多数群体表现的前提下，将少数群体的胜率提升了超过33%，相较于传统RLHF平均实现了16%的胜率提升[3]。这表明RLHF可以通过改进变得更公平，但标准版本确实存在偏差。

宪法性人工智能在处理多元价值观方面也存在局限性。该方法依赖于一套固定的原则，可能无法涵盖道德多元主义——即不同人群和文化拥有不同伦理框架的现实[2]。这两种方法都面临“规范性困境”，即究竟应嵌入谁的价值观，但RLHF至少可以通过MaxMin-RLHF等方法纳入多元反馈，而宪法性人工智能的原则则更为静态[2][3]。

两种方法都无法解决的更深层问题是什么？

RLHF（基于人类反馈的强化学习）与宪法式AI均存在严重的理论与实践缺陷，而当前尚无任何对齐技术能完全解决这些问题。一项跨学科批评指出，RLHF所追求的“有益、无害、诚实”目标本身存在内在矛盾——例如，最大程度的有益可能与诚实相冲突，而这两者又可能同时与无害相矛盾[4]。该论文认为，通过反馈方法（无论是人类反馈还是AI反馈）实现的对齐，无法涵盖人类伦理的全部复杂性，真正的安全性需要超越单一对齐技术，进行更广泛的社会技术变革[4]。

RLHF存在一种宪法AI能够避免的额外算法偏差。标准RLHF使用数学惩罚项（KL散度正则化），这本质上会压制少数群体的偏好，可能导致“偏好崩塌”——某些群体的价值观被实际忽略[5]。为此，有人提出了名为“偏好匹配RLHF”的新方法，但尚未得到广泛采用[5]。宪法AI由于不优化奖励模型，因此不存在这种特定偏差，但它面临另一个问题：应编码谁的准则，以及如何随着社会价值观的演变更新这些准则[2]。

本文引用的文献

ChatGPT与Claude中的提示注入漏洞与数据泄露问题：迈向更安全的对话式人工智能

宪法人工智能（Claude）在复杂多轮攻击中的成功率为17%，而基于人类反馈的强化学习（RLHF，ChatGPT）为22%，两者呈现出不同的脆弱性模式：ChatGPT更容易受到渐进式上下文操纵的影响，而Claude则更易被模仿权威的攻击所突破。

2025 · Hyun Jung Kim, Sang Hyun Yoo · ICECET

原文

从原则到实践：人工智能伦理与治理中的价值对齐

RLHF（基于人类反馈的强化学习）与宪法式人工智能均面临规范困境，包括道德多元主义与价值聚合问题；该论文呼吁超越单一技术路径，构建多元化、跨学科的对齐研究议程。

2025 · Jianfeng Cao · German Law Journal

原文

MaxMin-RLHF：面向多样化人类偏好的对齐

标准RLHF无法通过单一奖励模型体现多样的人类偏好；而MaxMin-RLHF相比传统RLHF，将少数群体的胜率提升了超过33%，整体胜率提升了16%。

2024 · Souradip Chakraborty, Jiahao Qiu, Hui Yuan, Alec Koppel, Dinesh Manocha, Furong Huang, A. S. Bedi, Mengdi Wang · ICML

原文

有益、无害、诚实？基于人类反馈的强化学习在人工智能对齐与安全中的社会技术局限

RLHF（以及RLAIF）在捕捉人类伦理方面存在根本性局限，包括助益性、无害性与诚实性之间的固有张力；真正的安全需要更广泛的社会技术变革。

2025 · Adam Dahlgren Lindström, Leila Methnani, Lea Krause, Petter Ericson, Íñigo Martinez de Rituerto de Troya, Dimitri Coelho Mollo, Roel Dobbe · Ethics and information technology

原文

关于使用RLHF对齐大语言模型的算法偏差：偏好坍缩与匹配正则化。

RLHF 存在由KL散度正则化导致的固有算法偏差，可能引发“偏好坍缩”现象，即少数群体的偏好被忽视；为此，研究者提出了偏好匹配RLHF以缓解这一问题。

2026 · Jiancong Xiao, Ziniu Li, Xingyu Xie, Emily Getzen, Cong Fang, Qi Long, Weijie J Su · Journal of the American Statistical Association

原文