LLMs能否完全与人类价值观和伦理对齐？

为何大语言模型在伦理问题上给出不一致的答案？

即便是最先进的大语言模型，也无法保持稳定的道德立场。在2025年一项使用TriEthix基准测试的研究中，研究人员让模型面对30个现实道德困境，结果发现，当被要求为自己的选择提供理由或重新考虑时，所有模型都改变了其伦理立场[2]。该研究测量了“立场翻转率”——即模型推翻自身决策的频率——并发现不同模型家族之间，甚至同一模型的不同版本之间，都存在显著差异。例如，侧重推理的模型比非推理模型更为一致，但没有任何模型能做到完全稳定。这意味着，如果你用略有不同的措辞向大语言模型提出同一个伦理问题两次，你可能会得到相互矛盾的答案，而这正是实现可靠对齐的根本障碍。

除了前后不一致的问题，大语言模型还表现出系统性的价值观偏差。一项2024年研究基于施瓦茨基本价值观理论，让四个主流大语言模型（Bard、Claude 2、GPT-3.5、GPT-4）完成标准化价值观问卷，并将其结果与来自49个国家53472人的数据进行比较[4]。所有四个模型对普世主义和个人自主的重视程度远高于人类，而对成就、权力和安全的强调则相对较低。这些偏差并非随机——它们反映了模型在训练和微调过程中被植入的价值观。当这些模型面对心理健康困境时，其带有偏差的价值观特征能够强有力地预测其决策，表明这些价值观模式确实在塑造现实世界的输出结果。

大型语言模型能否适应不同的文化价值观？

当前的价值观对齐方法往往导致模型产生表面上的遵从，而非真正的跨文化理解。2025年的一项研究提出了一个五步伦理推理框架，该框架提升了大型语言模型在SafeWorld基准测试中的表现——这一测试专门评估模型对区域价值观的对齐能力[1]。该框架包括情境事实收集、社会规范识别和伦理影响分析等步骤，帮助模型生成更具文化适应性的推理。然而，即便有了这一改进，模型在面对不同地区人类价值观的复杂性和情境依赖性时仍显吃力。研究作者指出，对齐方法往往未能解决一个关键问题：在一种文化中被视为合乎伦理的行为，在另一种文化中可能恰恰相反。

文化偏见的问题因研究者所称的“标准漂移”而进一步加剧。在一项2024年针对名为EvalGen的界面的研究中——该界面旨在帮助用户根据自身偏好调整大语言模型的评估——研究者发现，用户需要标准来对输出进行评分，但评分过程又反过来帮助用户明确其标准，形成了一种循环依赖关系[3]。部分评估标准甚至似乎取决于所观察到的具体大语言模型输出，而非事先可定义。这意味着对齐并非一次性修正，而是一个因用户和情境而异的迭代性主观过程。该研究对任何假设评估标准可独立于模型输出的方法提出了严峻质疑。

完全对齐在理论上甚至可能吗？

2024年的一项理论分析认为，完全实现伦理对齐可能是不可能的，因为不同的伦理框架在根本层面上存在冲突[6]。该论文区分了康德伦理学（将人视为目的而非手段）与功利主义或公正分配理论（关注总体结果）。它提出一个假设：随着大语言模型与康德原则及公正分配原则的对齐程度提高，两者之间的价值冲突会加剧，因为自注意力机制可能根据提示语的措辞方式，在统计上将同一角色更倾向于视为“类人”或“类资源”。这表明对齐并非一个需要解决的问题，而是一个需要权衡管理的取舍。

实证研究支持了这一理论上的担忧。2024年一项针对GPT-3.5的研究，通过反复向模型输入道德故事并汇总其回答，构建了一个人机价值对齐指标[5]。研究发现，模型在不同价值类别上的对齐程度存在差异，且其输出缺乏一致性。作者得出结论：理解模型的对齐本质上是一个可解释性问题——在评估模型对齐之前，我们需要先理解这些复杂模型的行为方式。除非我们能够在多样化的伦理场景中可靠地预测并控制模型行为，否则完全对齐仍遥不可及。

本文引用的文献

通过伦理推理实现大型语言模型与多元人类价值观的对齐

一个五步伦理推理框架在SafeWorld基准测试中提升了大型语言模型与多元人类价值观的对齐程度，但研究指出，当前方法往往导致表面上的遵从，而非真正的伦理理解。

2025 · Jiahao Wang, Songkai Xue, Jinghui Li, Xiaozhen Wang · Proceedings of the AAAI/ACM Conference on AI Ethics and Society

原文

TriEthix：面向基础模型伦理对齐的三元基准

对前沿大语言模型进行30个道德困境的测试发现，所有模型在压力下均改变了其伦理立场，且不同模型家族与规模之间的立场翻转一致性系数存在显著差异。

2025 · Albert Barqué-Duran

原文

谁来验证验证者？让基于大语言模型的评估与人类偏好对齐

混合主动界面（EvalGen）揭示了“标准漂移”现象——用户需要标准来评估输出，但评估输出又有助于定义标准——这表明对齐过程是主观且迭代的。

2024 · Shreya Shankar, J. D. Zamfirescu-Pereira, Bjoern Hartmann, Aditya G. Parameswaran, Ian Arawjo · UIST

原文

评估大语言模型与人类价值观在心理健康整合中的一致性：基于施瓦茨基本价值观理论的横断面研究。

四个大语言模型（Bard、Claude 2、GPT-3.5、GPT-4）展现出的价值观轮廓，与来自49个国家的53,472名人类存在显著差异：它们更强调普世主义与自我导向，而相对弱化成就、权力与安全。

2024 · Dorit Hadar-Shoval, Kfir Asraf, Yonathan Mizrachi, Yuval Haber, Zohar Elyoseph · JMIR mental health

原文

测量大型语言模型中人类与人工智能的价值对齐

反复使用道德故事对GPT-3.5进行提示后发现，该模型与人类价值观的契合度在不同价值类别间存在差异，且缺乏一致性，这使得对齐评估成为一个可解释性问题。

2024 · Hakim Norhashim, Jungpil Hahn · AIES (1)

原文

学习何时不衡量：理论化大语言模型中的伦理对齐

一项理论分析认为，随着大语言模型（LLM）与康德伦理学及公正分配理论的对齐程度不断提升，两者之间的价值冲突可能加剧，原因在于自注意力机制会根据提示词将角色更倾向于视为“人”或“资源”。

2024 · William Rathje · AIES (1)

原文