准确性与公平性之间的权衡是否总是铁律?
简短的回答是:这取决于具体情况。许多研究证实,追求公平性可能会降低准确率,但下降幅度差异巨大。例如,当研究人员修改逻辑回归模型的损失函数,以在抵押贷款数据上强制实现"群体平等"时,模型在种族和性别群体间取得了更公平的结果,但准确率却大幅下降[6]。这表明在该场景下存在明显且痛苦的权衡。另一方面,一项关于学生成绩预测的研究发现,标准机器学习模型往往存在偏见,但应用偏见缓解技术可以在保持可接受准确率的同时减少这些差异[2]。因此,这种权衡并非固定法则,而是一种可以管理的张力——有时甚至能以极小的代价实现平衡。
民意也反映了这种张力。美国一项大规模调查实验发现,当公平但准确性较低的算法与高精度算法之间的准确率差距扩大时,人们对前者的支持度急剧下降;但当高精度算法导致巨大的结果差异时,人们会更优先考虑公平性[1]。这表明,可接受的权衡在一定程度上取决于价值观和具体情境,而不仅仅是数学计算。
能否同时实现高准确度与公平性?
是的,有些方法能比其他方法实现更好的平衡。一种名为“群体感知阈值自适应”的技术,通过在模型训练后为每个群体调整决策阈值来发挥作用。这种后处理方法被证明能够获得非常接近理论上最优的准确性与公平性权衡结果,优于许多其他方法[10]。类似地,名为FairDRO的框架将欠代表群体的重新加权与智能正则化项相结合;它在多个基准测试中持续实现了准确性与公平性的最优权衡[9]。
另一种有前景的方法是改变群体定义本身。与其使用固定的人口统计类别(如种族或年龄),一种名为FairMigration的方法会在训练过程中动态调整群体定义。这使得图神经网络能够在性能与公平性之间实现更好的平衡[7]。即使在医学影像领域,一种将疾病特征与人口统计特征分离的方法,也能在不牺牲准确率的前提下提升公平性,在两个皮肤病学数据集上均优于标准方法[8]。关键在于:权衡确实存在,但巧妙的设计可以缩小这种权衡。
这种权衡是否对所有人伤害相同?
不。强制公平性所带来的准确率损失往往分布不均,对原本就处于弱势的群体打击最大。一项关于家庭医疗风险预测模型的研究发现,尽管该模型整体准确率较高(F1得分为0.84),但其在历史上服务不足的人群中表现更差[3]。这意味着,一个简单的公平性修正可能会降低整体准确率,却仍让最脆弱的群体使用更差的模型。同样,针对AI文本检测器的研究表明,其准确率偏差对非英语母语者的影响尤为严重[4]。
即使是隐私保护技术也可能加剧这一问题。当差分隐私被应用于面部识别模型时,它导致不同人口群体的准确率下降幅度不均,这意味着公平性与准确性之间的权衡因隐私成本而进一步复杂化,且某些群体受到的损害更为严重[5]。这揭示了一个关键细节:不仅要关注平均权衡结果,还需审视其对每个子群体的具体影响。
本文引用的文献
美国公众对算法决策中准确性与公平性权衡的认知
一项美国调查发现,随着准确率差距扩大,公众对公平但准确率较低的算法的支持度急剧下降;但当高准确率算法导致结果出现巨大差异时,人们会更优先考虑公平性[1]。
揭示准确性与公平性之间的权衡
用于预测学生表现的标准机器学习模型常存在偏差,但偏差缓解技术能在保持可接受准确率的同时减少差异[2]。
构建时间序列模型预测居家医疗中的住院风险:开发、准确性与公平性洞见
一项家庭医疗风险预测模型取得了较高准确率(F1=0.84),但在历史上服务不足的人群中表现较差,这凸显了进行公平性调整的必要性[3]。
AI文本检测工具中的准确性与偏差权衡及其对学术出版公平性的影响。
AI文本检测工具在准确性上存在偏差权衡,这种偏差对非母语使用者及特定学科领域的影响尤为显著[5]。
关于人脸识别中的隐私、准确性与公平性权衡
在面部识别模型中引入差分隐私会同时降低准确性和公平性,且这种降低在不同人口群体间存在不均衡现象[7]。
探索二分类中的公平性与准确性权衡:基于修正损失函数的比较分析
一种改进的损失函数(Group Equality BCE)显著提升了抵押贷款数据上的群体公平性,但代价是准确率大幅下降[8]。
面向公平图神经网络的群体迁移方法。
一种名为FairMigration的框架能够在训练过程中动态调整人口统计群体的定义,从而在图神经网络中实现模型性能与公平性的高度平衡[9]。
实现无人口统计信息的皮肤病诊断公平性。
一种将疾病特征与人口统计学特征分离的方法,在不牺牲准确性的前提下提升了皮肤病诊断的公平性,其表现优于标准方法[10]。
FairDRO:通过类别鲁棒优化实现群体公平性正则化。
FairDRO结合了重加权与正则化方法,在多个基准测试中持续实现了准确率与公平性的最优平衡[11]。
面向公平分类的群体感知阈值自适应方法
群体感知阈值自适应作为一种后处理方法,其效果已非常接近理论上的最优准确率-公平性权衡边界[12]。
