本文推出了 RubricBench,一个包含 1,147 对高质量偏好对比的基准测试集,旨在评估奖励模型(RM)生成和遵循评估细则(Rubric)的能力。研究发现,即使是 SOTA 模型,在执行专家级评估细则时,相比于自生成细则,其评估准确率能提升约 27%。
TL;DR
在 LLM 对齐的竞赛中,我们一直假设模型具备“裁判”的直觉。然而,CityU 与腾讯混元团队的最新研究 RubricBench 泼了一盆冷水:即使是最强的推理模型,在自发制定评估细则(Rubric)时也存在严重的认知偏差。研究表明,仅通过提供高质量的人工细则,就能让同一个模型的评估准确率暴增 27%。这意味着,当前的瓶颈不在于模型的“执行力”,而在于其“标准制定能力”。
核心痛点:为什么我们的裁判总是被“带节奏”?
当前的奖励模型(Reward Models, RMs)正面临严重的**奖励黑客(Reward Hacking)**问题。主要表现为:
- 表面偏见 (Surface Bias):模型倾向于给话多(Verbosity)、格式好看(Formatting)的回复打高分,即使内容牛头不对马嘴。
- 认知错位:在处理“把 SQL 转成 Mongo”这类在某些场景下不可能完成的任务时,模型会因为对方写出了一堆看似专业的伪代码而给出好评,却惩罚了诚实拒绝的回复。
现有的 Benchmark(如 RewardBench)由于题目过于简单,已经无法区分高性能模型之间的这些微妙差异。
RubricBench:为奖励模型量身定制的“大考”
为了精准定位问题,作者构建了 RubricBench。它的独特之处在于:
- 恶意过滤:专门挑选那些“看起来很对但由于逻辑错误而失败”的回复。
- 指令驱动的原子化细则:每个样本都配有专家标注的、基于二进制(Yes/No)判断的细则清单(Checklist)。

方法论:细则差距(The Rubric Gap)
作者设计了三种对比实验方案:
- Vanilla:模型直接盲猜谁更好。
- Self-Generated Rubrics:模型先自己想一下标准,再根据标准评分(当前主流 RAG 或 Agent 评估方法)。
- Human-Annotated Rubrics (Oracle):给模型喂入专家写好的标准。
关键发现:Scaling Compute 救不了认知缺失
实验发现了一个令人沮丧的结论:单纯增加测试时的采样数量(Sampling)或迭代重写(Refinement)无法提升模型自建细则的质量。

如上图所示,当使用模型自生成的细则时,性能曲线在 58% 左右陷入瓶颈。而一旦引入人工细则,准确率立即跃升至 85% 左右。这说明模型的缺陷不在于“看不出回复好坏”,而在于“不知道该看哪里”。
深度洞察:价值倒置(Value Inversion)
论文通过案例展示了这种认知错位的恐怖。例如在由于信息缺失而无法计算的数学理财题中:
- 人类标准:要求回复展现“认知谦卑”,即承认无法计算并要求补充信息。
- 模型标准:执着于“数学参与度”,即使对方编造了年化利率进行幻觉计算,模型也会因为“它计算了”而给出好评。
这种**注意力错位(Attention Displacement)**导致模型在次要细节(如风格、语气)上花费了过多权重,却丢掉了核心的逻辑性和安全性。
结论与启示
RubricBench 的出现标志着奖励建模进入了“结构化对齐”的时代。
- Rubric 质量是关键:对于开发者而言,指望 LLM 完全自主评估是不现实的,注入人类的先验知识(如高层级的 Evaluation Principles)仍然是 SOTA 实践的必经之路。
- 从“生成”转向“对齐”:未来的奖励模型不应该只卷参数量,而应该卷如何更好地吸收人类的评估优先级(Priority Hierarchy)。
虽然即便有了完美细则,模型评估仍存在约 15% 的执行失效(如识别了错误却没在最终分数中扣除),但这已经为我们指明了提升 AI 治理可靠性的明确路径。
