总结性评估提升分数,但形成性评估预测谁需要帮助
如果你的目标是让学生在特定考试中取得更高分数,那么总结性评估(有评分、高风险的考试)显然比形成性评估(低风险、仅提供反馈的测验)更有效。一项2025年针对荷兰四所大学1894名医学生的大型研究发现,当同一项国家药理学测试被用作总结性评估时,平均得分为84.3%,通过率为60.4%;而当它被用作形成性评估时,平均得分降至67.5%,通过率暴跌至仅5.9%[1]。这相当于分数上17个百分点的差距,以及通过率上十倍的差异——影响极为显著。原因很简单:当考试风险高时,学生会更加努力学习。
然而,如果你的目标是在期末考试前识别出哪些学生有不及格风险,形成性评估则更具价值。一项针对82名一年级医学生的2024年研究发现,形成性评估(以及后续的总结性评估)的成绩能够以较高准确度预测期末考试成绩(R=0.76,即最终成绩中58%的差异可由前期评估解释)。但关键在于,形成性评估本身并非最强预测指标——具有统计显著性的实际上是后续的总结性评估(系列中的第二次和第三次)[2]。这意味着形成性评估是有效的早期预警信号,但需要与后期更正式的评估相结合,才能可靠地标记出学习困难的学生。
2023年另一项针对250名一年级医学生的研究证实了这一规律:在形成性评估中得分超过50%的学生,其后续总结性考试的成绩显著高于跳过或未通过形成性评估的学生。这一差异具有统计学意义(P < 0.05),表明并非偶然因素所致[5]。因此,形成性评估如同煤矿中的金丝雀——虽不能保证高分,却能可靠地识别出需要额外支持的学生。
将形成性评估与总结性评估相结合,效果优于单独使用其中任何一种。
最有效的方法并非二择其一,而是设计一个协调运用两者的评估体系。2022年一项牙科教育研究测试了这样一种模式:学生在某门课程结束时完成形成性评估(依据SOLO分类法——该框架将答案划分为错误、描述性或关联性/深层理解等层次——提供关于其理解水平的详细反馈),随后在后续课程中进行总结性评估。结果显示:大多数学生在两次评估之间的回答发展到了更高的理解层次[4]。形成性反馈并非仅仅给出分数——它精确告知每位学生其思维在何处流于浅薄,而总结性评估则检验他们是否深化了理解。这种相互依存关系至关重要:形成性评估引导学习,总结性评估则认证学习成果。
一项2023年兽医学教育研究测试了一种巧妙的混合评估方式——“现场即兴展示评估”(OTSPA)。这是一种低权重终结性评估,但由于在支持性环境中进行,学生感觉它更像形成性评估。学生需准备所有课题,但当天仅随机抽取部分进行考核。79.6%的学生表示,备考过程加深了他们对知识的理解;80.4%的学生认为,这提升了他们的沟通能力。值得注意的是,这种低风险终结性评估的成绩与最终书面终结性评估的成绩呈正相关(在全部三个测试模块中均呈现虽小但显著的相关性)[3]。这表明,即使低风险的终结性评估也能发挥形成性作用——在避免高风险考试带来的巨大压力的同时,为学生提供反馈,并仍能预测后续学业表现。
要点:不要将形成性评估与总结性评估对立起来。尽早并频繁地使用形成性评估,以提供反馈并识别学习困难的学生。在后期使用总结性评估,以确认学习成果并激励学生努力。当两者协同设计时,它们能够相互强化。
效果取决于评估体系——项目式评估与传统评估
同一项评估,其表现可能因所处的整体评估体系不同而大相径庭。2025年荷兰的一项研究比较了三种体系:传统终结性评估(高风险、有评分)、传统形成性评估(低风险、无评分)以及程序性评估(将多项低风险评估综合起来做出整体判断,不依赖任何单一高风险测试)。结果令人瞩目:当学校在传统体系内从形成性评估转向终结性评估时,分数跃升了14.4个百分点,通过率飙升了42.3个百分点[1]。然而,当学校从传统终结性体系转向程序性体系(同一测试变为非高风险)时,分数下降了3.3个百分点,通过率下降了14.2个百分点[1]。
这意味着形成性评估与终结性评估的“有效性”并非固定属性——它取决于整个项目的文化背景和利害关系。在传统体系中,学生习惯于高风险考试,若将评估改为形成性(不计分),可能会大幅降低学生的投入度和表现。但在项目化体系中,多次低风险评估已成为常态,同样的测试仍能激励学习,而不会出现同样的效果衰减。关键在于一致性:利害关系与反馈必须与系统的整体设计相匹配。
对于教育工作者而言:如果你身处一个传统且以考试为导向的文化环境中,终结性评价往往能带来更高的分数。如果你正在构建一个程序化评价体系,则可以有效运用形成性评价,但需要精心设计整个系统,以维持学生的学习动力。
本文引用的文献
总结性、形成性或程序性评估对荷兰国家药物治疗评估的影响:一项回顾性多中心研究。
终结性评估在传统课程中产生的分数(84.3% 对 67.5%)和通过率(60.4% 对 5.9%)均显著高于形成性评估;从形成性评估转为终结性评估后,分数提升了14.4个百分点[1]。
早期识别低分学生:形成性评估与总结性评估的作用
形成性评估与总结性评估共同预测了期末考试成绩(R=0.76),但仅后期的总结性评估(第二次和第三次)具有统计显著性[2]。
现场展示型评估(OTSPA):学生对这一兼具形成性评估特点的新型终结性评估的感知及其预测价值
79.6%的学生认为低风险终结性评估(OTSPA)有助于促进理解,且该评估与期末笔试成绩之间呈现虽小但显著的正相关关系[3]。
基于SOLO分类法的形成性与终结性评估相结合的评估模型
采用形成性评估结合SOLO分类法反馈,再辅以总结性评估的混合模式显示,大多数学生在两次评估之间达到了更高层次的理解水平[4]。
将形成性评估作为能力本位医学教育一部分的实施对总结性评估效果的影响:一项试点研究
在形成性评估中得分超过50%的学生,其总结性考试的成绩显著高于跳过或未通过形成性评估的学生(P < 0.05)[5]。
