标准效度：定义与例子

什么是标准效度？

标准效度是一种验证测试的方法，用于衡量量表或量尺上的得分与外部、非测试标准的相关程度（Cohen & Swerdlik, 2005）。这旨在证明一个构念的得分可以预测现实生活中的结果。

例如，当使用自评量表测量抑郁症时，如果量表得分与外部指标（如临床医生的评分、缺勤天数或住院时间）相关，研究者就可以建立标准效度。

标准效度的类型

预测效度

预测效度是通过展示测试得分可以预测未来在其他标准上的表现来验证的一种方法（Cohen & Swerdik, 2005）。

在选择就业或教育目的的测量工具时，良好的预测效度非常重要，因为它会增加选择在这些领域表现良好的个体的可能性。

预测标准效度是通过展示一个测量与后来某个时间点测量的外部标准之间的相关性来建立的。

例如，通过测量同一大学同一专业学生的成绩与其A-level之前的得分，研究者可以确定A-level评估的预测标准效度。

如果相关性很高，预测标准效度就会很高；反之，如果相关性很低或没有相关性，预测内容效度就会很低（Barrett et al., 1981）。

同时效度

同时效度是通过展示一个测量与同时测量的外部标准之间的相关性来建立的。

例如，如果数学测试的得分与同时进行的另一个数学测试的得分高度相关，就可以测量同时效度（Barrett et al., 1981）。

当测量的构念相似但可能不完全重叠时，这种方法非常有用。在这种情况下，重要的是展示研究中的测量能够预测标准中的变异，而不仅仅是其他相同构念测量可以预测的部分。

当重点在于实际结果而非理论构念时，这种方法也非常有用，因此需要展示测量的同时效度与其他类似结果的测量之间的关系（Barrett et al., 1981）。

通常通过相关分析来展示同时效度，尽管也可以使用其他方法，如回归分析。

例如，为了建立新调查问卷的同时效度，研究者可以将新问卷和已验证的问卷对同一组受访者进行，并比较回答，或者将新问卷对受访者进行，并将回答与专家的判断进行比较（Fink, 2010）。

需要注意的是，同时效度并不一定意味着预测效度。

如何评估标准效度

标准效度可以在各种情况和出于各种原因进行测试。一些常见的测试标准效度的方法包括（Fink, 2010）：

将测试结果与已知有效的类似测试进行比较。这种方法的一个潜在问题是，两个测试都可能包含测量误差，这使得难以确定任何一个测试的有效性。
请该领域的专家根据他们认为每个项目测量被测试构念的程度来对测试项目进行评分。这种方法可能耗时且昂贵，而且可能难以找到专家。
使用测试结果来预测已知与被测量构念相关的其他结果（例如，工作表现）
对测试项目进行因子分析，以查看它们是否以理论上合理的方式聚类

需要注意的是，没有一种单一的方法是决定性的，应尽可能使用多种方法。

通常，测试标准效度需要一个“金标准”——研究人员试图测量的事物的明确示例。然而，在心理学和精神病学中，这样的“金标准”并不是物理或生物学的。

相反，精神科医生通常使用临床访谈，如《神经精神病学临床评估计划》（SCAN），然后应用ICD-10或DSM-IV诊断来对患者进行分类。

然而，由于这些心理健康状态评估的重复，后续访谈中症状的随机错误和系统性低估可能会导致问题（Prince, 2012）。

标准相关的效度示例

智力测试（包括情商）

当智力测试能够正确识别在某一领域成功或优秀的人时，它们就具有标准效度。例如，斯坦福-比奈智力量表常用于识别可能需要特殊教育服务的学生。

另一方面，情商测试可以成为客户服务或管理职位工作表现的良好预测器，或在任何期望人们成功合作的环境中。

智力测试通常通过与已知标准进行比较来评估其标准相关效度。例如，新的智力测试可能与斯坦福-比奈智力量表进行验证，或情商测试可能与工作表现的测量进行验证。

如果新的测试被发现是标准的良好预测器，就可以说它具有标准效度。这是一个同时标准效度的例子（Conte, 2005）。

求职者测试

其他标准相关效度的例子包括身体适应性测量与工作安全的关系，以及记忆力或知识测量与学业成绩的关系。

与智力测试一样，通常在使用不同类型测量的组合时，工作表现的最佳预测效果最好。

一般来说，当标准（试图预测的事物）客观且可量化时，标准相关效度最强，如测试分数或销售数据（Schmidt, 2012）。

精神病诊断

精神病诊断是通过临床评估和症状学对患有心理障碍的个体进行分类的过程。

最常用的精神障碍诊断方法是《精神障碍诊断与统计手册》（DSM）和《国际疾病分类》（ICD）。

在这里，标准效度测试可以从诊断标准到用于确认诊断的外部测量的有效性。然而，许多研究者认为，DSM未能达到其有效性目标（Aboraya et al., 2005）。

常见问题

标准效度是内部效度还是外部效度？

外部效度是指测量结果可以推广的程度。由于标准效度是衡量测试预测其他测量结果的能力，因此它是外部推广性的测试。

为什么标准效度也称为预测效度？

标准效度也称为预测效度，因为它是一个构念实际上预测其他评估得分的衡量标准。

为了使测试具有良好的预测效度，测试得分与被预测的行为或表现之间必须有很强的关系。如果两者之间几乎没有或没有关系，那么测试的预测价值就很低。

标准效度和构念效度有什么区别？

构念效度是衡量测试是否有效测量其所要测量的内容的标准。

标准效度是衡量测试预测其他测量结果的能力的标准。为了使测试具有良好的构念效度，测试中的项目必须与被测量的构念相关。

为了使测试具有良好的预测效度，测试得分与被预测的行为或表现之间必须有很强的关系（Swerdlik & Cohen, 2005）。

如何提高标准效度？

有几种方法可以提高标准效度，包括（Fink, 2010）：

确保测试内容代表未来将要测量的内容
使用经过良好验证的测量工具
确保良好的测试条件
训练评分者保持评分的一致性

参考文献

Aboraya, A., France, C., Young, J., Curci, K., & LePage, J. (2005). The validity of psychiatric diagnosis revisited: the clinician’s guide to improve the validity of psychiatric diagnosis. Psychiatry (Edgmont), 2(9), 48.

Barrett, G. V., Phillips, J. S., & Alexander, R. A. (1981). Concurrent and predictive validity designs: A critical reanalysis. Journal of Applied Psychology, 66(1), 1.

Conte, J. M. (2005). A review and critique of emotional intelligence measures. Journal of Organizational Behavior, 26(4), 433-440.

Fink, A. Survey Research Methods. In McCulloch, G., & Crook, D. (2010). The Routledge international encyclopedia of education. Routledge.

Prince, M. Epidemiology. In Wright, P., Stern, J., & Phelan, M. (Eds.). (2012). Core Psychiatry EBook. Elsevier Health Sciences.

Schmidt, F. L. (2012). Cognitive tests used in selection can have content validity as well as criterion validity: A broader research review and implications for practice. International Journal of Selection and Assessment, 20(1), 1-13.

Swerdlik, M. E., & Cohen, R. J. (2005). Psychological testing and assessment: An introduction to tests and measurement.

引用来源

本文翻译自以下网站：

simplypsychology.org

使用声明

本文仅供教育和参考用途。如需转载或引用，请注明出处和作者。

如果你有任何问题或建议，请随时联系微信公众号。

聚观点

聚观点