心理学研究中的效度：类型与示例

心理学研究中的效度

在心理学研究中，效度是指测试或测量工具准确测量其预期测量内容的程度。它确保研究结果是真实的，而不是由于外部因素引起的。

根据内部效度和外部效度，效度可以分为不同的类型。

效度的概念由Kelly（1927，第14页）提出，他认为如果一个测试测量了其所声称的内容，则该测试是有效的。例如，智力测试应该测量智力，而不是其他内容（如记忆）。

研究中的内部效度和外部效度

内部效度

内部效度是指在研究中观察到的效果是否由于自变量的操纵，而不是其他混淆因素引起的。

换句话说，自变量和因变量之间存在因果关系。

内部效度可以通过控制外部变量、使用标准化指令、平衡设计以及消除需求特征和研究者效应来提高。

外部效度

外部效度是指研究结果能够在多大程度上推广到其他环境（生态效度）、其他人（总体效度）以及时间上的推广（历史效度）。

外部效度可以通过更自然地设置实验和使用随机抽样选择参与者来提高。

心理学中的效度类型

评估测试（即问卷、访谈、智商测试等）的效度主要分为两类：内容效度和标准效度。

内容效度
内容效度是指测试或测量是否代表了预期内容领域的所有方面。它评估测试项目是否充分覆盖了主题或概念。
标准效度
标准效度评估测试基于其与已知外部标准或结果的相关性。它可以进一步分为同时效度（在同一时间测量）和预测效度（测量未来表现）。

表面效度

表面效度是指测试表面上看起来是否测量了其所声称的内容。这是内容相关效度中最不复杂的衡量方法，是一种基于外观的肤浅和主观评估。

当测试的目的对天真应答者来说也很明显时，可以说该测试具有高表面效度。相应地，测试目的不明确时，其表面效度较低（Nevo, 1985）。

通过让人们对测试在其看来的有效性进行评分，可以直接测量表面效度。评分者可以使用李克特量表来评估表面效度。

例如：

测试非常适用于某个目的
测试非常适用于该目的
测试足够适用
测试不够适用
测试无关紧要，因此不适合

选择合适的人来评估测试非常重要（例如，问卷、访谈、智商测试等）。例如，实际参加测试的人非常适合判断其表面效度。

此外，与测试相关的人也可以提供意见（例如，雇主、大学管理员、雇主）。最后，研究人员可以使用对测试感兴趣的普通公众成员（例如，应试者的家长、政治家、教师等）。

只有在评分者之间存在合理的一致性时，测试的表面效度才能被视为一个稳健的构念。

需要注意的是，当评级是由“专家”完成时，应避免使用表面效度这一术语，因为内容效度更为合适。

具有表面效度并不意味着测试真正测量了研究者意图测量的内容，而只是评分者认为它似乎如此。因此，这是一种粗糙且基本的效度衡量方法。

例如，测试项目“我最近想过自杀”显然具有表面效度，作为测量自杀认知的项目，可能在测量抑郁症状时有用。

然而，具有清晰表面效度的测试项目更容易受到社会期望偏差的影响。个体可能会操纵他们的回答，以否认或隐藏问题，或夸大行为以呈现积极的自我形象。

测试项目可能缺乏表面效度，但仍具有一般的效度，并能测量其所声称的内容。这很好，因为它减少了需求特征，使应答者更难操纵答案。

例如，测试项目“我相信基督的第二次降临”作为抑郁的测量项，缺乏表面效度（因为项目的目的是不明确的）。

这个项目出现在《明尼苏达多项人格调查表》（MMPI）的第一个版本中，并加载在抑郁量表上。

因为大多数原始标准样本中的MMPI都是虔诚的基督徒，只有抑郁的基督徒才会认为基督不会再来。因此，对于这个特定的宗教样本，该项目确实具有一般的效度，但没有表面效度。

构念效度

构念效度评估测试或测量是否代表并捕捉了一个抽象的理论概念，称为构念。它表明测试在多大程度上准确反映了其意图测量的构念，通常通过与其他理论上与构念相关的变量和测量的关系来评估。

构念效度由Cronbach和Meehl（1955）提出。这种类型的内容相关效度是指测试在多大程度上捕捉到特定的理论构念或特质，它与效度的其他方面有所重叠。

构念效度不仅仅关心测试是否测量了一个属性这一简单、事实性的问题。

相反，它是关于测试分数解释是否与涉及理论和观察术语的规范网络一致的复杂问题（Cronbach & Meehl, 1955）。

为了测试构念效度，必须证明被测量的现象确实存在。例如，智力测试的构念效度取决于智力的模型或理论。

构念效度包括展示此类构念在解释一系列研究发现和预测进一步关系方面的力量。

研究人员能够为测试的构念效度提供的证据越多越好。然而，确定测试的构念效度没有单一的方法。

相反，需要结合不同的方法和途径来展示测试的整体构念效度。例如，可以使用因子分析和相关方法。

收敛效度

收敛效度是构念效度的一个子类型。它评估两个理论上应该相关的测量之间的相关程度。

它表明类似构念的测量高度相关。通过显示与旨在测量相同或类似构念的其他测试的一致性，它有助于确认测试是否准确测量了预期的构念。

例如，假设有两个不同的量表用于测量自尊：

量表A和量表B。如果两个量表都能有效测量自尊，那么在量表A上得分高的人也应该在量表B上得分高，而在量表A上得分低的人也应该在量表B上得分相似的低分。

如果这两个量表的得分显示出强烈的正相关，那么这提供了收敛效度的证据，因为它表明两个量表似乎都在测量相同的潜在自尊构念。并发效度（即，同时发生）

并发效度评估测试结果与已建立并被接受的测量结果之间的相关性，当两者同时进行时。

它有助于确定新测量是否是已建立测量的良好反映，而无需等待观察未来的结局。

如果通过与当前存在的标准进行比较来验证新的测试，我们就有并发效度。

通常，新的智商或人格测试可能会与一个较老但相似的、已知具有良好效度的测试进行比较。

预测效度

预测效度评估测试对未来某个准则的预测能力。它衡量测试预测个人在未来某个时间点上相关准则表现的能力。它评估测试在预测后续实际结果或结果方面的有效性。

例如，可以根据新的智力测试预测，在12岁时得分高的人几年后更有可能获得大学学位。如果预测得到证实，那么该测试就具有预测效度。

参考文献

Cronbach, L. J., 和 Meehl, P. E. (1955) 心理测试中的构念效度。心理公报, 52, 281-302.

Hathaway, S. R., & McKinley, J. C. (1943). 明尼苏达多项人格问卷手册. 纽约: 心理学公司.

Kelley, T. L. (1927). 教育测量的解释. 纽约: Macmillan.

Nevo, B. (1985). 表面效度再探. 教育测量杂志, 22(4), 287-293.

引用来源

本文翻译自以下网站：

simplypsychology.org

使用声明

本文仅供教育和参考用途。如需转载或引用，请注明出处和作者。

如果你有任何问题或建议，请随时联系微信公众号。

聚观点

聚观点

心理学研究中的效度：类型与示例