什么是表面效度？

关键要点

表面效度是指测试在多大程度上看起来测量了它打算测量的内容。这通常是从测试者的视角或专家的视角来确定的。
表面效度不是一种技术上严格的形式的效度，这意味着它并不能保证测试实际上测量了它应该测量的内容。它主要是一个公众感知的问题。
尽管它不能保证测试实际测量了它应该测量的内容，但它可以增强测试者的合作、公众对测试结果的接受度以及临床应用的实用性。

表面效度是指测试在多大程度上看起来测量了它打算测量的内容。

简单来说，表面效度是关于测试是否“看起来”在测量它声称要测量的内容（Johnson, 2021）。

例如，询问某人他们是否感到悲伤或抑郁，作为抑郁症的测量工具，具有表面效度。
要求某人解决复杂的数学问题，即使数学能力与抑郁症之间可能存在相关性，但作为抑郁症的测量工具，却不具备表面效度。

表面效度不是一种技术上严格的形式的效度，也不依赖于既定理论的支持（Fink, 2010）。

它并不能保证测试实际上测量了它应该测量的内容。

然而，它仍然是一个重要考虑因素，特别是在应用环境中，因为它可能会影响测试者的合作、公众对测试结果的接受度以及临床环境中的建立信任关系。

表面效度的重要性

表面效度不是一种技术上严格的形式的效度，这意味着它并不能保证测试实际上测量了它应该测量的内容。它主要是一个公众感知的问题。

然而，它仍然是一个重要的考虑因素，原因如下：

测试者合作： 具有良好表面效度的测试可以增加测试者合作的可能性。如果测试对测试者来说显得相关和有意义，他们更有可能认真对待并提供真实准确的回答。相反，如果测试者看不到测试的相关性，他们可能会缺乏动机去努力，甚至可能会试图破坏测试。
公众接受度： 表面效度还可以增强公众对测试的接受度。如果测试看起来是在测量它应该测量的内容，人们更有可能信任测试结果。这对于用于做出重要决策的测试尤为重要，例如教育安置或就业选择。
临床实用性： 在临床环境中，表面效度对于建立与来访的信任关系很重要。如果来访觉得正在使用的评估工具与其关注点相关，他们更有可能信任治疗师并参与治疗过程。

看起来具有表面效度的测试可以给参与者和研究者带来信心，认为评估结果是公平和公正的（Johnson, 2021）。

表面效度可以用来快速淘汰劣质研究。例如，审查一篇关于儿童疫苗接种与自闭症之间联系的论文的研究人员可能会发现实验设计中的多个不足之处，导致论文因表面效度不足而被拒绝。

此外，表面效度对于建立其他类型的效度也很重要。它是建立测试内容效度的必要条件，内容效度定义为“测试覆盖所测量领域所有重要方面的程度”（Siraj et al., 2021）。

如何提高表面效度？

以下是提高表面效度的方法：

确保测试项目清晰易懂。 如果测试者理解项目的要求，他们更有可能认为测试是有效的。如果说明或项目令人困惑，测试者可能会觉得测试不是对其能力和特质的公平评估。
使用适合目标受众的语言。 测试项目应使用受测者熟悉和理解的语言编写。例如，儿童测试应使用比成人测试更简单的语言。
确保测试项目与测试目的相关。 如果测试者认为项目在测量一些重要的内容，他们更有可能认为测试是有效的。例如，如果测试用于选拔特定职位的员工，项目应与该职位所需的技能和知识相关。
向测试者解释测试的目的。 当测试者了解为什么要进行测试时，他们更有可能合作并认真对待测试。这可以通过在测试开始前简要解释测试目的来实现。
考虑测试者的文化背景。 在一种文化中被认为具有表面效度的测试，在另一种文化中可能不被认为是有效的。例如，要求谈论个人经历的测试在某些文化中可能不合适，因为这些话题被认为是禁忌。

谁应该衡量表面效度？

表面效度是对测试是否“看起来”测量了它应该测量的内容的一种主观判断。

然而，通常最好有多个人来衡量表面效度，因为不同的人可能对测量构念的重要方面有不同的看法。

确定表面效度通常涉及考虑测试者和专家的意见：

测试者： 测试者的观点对于表面效度很重要，因为如果测试对受测者来说显得无关紧要或没有意义，他们可能不会努力或甚至会试图破坏测试。例如，老年人如果认为记忆测试的任务微不足道或没有意义，可能不太愿意参与。
专家： 专家的判断对于表面效度也很重要，因为领域的专家可以评估测试内容是否看起来符合所测量的构念。例如，内容专家可以检查测试项目，以确定它们是否与预期的测量领域相关。

例如，研究人员可以让测试者对项目的相关性和清晰度进行评分，或者召集一组专家审查测试内容并提供关于其表面效度的反馈。

值得注意的是，表面效度不是静态的；也就是说，随着时间的推移，被认为具有表面效度的测量方法可能会发生变化。

例如，20世纪50年代开发的测量“男性气质”和“女性气质”的人格测试今天可能不再被认为是有效的，因为社会对性别的理解已经发生了显著变化。

因此，定期审查和更新表面效度的测量是很重要的。

如何衡量表面效度

需要注意的是，表面效度是一种主观判断，并不能保证测试实际上测量了它应该测量的内容。

然而，通过识别对测试者来说不清楚或不相关的项目，它可以成为提高测试质量的有用工具。

收集测试者的主观判断。 可以通过让测试者对项目的相关性和清晰度进行评分来实现。例如，研究人员可以要求测试者对以下陈述的同意程度进行评分：“这个测试项目似乎测量了它应该测量的内容。”
召集一组专家审查测试内容并提供关于其表面效度的反馈。 领域内的专家可以评估测试内容是否看起来符合所测量的构念。例如，内容专家可以检查测试项目，以确定它们是否与预期的测量领域相关。
使用系统方法评估内容相关性。 这可以包括让专家将每个项目与其认为该项目最能代表的领域方面进行匹配。多个评审员的相关性评分的因子分析或多维尺度分析也可以用来记录达成的一致性程度，并揭示关于特定领域方面或项目内容的相关性的不同观点。

何时测试表面效度？

表面效度通常在测试开发的早期阶段进行测量，因为它可以给研究人员一个初步的概念，即测试的内容和格式是否适合测量所期望的构念。

然而，需要注意的是，表面效度只是评估测试整体效度的一个初步步骤；还需要评估其他类型的效度（例如，内容效度、预测效度），以确定测试是否真正有效（Fink, 2010）。

表面效度与内容效度

表面效度和内容效度是心理测量学领域中不同但相关的概念。尽管两者都涉及对测试的适当性的感知，但在范围和重点上有所不同。

表面效度是对测试是否“看起来”测量了它打算测量的内容的一种表面评估。它主要基于测试参与者和非专家的感知。
内容效度则是更严格的评估，考虑测试项目是否充分代表了测试设计要测量的整个领域或内容范围。

内容效度需要由主题专家仔细检查测试内容，以确定其与所测量的构念的一致性。

表面效度更多地关注外观和感知，而不是对测试内容的系统评估。

例如，一个询问悲伤和兴趣丧失等症状的抑郁症问卷具有表面效度，因为这些症状通常与抑郁症相关联。

然而，内容效度则要求确保问卷充分涵盖了专家和诊断标准定义的抑郁症的所有关键方面。

表面效度通常被认为是内容效度的一个子类型，这意味着具有良好内容效度的测试通常也会有良好的表面效度。

然而，反之则不总是成立。一个测试可能看起来测量了它应该测量的内容（表面效度），但实际上可能没有涵盖构念的全部范围（内容效度）。

表面效度与内容效度的关键差异总结表

特征	表面效度	内容效度
定义	测试“看起来”测量了它应该测量的内容的程度。	测试充分采样了其意图测量的内容领域或宇宙的程度。
重点	测试的表面外观和感知。	测试内容的系统评估。
视角	测试参与者、非专家	主题专家
严谨性	主观、不太严谨	客观、更严谨
关系	通常被认为是内容效度的一个子类型。	可以有良好的内容效度而没有良好的表面效度。
示例	询问悲伤和兴趣丧失的抑郁症问卷具有表面效度。	涵盖课程所有教学内容的数学测试具有内容效度。
测量	来自测试参与者和专家的主观评分。	专家审查测试项目及其与构念的一致性；检查项目反应的一致性和经验域结构。
重要性	对于测试参与者的合作、公众接受度和临床实用性很重要。	确保测试是所关注构念的有效测量至关重要。
局限性	不能保证实际效度；主观判断可能因人而异。	对于复杂构念的建立可能具有挑战性；需要仔细考虑领域及其边界。
其他要点	一些专家认为表面效度不是“真正的”效度。一个外部来源指出，表面效度可能是外部效度的一部分。	一个来源指出，表面效度可能受到情境效应和情境因素的影响，这与表面效度作为外部效度的一个方面相一致。

总结

总之，虽然表面效度可以作为一个有用的初步指标来评估测试的适当性，但内容效度提供了更强大和可靠的评估，以确定测试是否真正测量了它打算测量的内容。

参考文献

Fink, A. Peterson, P. L., Baker, E., & McGaw, B. (2010). International encyclopedia of education. Elsevier Ltd..

Johnson, E. (2021). Face validity. In Encyclopedia of autism spectrum disorders (pp. 1957-1957). Cham: Springer International Publishing.

McDermott, R. (2011). Internal and external validity. Cambridge handbook of experimental political science, 27-40.

Messick, S. (1995). Standards of validity and the validity of standards in performance assessment. Educational measurement: Issues and practice, 14(4), 5-8.

Rubio, D. M. (2005). Content validity.

Siraj, S., Stark, W., McKinley, S. D., Morrison, J. M., & Sochet, A. A. (2021). The bronchiolitis severity score: An assessment of face validity, construct validity, and interobserver reliability. Pediatric pulmonology, 56(6), 1739-1744.

引用来源

本文翻译自以下网站：

simplypsychology.org

使用声明

本文仅供教育和参考用途。如需转载或引用，请注明出处和作者。

如果你有任何问题或建议，请随时联系微信公众号。

聚观点

聚观点