心理学研究中的可靠性：定义与示例

可靠性在心理学研究中的含义

可靠性在心理学研究中指的是测量的可重复性或一致性。具体来说，它是测量工具或程序在重复试验中产生相同结果的程度。如果一个测量工具在不同情况下对同一个不变的对象进行测量时能够产生一致的结果，则认为该测量是可靠的。

可靠性确保了问卷等工具在不同时间和场合下的回答是一致的。可靠性的形式包括重测信度、评分者间信度和内部一致性信度。

例如，如果人们在一天内多次称体重，他们会期望看到相似的读数。每次测量结果都不同的秤几乎没有用处。

同样的类比可以应用于每次使用时测量英寸数都不同的卷尺。这样的卷尺不会被认为是可靠的。

如果研究结果能够被一致地复制，那么这些结果就是可靠的。相关系数可以用来评估可靠性的程度。如果一个测试是可靠的，它应该显示出较高的正相关。

当然，由于参与者和情况的变化，每次得到完全相同的结果是不可能的。但是，同一测试结果之间的强正相关表明了可靠性。

可靠性很重要，因为不可靠的测量会引入随机误差，这会削弱相关性并使检测真实关系变得更加困难。

确保心理学研究中关键测量的高度可靠性有助于提高研究的敏感性、有效性和可重复性。估计和报告可靠的证据被认为是一种重要的方法实践。

可靠性有两种类型：内部可靠性和外部可靠性。

内部可靠性：指单个测试中不同项目测量同一概念或结构的一致性。它确保了测试在其组成部分之间的一致性。
外部可靠性：衡量测试在重复管理或不同条件下的结果一致性。它确保了测试在时间和情境上的一致性。

心理学研究中可靠性的几个关键方面包括：

重测信度：同一个人在两个或多个不同时间点进行同一测量程序时得分的一致性。高重测信度表明该测量提供了一个稳定且可重复的分数。
评分者间信度：不同评分者或观察者对同一目标进行评分时得分的一致性。高评分者间信度表明评分是客观的，并不受评分者的主观性或偏见的过度影响。
内部一致性信度：不同测试项目或测量同一结构的仪器部分产生的结果的一致性。通过统计分析（如克隆巴赫α系数）来评估，高值表明项目测量了相同的潜在概念。

重测信度

重测法评估测试的外部一致性。适用于问卷和心理测量测试等。它衡量测试随时间的稳定性。

典型的评估方法是在两个不同的时间点给参与者进行相同的测试。如果得到相同或类似的结果，则建立了外部可靠性。

具体步骤如下：

在某个时间点对参与者进行测试或测量。
经过一段时间后，再次对相同的参与者进行相同的测试，期间不进行任何干预或治疗。
使用统计方法（通常是皮尔逊相关）将两次测试的得分进行相关分析。
如果两次测试的得分之间存在高相关性，则表明测试具有良好的重测信度，说明测试随时间产生了一致的结果。

这种方法特别适用于测量稳定特质或特征的测试，这些特质或特征在短时间内不会发生变化。

重测法的缺点是结果需要较长时间才能获得。可靠性可能会受到测试间隔时间和在此期间可能影响参与者反应的事件的影响。

贝克等人（1996年）研究了26名门诊患者在一周内两次不同治疗会议的反应，发现抑郁量表的相关性为0.93，从而证明了抑郁量表具有高重测信度。

这是一个例子，说明为什么心理学研究中的可靠性是必要的。如果没有这些测试的可靠性，一些个体可能无法成功诊断出抑郁症等疾病，因此也不会接受适当的治疗。

测试的时间很重要；如果持续时间太短，参与者可能会回忆起第一次测试的信息，这可能会偏倚结果。

相反，如果持续时间太长，参与者可能会在某些重要方面发生变化，这也可能偏倚结果。

重测法评估测试的外部一致性。这指的是不同评分者对同一行为给出一致估计的程度。评分者间信度可用于访谈。

评分者间信度

评分者间信度，通常称为评分者间一致性，是指不同评分者或评估者在评估某一现象、行为或特征时达成一致的程度。它是评分者或评估者对同一项目或行为评分的一致性和协议程度的衡量。

高评分者间信度表明，不同评分者的发现或测量结果是一致的，这表明结果不是由随机机会或个别评分者的主观偏见引起的。

统计措施，如科恩的卡帕系数或组内相关系数（ICC），常用于量化评分者之间的一致性水平，以确保结果的客观性和可重复性。

确保高评分者间信度尤其重要，尤其是在涉及主观判断或观察的研究中，这提供了信心，即研究结果是可以复制的，并不严重受个别评分者偏见的影响。

注意，在观察研究中，也可以称为观察者间信度。在这种情况下，研究人员独立观察同一行为（以避免偏见）并比较他们的数据。如果数据相似，则认为是可靠的。

当观察者评分没有显著相关时，可以通过以下方式提高可靠性：

训练观察者掌握观察技术，并确保每个人都同意这些技术。
确保行为类别已被操作化。这意味着它们已经被客观定义。

例如，如果两名研究人员正在观察幼儿园儿童的“攻击行为”，他们每个人都有自己的主观意见关于什么是攻击行为。

在这种情况下，他们不太可能记录相同的攻击行为，数据将是不可靠的。

然而，如果他们将攻击行为的操作化定义为“推搡”，这将更加客观，也更容易识别特定行为的发生。

例如，“攻击行为”是主观的且未操作化的，而“推搡”是客观的且已操作化的。因此，研究人员可以计算在一定时间内儿童相互推搡的次数。

内部一致性信度

内部一致性信度是指测试或调查中旨在测量同一结构的不同项目产生相似得分的程度。

例如，测量抑郁的问卷可能包含多个问题，涉及悲伤、睡眠和食欲变化、疲劳和兴趣丧失等问题。假设是，人们对这些不同症状项目的回答应该是相当一致的。

克隆巴赫α系数是常用的统计指标，用于量化内部一致性信度。它计算测试项目之间的平均项目间相关性。值范围从0到1，值越高表示内部一致性越好。一般的经验法则是，α值应至少高于0.70，以表明足够的可靠性。

例如，抑郁问卷的α值为0.90，意味着受访者在不同症状项目上的得分之间存在较高的平均相关性。

这表明所有项目都在以一致的方式测量同一个潜在结构（抑郁）。它反映了量表的单维性——证据表明它测量的是一个单一的概念。

如果某些项目与其他项目无关，平均项目间相关性会较低，导致α值较低。这表明量表中存在多个维度，而不是统一的单一概念。

因此，简而言之，通过高克隆巴赫α值表现出的高内部一致性信度支持了各种测试项目成功测量了研究人员意图测量的潜在变量的事实。它表明项目有意义地结合在一起，可靠地测量该结构。

分半法

分半法评估测试（如心理测量测试和问卷）的内部一致性。

它衡量测试的所有部分在多大程度上对所测量的内容做出同等贡献。

分半法通过利用单个测试分成两半时的自然变化，提供了另一种量化内部一致性的方法。

虽然实施起来有些繁琐，但这种方法避免了与克朗巴赫α系数相关的局限性。然而，由于计算相对简单，α系数在实践中仍被更广泛使用。

具体步骤如下：

测试或问卷被分为两个部分，通常通过将偶数编号项目与奇数编号项目分开，或者前半部分项目与后半部分项目分开。
每个部分分别评分，并使用统计方法（通常是皮尔逊相关）进行相关分析。
两部分之间的相关性反映了测试的可靠性。较高的相关性表明更好的可靠性。
为了调整因测试长度减半而缩短的影响，通常应用斯皮尔曼-布朗预测公式来估计基于分半可靠性的完整测试的可靠性。

通过这种方法可以提高测试的可靠性。例如，如果测试不同部分中的某些项目相关性较低（例如，r = .25），则应删除或重写这些项目。

分半法是一种快速简便的方法来建立可靠性。然而，它只有在大型问卷中所有问题测量同一构念时才有效。这意味着它不适用于测量不同构念的测试。

例如，明尼苏达多项人格问卷有子量表测量不同的行为，如抑郁、精神分裂症、社交内向。因此，分半法不适合评估该人格测试的可靠性。

心理学中的效度与信度

在心理学中，效度和信度是评估测量质量的基本概念。

效度是指测量在多大程度上准确评估其所声称要评估的具体概念、特质或构念。它指的是测量的真实性。
信度是指测量的整体一致性、稳定性和可重复性。它关注的是随机误差可能在多大程度上扭曲分数或引入不必要的“噪声”。

关键区别在于，[效度] (/blog_q/sub=validity_cn) 关注的是测量的内容，而信度关注的是测量的一致性。

一个不可靠的测量不能真正有效，因为如果一个测量给出的分数不一致、不可预测，显然它没有以真实、系统的方式测量其旨在测量的特质或品质。建立信度为确定测量的效度奠定了基础。

一个重要的理解是，信度是效度的必要条件，但不是充分条件。

这意味着一个测试可以是可靠的，始终产生相同的结果，但不一定有效，即准确测量预期的属性。

然而，一个有效的测试，即真正测量其所声称的内容，必须是可靠的。在追求严谨的心理学研究中，效度和信度都是不可或缺的。

理想情况下，研究人员努力在这两方面都取得高分——效度确保你正在测量正确的构念，信度确保你准确且精确地测量它。这两个品质是独立的，但都是强大测量程序的重要组成部分。

参考文献

Beck, A. T., Steer, R. A., & Brown, G. K. (1996). 贝克抑郁量表手册. 心理学公司. 圣安东尼奥, 德克萨斯州.

Clifton, J. D. W. (2020). 在量表构建决策中管理效度与信度的权衡. 心理方法, 25(3), 259–270. https://doi.org/10.1037/met0000236

Guttman, L. (1945). 分析再测信度的基础. 心理测量学, 10(4), 255–282. https://doi.org/10.1007/BF02288892

Hathaway, S. R., & McKinley, J. C. (1943). 明尼苏达多项人格问卷手册. 纽约: 心理学公司.

Jannarone, R. J., Macera, C. A., & Garrison, C. Z. (1987). 通过“病例对照”抽样评估评分者间一致性. 生物统计学, 43(2), 433–437. https://doi.org/10.2307/2531825

LeBreton, J. M., & Senter, J. L. (2008). 评分者间一致性和评分者间协议的20个问题解答. 组织研究方法, 11(4), 815–852. https://doi.org/10.1177/1094428106296642

Watkins, M. W., & Pacheco, M. (2000). 行为研究中的观察者间一致性：重要性和计算. 行为教育杂志, 10, 205–212.

引用来源

本文翻译自以下网站：

simplypsychology.org

使用声明

本文仅供教育和参考用途。如需转载或引用，请注明出处和作者。

如果你有任何问题或建议，请随时联系微信公众号。

聚观点

聚观点

心理学研究中的可靠性：定义与示例

可靠性在心理学研究中的含义

重测信度

具体步骤如下：

评分者间信度

当观察者评分没有显著相关时，可以通过以下方式提高可靠性：

内部一致性信度

分半法

具体步骤如下：

心理学中的效度与信度

参考文献