进行元分析:实用、分步骤指南
什么是元分析?
元分析是一种统计程序,用于结合和综合多个独立研究的结果,以估计某个特定研究问题的平均效应量。
元分析超越了传统的叙述性综述,通过使用统计方法整合多项研究的结果,从而对证据进行更客观的评估。
这种方法解决了个体研究中的样本量小等局限性,提供了更精确的治疗效果或关系强度的估计。
当个体研究结果不明确或相互矛盾时,元分析尤其有价值,例如维生素D补充剂与骨折预防的例子。
例如,2017年在《美国医学会杂志》(JAMA)上发表的一篇由Zhao等人进行的元分析,考察了涉及53,537名参与者的81项随机对照试验。
这项元分析的结果表明,维生素D补充剂与社区居住成年人骨折风险降低无关。这一发现与早期的一些信念和个别研究结果相矛盾,后者曾认为维生素D具有保护作用。
元分析、系统综述和文献综述有什么区别?
文献综述可以在没有定义信息收集程序的情况下进行。系统综述使用严格的协议来最小化收集和评估研究时的偏差,使其更加透明和可重复。
虽然系统综述彻底地映射了一个研究领域,但它不能提供关于效应大小的无偏信息。元分析通过统计方法结合效应量,比系统综述更进一步,根据每个研究的精确度对其进行加权。
什么是效应量?
统计显著性在元分析中是一个较差的指标,因为它只表示一个效应是否可能由偶然发生。它不提供关于效应的大小或实际重要性的信息。
虽然统计显著的结果可能表明一个效应不同于零,但这个效应可能太小而没有实际价值。效应量则提供了一个标准化的效应大小测量,使研究结果的解释更有意义。
元分析不仅合成效应量;它还使用这些统计数据提供一个加权的平均效应量,这些效应量来自解决类似研究问题的研究。效应量越大,两个变量之间的关系越强。
如果效应量一致,分析表明这些发现在整个包含的研究中是稳健的。当效应量存在差异时,研究人员应关注理解这种分散的原因,而不仅仅是报告一个汇总效应。
元回归是一种探索这种变异的方法,通过检查效应量与研究特征之间的关系。
元分析中最常用的三种主要效应量家族:
- 均值差异效应量:用于显示组间或条件间均值差异的大小,通常用于比较治疗组和对照组。
- 相关效应量:表示两个连续测量值之间的关联程度,指示它们关系的强度和方向。
- 比值比效应量:用于二分类结果,比较两组之间事件发生的几率,例如患者是否从疾病中恢复。
最合适的效应量家族取决于研究问题和因变量的性质。所有常见的效应量都可以从一种版本转换为另一种版本。
真实案例
Brewin, C. R., Andrews, B., & Valentine, J. D. (2000). 创伤后应激障碍的风险因素的元分析。咨询与临床心理学杂志, 68(5), 748。
这项元分析考察了77篇文章中创伤暴露成人患创伤后应激障碍(PTSD)的风险因素,样本量从1,149到超过11,000不等。几个因素始终预测PTSD,效应量较小(r = 0.10到0.19),包括女性性别、较低的教育水平、较低的智力、之前的创伤、童年逆境和精神病史。发生在创伤期间或之后的因素显示出稍强的效应(r = 0.23到0.40),包括创伤严重性、缺乏社会支持和额外的生活压力。大多数风险因素并未在不同人群和研究类型中均匀预测PTSD,只有精神病史、童年虐待和家庭精神病史显示出同质效应。军事样本和民用样本之间出现了显著差异,方法学因素影响了一些风险因素的效应。作者得出结论,识别普遍的创伤前预测因子为时过早,并呼吁进行更多研究以了解PTSD的易感性如何在不同人群和情境中变化。
如何进行元分析
研究人员应制定一份全面的研究方案,概述元分析的目标和假设。
该文件应详细说明研究过程的每一个阶段,包括识别、选择和分析相关研究的方法。
例如,方案应规定搜索相关研究的策略,包括是否涵盖未发表的作品。
应在开始研究过程之前创建方案,以确保透明性和可重复性。
研究方案
目标
- 估计成长心态干预对小学和中学学生学业成绩的总体效应。
- 调查成长心态干预对学业成绩的影响是否因学生的年龄不同而不同(例如,小学生与高中生)。
- 检验成长心态干预的持续时间是否影响其有效性。
假设
- 成长心态干预将对学生的学业成绩产生小但统计上显著的积极效应。
- 成长心态干预对年轻学生的有效性高于年长学生。
- 较长的成长心态干预比短期干预更有效。
纳入标准
- 发表在英文期刊上的研究。
- 研究必须包括学业成绩的定量测量(例如,GPA、课程成绩、考试分数或标准化测试分数)。
- 研究必须以成长心态干预为主要焦点(包括对照组与治疗组的比较)。
- 结合成长心态训练与其他干预措施(例如,学习技能训练、其他类型的心理干预)的研究应排除在外。
搜索策略
研究人员将搜索以下数据库:
- ERIC
- PsycInfo
- PubMed
关键词结合布尔运算符:
- (“growth mindset” OR “implicit theories of intelligence” OR “mindset theory”) AND (“intervention” OR “training” OR “program”) ” OR “educational outcomes”)* OR “pupil” OR “learner*”)**
额外的搜索策略:
- 引文链接: 检查包含研究的参考文献列表可以发现更多的相关文章。
- 联系专家: 联系成长心态领域的研究人员可以揭示未发表的研究或正在进行的研究。
研究编码
研究人员将对每项研究进行编码,以获取以下信息:
- 样本量
- 参与者的年龄
- 干预持续时间
- 测量的学术成果类型
- 研究设计(例如,随机对照试验,准实验)
统计分析
- 研究人员将计算每项研究的效果大小(例如,标准化平均差异)。
- 研究人员将使用随机效应模型来解释研究之间的效果大小变异。
- 研究人员将使用元回归测试关于成长心态干预效果调节因素的假设。
PRISMA
PRISMA(系统评价和元分析的首选报告项目)是一种旨在提高系统评价报告透明度和完整性的报告指南。
PRISMA 的创建是为了应对系统评价中经常出现的报告不足问题。
- 清单:PRISMA 包含一个 27 项清单,涵盖了从研究理由和目标到结果综合和局限性讨论的所有方面。每个清单项目都附有详细的报告建议,见解释和详细说明文件。
- 流程图:PRISMA 还包括一个流程图,以直观地展示研究选择过程,提供一种清晰、标准化的方式,说明研究人员如何最终确定纳入的研究。
第一步:定义研究问题
一个明确定义的研究问题是任何研究综合的基础。研究问题应指导哪些研究应纳入元分析以及哪种统计模型最合适的决策。
例如:
- 功能失调的态度和消极自动思维如何直接和间接影响抑郁?
- 成长心态干预是否通常能提高学生的学业成绩?
- 孩子与父母的依恋关系与儿童亲社会行为有何关联?
- 各种风险因素与创伤后应激障碍(PTSD)的关系是什么?
研究人员应制定一份全面的研究方案,概述其元分析的目标和假设。
第二步:搜索策略
提供所有数据库、注册表和网站的完整搜索策略,包括使用的任何过滤器和限制。
PRISMA 2020 清单
搜索策略是识别解决特定研究问题的所有相关研究的全面且可重复的计划。
这种系统的搜索方法有助于最小化偏倚。
重要的是要透明地记录搜索策略并记录所有决策以确保可审计性。目标是识别所有潜在的相关研究以供考虑。
PRISMA(系统评价和元分析的首选报告项目)提供了报告定量文献搜索的适当指导。
信息来源
主要目标是找到符合研究问题预定义标准的所有已发表和未发表的研究。这包括考虑超出典型数据库的各种来源
元分析的信息来源可以包括广泛的资源,如学术数据库、未发表的文献、会议论文、书籍,甚至专家咨询。
指定用于识别研究的所有数据库、注册表、网站、组织、参考文献和其他来源。指定每次来源最后搜索或咨询的日期。
PRISMA 2020 清单
在专家图书管理员的帮助下制定了一个详尽的系统搜索策略。
- 数据库: 搜索应包括七个关键数据库:CINAHL、Medline、APA PsycArticles、Psychology and Behavioral Sciences Collection、APA PsycInfo、SocINDEX with Full Text 和 Web of Science: Core Collections。
- 灰色文献:除了数据库,还可以进行扩展搜索。这包括:灰色文献数据库搜索(例如 OpenGrey、WorldCat、Ethos),会议论文集、未发表的报告、学位论文、临床试验数据库,按相关出版物作者姓名搜索。独立研究机构也可能是材料的良好来源,例如 种族关系研究中心、约瑟夫·朗特里基金会、英国照护者协会。
- 引文搜索: 参考文献列表通常会指向领域内高引用和有影响力的论文,为综述提供有价值的情境和背景信息。
- 联系专家: 联系领域内的研究人员或专家可以提供访问未发表的数据或尚未公开的研究的机会。
需要注意的是,这可能不是所有潜在数据库的详尽列表。
搜索字符串构建
建议咨询审查团队和顾问委员会的主题专家,以便为每个概念创建尽可能完整的搜索词列表。
为了检索最相关的结果,使用了搜索字符串。该字符串由以下部分组成:
- 关键词: 搜索词应与研究问题、关键变量、参与者和研究设计相关。搜索应包括索引词、标题和摘要。此外,每个数据库都有特定的索引词,因此必须为每个数据库创建针对性的搜索策略。
- 同义词: 这些是与关键词意思相似的词语或短语,因为作者可能会用不同的术语描述相同的概念。包括同义词有助于覆盖术语的变化,增加找到所有相关研究的机会。例如,药物干预可能被称为其通用名或其多个专有名称之一。
- 截断符号: 这些符号通过捕获关键词的变化形式来扩大搜索范围。它们通过查找以特定词根开头的每个词来实现这一功能。例如,如果用户正在研究吸烟干预,他们可能会使用截断符号搜索“smok*”,以检索包含“smoke”、“smoker”、“smoking”或“smokes”的记录。这可以通过消除将每个词的变化形式输入数据库的需要来节省时间和精力。
- 布尔运算符: 使用布尔运算符(AND/OR/NEAR/NOT)有助于有效结合这些术语,确保搜索策略既敏感又具体。例如,使用“AND”可以将搜索范围缩小到仅包含两个术语的结果,而使用“OR”可以将其扩展到包含任一术语的结果。
在进行这些搜索时,重要的是将文本浏览(出版物)与更集中的系统搜索相结合。这个迭代过程允许随着综述的进展而发展搜索策略。
需要注意的是,此信息可能不完全全面和最新。
示例:
通过搜索 PubMed、PsycINFO 和 Cochrane 图书馆来识别研究。我们对 2009 年 4 月 1 日之前发表的研究进行了搜索,使用了正念结合冥想、程序、疗法或干预以及焦虑、抑郁、情绪或压力等术语。此外,还对从数据库搜索中提取的相关研究和综述文章的参考文献列表进行了广泛的手动审查。被认为与正念主题相关的文章被选中进行进一步审查。
来源:Hofmann, S. G., Sawyer, A. T., Witt, A. A., & Oh, D. (2010). 正念疗法对焦虑和抑郁的影响:一项元分析综述。《咨询和临床心理学杂志》,78(2),169。
资格标准
指定纳入和排除标准以进行审查。
PRISMA 2020 检查表
在开始文献检索之前,研究人员应明确研究纳入的资格标准。
为了保持透明度并尽量减少偏见,研究纳入的资格标准应在事前确定。理想情况下,研究人员应旨在仅纳入高质量的随机对照试验,这些试验遵循意向治疗原则。
选择研究不应是随意的,且纳入和排除标准背后的理由应在研究协议中明确阐述。
在指定纳入和排除标准时,考虑以下方面:
- 干预特征: 研究人员可能会决定,为了被纳入审查,干预措施必须具有特定特征。他们可能要求干预持续一定的时间,或者他们可能确定只有基于特定理论基础的干预才适合他们的审查。
- 人群特征: 元分析可能关注特定人群的干预效果。例如,研究人员可能选择只包括护士或医生的研究。
- 结果测量: 研究人员可能选择仅包括使用符合特定标准的结果测量的研究。
- 参与者年龄: 如果元分析正在检查儿童的治疗或干预效果,审查作者可能会选择排除任何未包含目标年龄段儿童的研究。
- 参与者的诊断状态: 进行焦虑症治疗的元分析的研究人员可能会排除任何参与者未被诊断为焦虑症的研究。
- 研究设计: 研究人员可能决定仅包括使用特定研究设计(如随机对照试验)的研究才会被纳入审查。
- 对照组: 在干预的元分析中,研究人员可能选择仅包括某些类型对照组的研究,如等待名单对照或其他类型的干预。
- 出版状态: 决定是否仅包括已发表的研究,还是也会考虑未发表的作品,如学位论文或会议记录。
示例:
如果研究满足以下条件,则被选中:(a) 包含基于正念的干预;(b) 包括临床样本(即,参与者有可诊断的心理或身体/医学障碍);(c) 包括成人样本(18至65岁);(d) 正念计划未与接受和承诺疗法或辩证行为疗法结合使用;(e) 包括干预前后焦虑和/或情绪症状的测量;(f) 提供足够的数据以进行效应量分析(即,均值和标准差、t值或F值、变化分数、频率或概率水平)。如果样本部分或完全重叠于另一项符合元分析纳入标准的研究,则排除该研究。在这种情况下,我们选择样本量较大或焦虑和抑郁症状测量数据更完整的研究。对于提供了不足数据但其他方面适合分析的研究,联系作者获取补充数据。
来源:Hofmann, S. G., Sawyer, A. T., Witt, A. A., & Oh, D. (2010). 基于正念的疗法对焦虑和抑郁的影响:一项元分析综述。咨询和临床心理学杂志, 78(2), 169。
迭代过程
开发搜索策略的迭代性质源于需要根据每个阶段遇到的信息来细化和调整搜索过程。
一次尝试很少能产生完美的最终策略。相反,这是一个涉及一系列测试搜索、结果分析和团队讨论的演变过程。
以下是迭代过程的展开方式:
- 初步策略制定: 基于研究问题,团队制定初步搜索策略,包括识别相关关键词、同义词、数据库和搜索限制。
- 测试搜索和细化: 初步搜索策略在选定的数据库上进行测试。审查结果的相关性,并相应地细化搜索策略。这可能涉及添加或修改关键词、调整布尔运算符或重新考虑使用的数据库。
- 讨论和迭代: 团队内讨论搜索结果和提议的细化。团队协作决定最佳修改以提高搜索的全面性和相关性。
- 重复循环: 测试搜索、分析、讨论和细化的循环重复进行,直到团队对策略捕捉所有相关研究的能力感到满意,同时尽量减少无关结果。
通过不断根据结果和反馈细化搜索策略,研究人员可以更有信心地确定所有相关研究。
这一迭代过程确保了应用的搜索策略足够敏感,能够捕捉所有相关研究,同时保持可管理的范围。
在整个过程中,详细记录搜索策略(包括任何修改)对于透明度和未来元分析的复制至关重要。
搜索是一项务实的活动:如果搜索识别出15,000个项目,而审查团队由两个人在空闲时间工作,可能需要缩小审查范围和纳入标准。这可以通过修订出版日期(例如,过去十年而不是20年发表的文章),和/或感兴趣的人群和/或研究设计来实现。
第3步:文献搜索
使用明确定义的搜索词和数据库进行系统的文献搜索。
应用搜索策略涉及将构建的搜索字符串输入相应数据库的搜索界面。这些搜索字符串使用布尔运算符、截断符号、通配符和数据库特定语法,旨在检索所有可能解决研究问题的相关研究。
在此阶段,研究人员与数据库的功能互动,以细化搜索并管理检索到的结果。
这可能涉及使用数据库提供的搜索过滤器,专注于特定的研究设计、出版类型或其他相关参数。
应用搜索策略不仅仅是机械地输入术语,它需要对数据库功能有深入的了解,并且要有敏锐的眼光,根据检索结果的性质调整搜索。
第4步:筛选和选择研究文章
完成文献搜索后,下一步是筛选和选择将被纳入元分析的研究。
这涉及仔细审查每项研究,以确定其与研究问题的相关性和方法质量。
目标是识别既与研究问题相关又具有足够质量的研究,以贡献有意义的综合。
满足资格标准的研究通常保存在电子数据库中,如Endnote或Mendeley,并包括标题、作者、日期和出版期刊以及摘要(如果可用)。
选择过程
指定用于决定研究是否符合审查纳入标准的方法,包括每位评审员筛查每条记录和每份检索报告的数量,他们是否独立工作,以及适用的情况下,自动化工具的使用细节。
PRISMA 2020 检查表
元分析的选择过程涉及多位评审员,以确保严谨性和可靠性。
两位评审员应独立筛查标题和摘要,根据预定义的纳入和排除标准去除重复和不相关的研究。
- 初始筛选标题和摘要: 在应用文献搜索策略后,下一步是对识别的文章的标题和摘要进行筛选,以预定义的纳入和排除标准进行对比。在初始筛选阶段,评审员的目标是识别潜在的相关研究,同时排除明显超出审查范围的研究。在这个阶段优先考虑过度纳入非常重要,这意味着评审员在不确定研究的相关性时应倾向于保留研究。这种谨慎的做法有助于最小化无意中排除潜在有价值研究的风险。
- 检索和评估全文: 对于仅凭标题和摘要无法做出明确决定的研究,评审员需要获取文章的全文,以进行全面评估,以预定义的纳入和排除标准为准。这个阶段涉及仔细审查每篇潜在相关研究的全文,以确定其资格。
- 解决分歧: 当评审员对研究的资格存在分歧时,应有一个预先确定的策略,涉及共识建立讨论或第三方评审员仲裁,以达成最终决定。这种合作方法确保了一个公平和公正的选择过程,进一步加强了审查的可靠性。
PRISMA 流程图
PRISMA 流程图 是系统评价中研究选择过程的可视化表示。
流程图展示了基于预定义的纳入和排除标准进行筛选、过滤和选择研究的逐步过程。
流程图直观地描绘了以下阶段:
- 识别: 通过数据库搜索最初确定的标题和摘要数量。
- 筛选: 基于标题和摘要的筛选过程。
- 资格评估: 检索剩余记录的全文副本并评估其资格。
- 纳入: 应用预定义的纳入标准,最终纳入符合所有审查标准的出版物。
- 排除: 流程图详细说明了排除剩余记录的原因。
这种系统且透明的方法,如 PRISMA 流程图所示,确保了一个稳健且无偏见的选择过程,增强了系统评价结果的可靠性。
流程图作为研究选择过程中所做决策的视觉记录,使读者能够评估审查的严谨性和全面性。
来源: Białek, M., Gao, Y., Yao, D., & Feldman, G. (2023). 所有即有价值:对单纯所有权效应的元分析。欧洲社会心理学杂志, 53(1), 90-107.
第五步:评估研究质量
数据收集过程
指定用于从报告中收集数据的方法,包括每个报告中有多少评审员收集数据,他们是否独立工作,获取或确认数据的研究人员的任何过程,以及适用时,使用自动化工具的详细信息。
PRISMA 2020 检查表
数据提取集中在与研究问题相关的信息上,例如与特定现象相关的风险或恢复因素。
提取与研究问题相关的信息,如效应量、样本量、均值、标准差和其他统计度量。
关注作者对发现的解释而非个别参与者的引用可能更有用,因为后者缺乏原始数据的完整上下文。
研究编码
在元分析中,研究编码涉及仔细且系统地从每个纳入的研究中以标准化和可靠的方式提取数据。这一步骤对于确保元分析结果的准确性和有效性至关重要。
这些信息随后用于计算效应量、检查潜在的调节变量并得出总体结论。
编码程序通常涉及创建一个标准化的记录表或编码协议。此表格指导以一致且有序的方式从每项研究中提取数据。两名独立观察者可以帮助确保数据提取的准确性并减少错误。
除了基本的作者和出版年份信息外,还应编码与研究问题相关的关键研究特征。
例如,如果元分析关注特定疗法的效果,相关的编码特征可能包括:
- 研究特征: 出版年份、作者、来源国家、出版状态(已发表:同行评审期刊文章和书籍章节;未发表:政府报告、网站、论文/学位论文、会议演讲、未发表的手稿)。
- 干预措施: 类型(例如,认知行为疗法)、治疗持续时间、频率(例如,每周一次)、传递方式(例如,个体、团体、在线)、意向治疗分析(是/否)。
- 结果测量: 主要结果与次要结果、测量的时间点(例如,治疗后、随访)。
- 调节变量: 可能调节效应量的参与者特征(例如,年龄、性别、诊断、社会经济地位、教育水平、共病)。
- 研究设计: 设计(随机对照试验、准实验等)、盲法、对照组(例如,等待名单对照组、常规治疗)、研究环境(临床、社区、在线/远程、住院与门诊)、预注册(是/否)、分配方法(简单随机化、区组随机化等)。
- 样本: 招募方法(滚雪球、随机等)、样本量(总数和各组)、样本位置(治疗组与对照组)、流失率、与其他研究的样本是否有重叠?
- 遵循报告指南的情况: 例如,CONSORT、STROBE、PRISMA。
- 资金来源: 政府、行业、非营利组织等。
- 效应量: 使用综合元分析程序计算 d 和/或 r。效应量信息和内部一致性信息保留小数点后三位。还应记录信息编码的页码和表号。这些信息有助于检查可靠性和准确性,确保我们从相同的信息中编码。
在将编码协议应用于所有研究之前,对一小部分研究进行试点测试至关重要。这有助于在大规模编码开始前识别编码协议中的任何模糊性、不一致或改进领域。
在主要研究文章中遇到缺失数据是很常见的。制定处理缺失数据的明确策略,这可能包括联系研究作者、使用插补方法或进行敏感性分析以评估缺失数据对整体结果的影响。
质量评估工具
研究人员使用标准化工具评估纳入元分析的定量研究的质量和偏差风险。常用的一些工具包括:
- Cochrane 偏差风险工具:
- 由 Cochrane 合作网推荐,用于评估随机对照试验 (RCT)。
- 评估选择偏差、实施偏差、检测偏差、流失偏差和报告偏差。
- Newcastle-Ottawa 量表 (NOS):
- 用于评估非随机研究的质量,包括病例对照研究和队列研究。
- 评估选择、可比性和结果评估。
- ROBINS-I 工具(非随机干预研究的偏差风险):
- 评估非随机干预研究的偏差风险。
- 评估混杂因素、选择偏差、干预分类、偏离预期干预、缺失数据、结果测量和报告结果的选择。
- QUADAS-2(诊断准确性研究的质量评估):
- 专门设计用于诊断准确性研究。
- 评估患者选择、指数测试、参考标准和流程及时序的偏差风险和适用性问题。
通过使用这些工具,研究人员可以确保纳入元分析的研究具有高质量的方法学,并为整体分析提供可靠的定量数据。
第六步:效应量的选择
效应量指标的选择通常由研究问题和因变量的性质决定。
- 优势比 (OR): 例如,如果研究人员在医学和健康科学领域工作,其中二分结果很常见(例如,是/否、失败/成功),则常使用相对风险和优势比作为效应量。
- 均值差异: 关注实验或组间比较的研究通常采用均值差异。当测量尺度本身具有内在意义且在不同研究中可比较时,原始均值差异或非标准化均值差异是合适的。
- 标准化均值差异 (SMD): 如果研究使用不同的尺度或测量方法,标准化均值差异(例如,Cohen 的 d)更为合适。在分析观察性研究时,相关系数通常被选为效应量。
- 皮尔逊相关系数 (r): 一种常用的统计度量,用于元分析中考察两个连续变量之间的关系强度。
效应大小转换为共同度量
可能需要将报告的结果转换为选定的主要效应大小。目标是将不同的效应大小度量统一到一个共同的度量标准,以便进行有意义的比较和分析。
这种转换允许研究者包括使用各种效应大小度量报告结果的研究。例如,r 可以近似转换为 d,反之亦然,使用特定的方程。同样,可以从比值比中推导出 r,使用另一个公式。
许多与转换效应大小相关的方程可以在 Rosenthal (1991) 中找到。
第七步:评估异质性
异质性指的是在考虑了研究内抽样误差后,不同研究之间的效应大小差异。
异质性指的是不同研究之间结果(效应大小)的变化程度,没有变化意味着所有研究都显示相同的改进(无异质性),而更大的变化则表明更多的异质性。
评估异质性很重要,因为它有助于我们理解研究干预措施是否在不同背景下一致有效,并指导我们如何合并和解释多个研究的结果。
虽然异质性较小可以让我们对总体结论更有信心,但显著的异质性需要进一步调查其根本原因。
如何评估异质性
- 同质性检验:元分析通常包括一个同质性检验,以确定效应大小是否估计的是同一个总体参数。检验统计量记为 Q,是一个加权平方和,服从卡方分布。显著的 Q 统计量表明效应大小是异质的。
- I2 统计量:I2 统计量是异质性的相对度量,表示研究间方差(τ2)与总方差(研究间方差加上研究内方差)的比率。更高的 I2 值表示更大的异质性。
- 预测区间:检查预测区间的宽度可以提供关于异质性程度的见解。较宽的预测区间表明总体效应大小存在显著的异质性。
第八步:选择元分析模型
元分析者通过选择固定效应模型或随机效应模型来处理异质性。
如果异质性较高,使用随机效应模型。如果异质性较低,或者所有研究在功能上相同且不寻求推广到一系列情景时,使用固定效应模型。
虽然同质性检验可以帮助评估不同研究之间的效应大小变异性,但它不应决定固定效应模型和随机效应模型之间的选择。
选择哪种模型最终是一个概念上的决策,由研究者对研究领域的理解和元分析的目标驱动。
如果研究数量有限,固定效应分析更合适,而需要更多研究才能在随机效应模型中获得稳定的研究间方差估计。
需要注意的是,使用随机效应模型通常是一种更为保守的方法。
固定效应模型
- 假设所有研究都在测量完全相同的东西
- 更多地权重给大型研究
- 当研究非常相似时使用
固定效应模型假设所有研究都有一个真实效应大小。目标是以最高的精度估计这个共同的效应大小,这是通过最小化研究内的(抽样)误差实现的。
因此,研究的权重是其方差的倒数。
这意味着较大的研究,通常具有较小的方差,在分析中被赋予更大的权重,因为它们提供了更精确的共同效应大小估计。
- 优点:
- 简单性:固定效应模型实施和解释简单,计算上更简单。
- 精确性:当共同效应大小的假设成立时,固定效应模型提供的估计更精确,置信区间更窄,相比随机效应模型。
- 适用于条件推断:固定效应模型适用于仅对纳入元分析的研究进行推断,而不推广到更广泛的人群。
- 缺点:
- 限制性假设:固定效应模型假设所有研究估计的是同一个总体参数,这通常是不现实的,特别是当研究来自多样化的研究方法或人群时。
- 有限的推广性:固定效应模型的发现仅限于所包含的研究,限制了其在其他背景或人群中的推广性。
- 对异质性的敏感性:固定效应模型对研究间的异质性很敏感,如果存在显著的异质性,可能会产生误导性的结果。
随机效应模型
- 假设研究可能在测量略有不同的东西
- 对大研究和小研究给予更平衡的权重
- 当研究在方法或人群上可能存在差异时使用
随机效应模型假设真实的效应大小在研究之间可能有所不同。目标是估计这些变化的效应大小的均值,同时考虑研究内的方差和研究间的方差(异质性)。
这种方法承认每个研究可能由于抽样误差之外的因素(如研究人群、干预措施或设计的差异)估计略有不同的效应大小。
这种平衡的权重分配防止了大型研究对总体效应大小估计的过度影响,从而得出一个更能代表一系列研究效果分布的平均效应大小。
- 优点:
- 现实的假设:随机效应模型通过假设真实效应是随机分布的,承认研究间变异性的存在,使其更适合实际研究场景。
- 推广性:随机效应模型允许对研究人群做出更广泛的推断,增强发现的推广性。
- 适应异质性:随机效应模型明确建模异质性,当研究具有不同的效应大小时,提供对总体效应的更准确表示。
- 缺点:
- 复杂性:随机效应模型计算上更复杂,需要估计额外的参数,如研究间方差。
- 精确度降低:置信区间通常比固定效应模型更宽,尤其是在研究间异质性显著时。
- 需要足够的研究:准确估计研究间方差需要足够数量的研究,使随机效应模型在较小的元分析中不太可靠。
第九步:执行元分析
这一步涉及统计结合选定研究的效应大小。元分析使用效应大小的加权平均值,通常给更精确的研究(通常是样本量较大的研究)更大的权重。
元分析的主要功能是通过结合多篇文章的效应大小来估计总体中的效应。
它使用效应大小的加权平均值,通常给更精确的研究更大的权重,通常是样本量较大的研究。
这种加权方案在统计上是有意义的,因为具有良好抽样准确性的效应大小(即,可能是现实的准确反映)会被赋予较高的权重。
另一方面,抽样准确性较低的研究的效应大小在计算中被赋予较少的权重。
过程:
- 计算每个研究的权重
- 将每个研究的效应乘以其权重
- 将所有加权效应相加
- 除以所有权重的总和
使用固定效应估计效应大小
元分析中的固定效应模型假设所有纳入的研究都在估计同一个真实效应大小。
该模型在确定每个研究的权重时仅关注研究内的方差。
权重计算为研究内方差的倒数,通常导致较大研究在分析中获得显著更多的权重。
这种方法基于这样一个观点:较大的研究提供了更精确的真实效应估计。
加权平均效应大小(M)通过将每个研究的效应大小(ESi)与其相应的权重(wi)的乘积相加,然后将该总和除以所有权重的总和来计算。
1. 计算每个研究的权重(wi):
权重通常是效应量方差的倒数。这意味着样本量较大且变异较小的研究将具有更大的权重,因为它们提供了更精确的效应量估计。
这种加权方案反映了固定效应模型中的假设,即所有研究都在估计相同的真正效应量,任何观察到的效应量差异仅归因于抽样误差。因此,抽样误差较小(即方差较小)的研究被认为是更可靠的,并在分析中给予更多权重。
以下是固定效应元分析中计算权重的公式:
Wi = 1 / VYi
- Wi 表示分配给研究 i 的权重。
- VYi 是研究 i 的内部研究方差。
实践步骤:
- 每个研究的权重计算为:权重 = 1 / (内部研究方差)
- 例如:假设一项研究报告的内部研究方差为 0.04。该研究的权重为:1 / 0.04 = 25
- 使用此方法计算纳入元分析的每个研究的权重。
- 这些权重将在后续计算中使用,例如计算加权平均效应量。
- 注意:在固定效应模型中,我们不计算或使用 τ²(tau 平方),它代表研究间的方差。这仅用于随机效应模型。
2. 将每个研究的效应乘以其权重:
计算每个研究的权重后,将其效应量乘以相应的权重。这一步骤至关重要,因为它确保了效应量估计更精确的研究对总体加权平均效应量的贡献更大。
- 对于每个研究,将其效应量乘以我们刚刚计算的权重。
3. 将所有这些加权效应相加:
- 将第 2 步中的所有乘积相加。
4. 除以所有权重的总和:
- 将第 1 步中计算的所有权重相加。
- 将第 3 步中的总和除以这个总权重。
固定效应模型的影响
- 样本量较大的研究(内部研究方差较小)获得显著更多的权重。
- 该模型假设研究结果之间的差异仅由于抽样误差。
- 当研究在方法和样本特征上非常相似时,这一模型最为合适。
使用随机效应估计效应量
随机效应元分析稍微复杂一些,因为必须考虑影响效应量的多个来源的差异。
随机效应模型的主要区别在于在权重计算中包括了 τ²(tau 平方)。这考虑了研究间异质性,认识到研究可能测量的是略有不同的效应。
这一过程得出的整体效应量考虑了研究内和研究间的变异性,当研究在方法或人群方面存在差异时,这种方法更为合适。
该模型估计了真正效应量的方差(τ²)。这需要合理数量的研究,因此如果研究数量非常少,随机效应估计可能不可行。
估计通常使用统计软件进行,受限最大似然(REML)是一种常用的方法。
1. 计算每个研究的权重:
在随机效应元分析中,分配给每个研究的权重(W*i)计算为该研究方差的倒数,类似于固定效应模型。然而,随机效应模型中的方差考虑了内部研究方差(VYi)和研究间方差(T²)。
在权重公式的分母中加入 T² 反映了随机效应模型的假设,即真正效应量在研究之间可以变化。
这意味着除了抽样误差外,还需要考虑另一个变异来源来对研究进行加权。研究间方差 T² 代表了这一额外的变异来源。
以下是随机效应元分析中计算权重的公式:
*Wi = 1 / (VYi + T²)**
- *Wi** 表示分配给研究 i 的权重。
- VYi 是研究 i 的内部研究方差。
- T² 是估计的研究间方差。
实践步骤:
首先,我们需要计算一个称为 τ²(tau 平方)的值。这代表研究间方差。
T² 的估计可以使用不同的方法,常用的一种方法是矩法(DerSimonian 和 Laird 方法)。
使用矩法的 T² 公式为:T² = (Q – df) / C
- Q 是同质性统计量。
- df 是自由度(研究数量 - 1)。
- C 是基于研究权重计算的常数。
然后,每个研究的权重计算为:权重 = 1 / (内部研究方差 + τ²)。这与固定效应模型不同,因为我们加上了 τ² 以考虑研究间的变异性。
2. 将每个研究的效应乘以其权重:
- 对于每个研究,将其效应量乘以我们刚刚计算的权重。
3. 将所有这些加权效应相加:
将第 2 步中的所有乘积相加。
4. 除以所有权重的总和:
将第 1 步中计算的所有权重相加。将第 3 步中的总和除以这个总权重。
随机效应模型的影响
- 与固定效应模型相比,大研究和小研究之间的权重更加平衡。
- 当研究在方法、样本特征或其他可能影响真正效应量的因素上存在差异时,这一模型最为合适。
- 随机效应模型通常产生更宽的置信区间,反映了研究间变异性的额外不确定性。
- 结果在更广泛的研究群体中更具普遍性,而不仅仅是纳入元分析的研究。
- 在社会和行为科学中,这一模型通常更为现实,因为真正的效应可能在不同的背景或人群中有所不同。
第 10 步:敏感性分析
通过使用不同的统计方法、模型(固定效应和随机效应)或纳入标准重复分析,评估您的发现的稳健性。这有助于确定结果对过程中做出的选择有多敏感。
敏感性分析通过揭示发现对过程中做出的各种决策和假设的稳健性,增强了元分析。它有助于确定从元分析得出的结论是否在使用不同的方法、标准或数据子集时仍然成立。
这一点尤为重要,因为关于如何进行元分析的最佳方法可能存在不同意见,探索这些变化至关重要。
敏感性分析对更稳健的元分析的贡献:
- 评估不同统计方法的影响:敏感性分析可以涉及使用不同的统计方法计算总体效应,如固定效应和随机效应模型。这种比较有助于确定所选择的统计模型是否显著影响总体结果。例如,在心肌梗死后 β 受体阻滞剂的元分析中,固定效应和随机效应模型得出了几乎相同的总体估计。这表明元分析结果对所使用的统计方法具有弹性。
- 评估试验质量和规模的影响:通过有和无质量存疑或规模不同的试验的数据进行分析,研究人员可以评估这些因素对总体发现的影响。
- 检查早期停止试验的影响:包括因中期分析结果而提前停止的试验可能会引入偏差。敏感性分析有助于确定这些试验的纳入或排除是否显著改变总体效应。例如,在 β 受体阻滞剂元分析中,排除早期停止的试验对总体估计的影响微乎其微。
- 处理发表偏倚:评估和处理发表偏倚非常重要,因为统计显著结果的研究比无显著或非显著结果的研究更容易被发表。这可以通过使用漏斗图、统计检验(如 Begg 和 Mazumdar 的秩相关检验、Egger 检验)和敏感性分析来实现。
通过系统地改变元分析的不同方面,研究人员可以评估其发现的稳健性,并解决对其结论有效性的潜在担忧。
这一过程确保了更可靠和可信的研究证据合成。
常见错误
在进行元分析时,可能会出现几个常见的陷阱,这些陷阱可能损害发现的有效性和可靠性。来源警告要避免这些错误,并提供指导以进行方法论严谨的元分析。
- 研究数量不足:如果可用的主要研究太少,元分析可能不合适。虽然技术上可以用两个研究进行元分析,但研究社区可能不会认为基于有限数量研究的发现是可靠证据。少量研究可能表明研究领域尚未成熟到可以进行有意义的综合。
- 不适当的组合研究:元分析不应简单地不加区分地组合研究。避免“苹果和橙子”的问题,即将具有不同研究目标、设计、测量或样本的研究不当组合。这种做法可能会掩盖研究之间的重大差异并导致误导性结论。
- 误读异质性:一个常见错误是将 Q 统计量或异质性检验的 p 值作为异质性的唯一指标。虽然这些统计量可以指示异质性,但它们不能量化效应量的变异程度。
- 过度依赖已发表的研究:这种对已发表文献的依赖会引入发表偏倚的风险,即统计显著或有利结果的研究更有可能被发表。未能承认和处理发表偏倚可能导致高估真正效应量。
- 忽视研究质量:包括方法质量较差的研究会偏倚元分析的结果,导致不可靠和不准确的效应量估计。纳入哪些研究的决定应基于预定义的资格标准,以确保综合的质量和相关性。
- 过分关注统计显著性:过分强调总体效应的统计显著性而忽视其实用显著性是元分析中的一个关键错误,就像在主要研究中一样。同时考虑统计和临床或实质性显著性。
- 误读亚组分析中的显著性检验:当比较亚组之间的效应量时,仅仅观察到某一亚组的效应在统计上显著而另一亚组不显著是不够的。应对亚组之间的效应差异进行正式的统计显著性检验,或计算效应差异及其置信区间。
- 忽略依赖性:忽视效应量之间的依赖性,特别是在同一研究中提取多个效应量时,是一个错误。这种疏忽会增加 I 类错误率,并导致对平均效应量和标准误差的不准确估计。
- 报告不充分:未能透明和全面地报告元分析过程是一个关键错误。元分析应包括详细书面协议,概述研究问题、搜索策略、纳入标准和分析方法。
阅读清单
- Bar-Haim, Y., Lamy, D., Pergamin, L., Bakermans-Kranenburg, M. J., & Van Ijzendoorn, M. H. (2007). 威胁相关注意力偏差在焦虑和非焦虑个体中的元分析研究. Psychological bulletin, 133(1), 1.
- Borenstein, M., Hedges, L. V., Higgins, J. P., & Rothstein, H. R. (2021). _元分析导论_. John Wiley & Sons.
- Crits-Christoph, P. (1992). 元分析. American Journal of Psychiatry, 149, 151-158.
- Duval, S. J., & Tweedie, R. L. (2000). 一种非参数的“修剪和填充”方法来处理元分析中的发表偏倚. Journal of the American Statistical Association, 95(449), 89–98.
- Egger, M., Davey Smith, G., Schneider, M., & Minder, C. (1997). 通过简单图形测试检测元分析中的偏倚. BMJ, 315(7109), 629–634.
- Egger, M., Smith, G. D., & Phillips, A. N. (1997). 元分析:原则和程序. Bmj, 315(7121), 1533-1537.
- Field, A. P., & Gillett, R. (2010). 如何进行元分析. British Journal of Mathematical and Statistical Psychology, 63(3), 665-694.
- Hedges, L. V., & Pigott, T. D. (2004). 元分析中调节变量统计检验的效能. Psychological methods, 9(4), 426.
- Hedges, L. V., & Olkin, I. (2014). 元分析的统计方法. Academic press.
- Hofmann, S. G., Sawyer, A. T., Witt, A. A., & Oh, D. (2010). 基于正念的疗法对焦虑和抑郁的影响:元分析综述. Journal of consulting and clinical psychology, 78(2), 169.
- Littell, J. H., Corcoran, J., & Pillai, V. (2008). 系统评价和元分析. Oxford University Press.
- Lyubomirsky, S., King, L., & Diener, E. (2005). 频繁积极情绪的好处:幸福是否导致成功?. Psychological bulletin, 131(6), 803.
- Macnamara, B. N., & Burgoyne, A. P. (2022). 成长心态干预是否影响学生的学业成绩? 系统评价和元分析及最佳实践建议. Psychological Bulletin.
- Polanin, J. R., & Pigott, T. D. (2015). 元分析统计显著性检验的使用. Research Synthesis Methods, 6(1), 63-73.
- Rodgers, M. A., & Pustejovsky, J. E. (2021). 在存在依赖效应量的情况下评估选择性报告的元分析方法. Psychological methods, 26(2), 141.
- Rosenthal, R. (1991). 元分析:综述. Psychosomatic medicine, 53(3), 247-271.
- Tipton, E., Pustejovsky, J. E., & Ahmadi, H. (2019). 1974年至2018年间元回归的历史:技术、概念和实际发展. Research synthesis methods, 10(2), 161-179.
- Zhao, J. G., Zeng, X. T., Wang, J., & Liu, L. (2017). 社区居住老年人补充钙或维生素 D 与骨折发生率的关联:系统评价和元分析. Jama, 318(24), 2466-2482.
希望这些翻译对你有帮助!如果有任何进一步的问题或需要调整的地方,请告诉我。
引用来源
本文翻译自以下网站:
simplypsychology.org
使用声明
本文仅供教育和参考用途。如需转载或引用,请注明出处和作者。
如果你有任何问题或建议,请随时联系微信公众号。