Meta 分析可定量、科学地整合研究结果,常用的两种统计模型为固定效应模型和随机效应模型,在实际运用中选择合适的 Meta 分析合并模型非常重要。本文介绍经典 Meta 分析统计模型的新观点,及其假设、结果解释,探讨合理选择模型时应考虑的因素,并给出推荐建议。
Meta 分析可定量、科学地整合研究结果,已在许多科学领域取得显著成果[1]。在医学领域常可用于比较不同干预措施有益还是有害[2]。一般认为,经典 Meta 分析合并数据最主要的统计模型是固定效应(fixed-effect,FE)模型和随机效应(random-effect,RE)模型[3, 4]。合理选择 Meta 分析合并模型非常重要,在 Meta 分析实践中,一些研究者首先选用 FE 模型,然后进行效应量的异质性检验(如,Q 统计量),若异质性检验无统计学意义,则认为 FE 模型适合于数据,宜采用 FE 模型分析;若异质性检验有统计学意义,则认为 FE 模型不适合于数据,宜采用 RE 模型分析[3]。但这类应当避免的模型选择错误可影响整合研究结果的准确性,在第 6 版《Cochrane 干预措施系统评价员手册》[5]明确指出:“决不应该根据异质性统计检验做出使用 FE 或 RE 模型的选择”。因此,本文在复习文献基础上,介绍经典 Meta 分析统计模型的新观点及其假设、结果解释,探讨合理选择模型时应考虑的因素,以及如何合理选择应用。
1 Meta 分析的基本原理
经典 Meta 分析是典型的二步过程,其基本原理是[5]:第一步,计算纳入 Meta 分析的每个研究的统计量。用相同方法来描述每个研究干预的观测效应量。第二步,通过对每个研究干预的观测效应量进行加权取平均数来获得总的合并干预效应。其公式为:
![]() |
式中, 为第 i 个研究中的干预效应(如,比值比对数、相对危险比对数、风险比对数、率差、均数差、标化均数差等效应量),
为第 i 个研究的权重。
从公式(1)可知,如果每个研究的权重相同,则加权平均数等于干预效应的平均值。
2 Meta 分析统计模型及其假设与解释
经典 Meta 分析的统计模型对于计算和解释 Meta 分析的结果非常重要,但由于 FE 和 RE 统计模型采用相似的公式计算统计量,有时可能得到相似的结果,以至常被误认为两个模型可相互替换使用。但实际上,不同模型基于不同假设,并且提供不同的参数估计值。
FE 模型[4, 6, 7]假设纳入 Meta 分析的所有研究均有一个相同的干预效应(量级和方向均相同),不同研究的观测效应量之间的差异均由抽样误差所示(如图 1 左侧部分所示)。合并效应量是研究特定效应量的加权平均数;每个研究分配到的权重等于研究内效应量方差的倒数;大样本研究所占权重大幅度高于小样本研究;研究的精度越大,对合并效应量的贡献度就越大;故统计推断有可能受到纳入分析的样本量影响。

RE 模型[4, 6, 7]假设纳入分析的研究间干预效应可以不同,观测效应量的不同由随机误差和真实干预效应不同所致(图 1 右则部分所示)。合并效应量是研究特定效应量的加权平均数;每个研究分配到的权重等于研究内效应量方差与研究间异质性方差和的倒数;大样本研究占权重高于小样本研究,但大样本研究所占权重比在 FE 模型中小;对未来研究干预效应的预测更可靠;预测区间可表达真实效应量离散程度,可用于解释单个研究真实效应量的预测范围。
Bender[8]、Rice[9]等根据研究目的和假设等将 Meta 分析统计模型拓展为三个:共同效应(common-effect,CE)模型、FE模型和 RE 模型,请注意此处的 FE 模型与经典“FE 模型”的英文表达方式不同,在最新版 Stata 16.0 软件中关于 Meta 分析的统计模块采用的是这三种模型[10]。假设纳入分析的第 (
)个研究的观测效应量为
,其相应方差为
,真实效应量为
,研究间异质性方差为
;描述第 i 个研究的抽样误误差的随机变量为
,描述研究间异质性的随机变量为
,合并效应量为
,则三个模型的表达、假设、结果解释等比较如表 1 所示,从中可以看出,Bender 等提出的 CE 模型和 FE 模型使用的加权平均统计量相同,因此所获得的结果也相同。

3 不同模型的合理选择依据和建议
Meta 分析中如何选择统计模型,历来存有争议。不同的统计学家和临床研究人员可能偏爱不同的统计模型[11],即使是第 6 版《Cochrane 干预措施系统评价员手册》也未能提供权威的统一推荐意见[5]。笔者认为,应从统计模型假说、Meta 分析目的、纳入 Meta 分析的研究数量和样本量、研究间异质性、抽样框架等不同方面综合考虑来选择合适的统计模型。
3.1 统计模型假说
如果假定纳入 Meta 分析的研究具有共同的效应量,则可选用 CM 模型,但一般认为跨研究间干预效应完全相同是难以置信的(除非干预毫无效果)[5],这也是 CM 模型最主要的局限[8]。如果假定研究具有不同的干预效应,但效应量是“固定的”,则可选用 FE 模型;如果效应量是“随机的”,则可选用 RE 模型。
3.2 Meta 分析目的
如果研究者的意图仅仅是获得纳入 Meta 分析研究的干预效应平均值,则选用 FE 模型;如果研究意图不仅仅是获得纳入 Meta 分析研究的干预效应平均值,而是要了解推广应用到更为广泛的人群的效应,则可选用 RE 模型[11, 12]。
3.3 研究数量和样本量
纳入 Meta 分析的研究数量足够多时选择 RE 模型,数量少时宜选择 FE 模型[12]。虽然 RE 模型通常情况下是合适的模型,但当研究数量非常少()时,因难以准确估计研究间方差,宜选择 FE 模型[3, 11, 13]。特别是,当研究数量
时,采用 CE 模型或 FE 模型,但更倾向于选择 CE 模型,除非有违背 CE 模型假设的强假设[8]。但需要指出的是,即使是研究数量少(k=2~4)时,从技术上而言仍然可以评估异质性(如,采用贝叶斯方法),因为异质性评价是系统评价/Meta 分析的基本步骤。针对同一研究问题,当一项研究样本量非常大且比其他的一个或多个小样本研究结果更可靠时,选择 FE 模型[11]。
3.4 研究间异质性
系统评价/Meta 分析中研究间变异性称为异质性,一般分为临床异质性(研究对象、干预措施、测量结局等方面的变异性)、方法学异质性(研究设计、测量工具、风险偏倚等方面的变异性)、统计学异质性(不同研究间干预效应方面的变异性),CE 模型没有考虑异质性,而 FE 模型和 RE 模型均考虑了异质性。系统评价员在解释结果时必须要考虑统计学异质性,特别是合并效应结果在方向上有变异时[5]。在实践中,如果要合并的研究间结果异质性非常大,则不宜进行定量合并[8],即不做 Meta 分析[5]。当可以预料到一定程度的异质性、但合并研究的结果重要时,可以用 RE 模型[8]。尽管系统评价员的模型选择对结果通常影响不大,但当研究结果异质性显著时,理解模型选择的原理可以帮助医师更好地解读研究结果[11]。
3.5 抽样框架
一般情况下,应当基于抽样框架选择统计模型,因此在选择模型时应该关注纳入 Meta 分析的研究是如何抽样的,而不是异质性检验的统计学结果。在实践中,在系统评价/Meta 分析的研究中纳入的研究人群一般不同来自同一个群体,从逻辑上讲,应当选择 RE 模型来拟合数据。
综上所述,笔者建议,在制订系统评价/Meta 分析研究方案时就应该考虑选择合适的模型,并且要根据研究目的和研究者对适用于数据模型的主观假设而定。基于 RE 模型的假说和抽样框架更符合实际、统计推断目的对研究者而言更有吸引力、从数学角度而言 CE 和 FE 模型是 RE 模型的特例等方面来考虑,除了使用 RE 模型不可能(如只有一个研究)、不合理(异质性参数估计不可靠)等情况外,在 Meta 分析时应首先选用 RE 模型。最后,再次强调《Cochrane 干预措施系统评价员手册》的重要观点:决不应该根据异质性统计检验做出使用 FE 或 RE 模型的选择。
4 实例分析
以一个 Cochrane 系统评价[14]为例说明如何选择和理解经典 Meta 分析中不同效应模型的使用。选取该系统评价中观察镁离子对心肌梗死患者死亡率影响的二分类数据,以 R 软件(ver 4.0.0)中的 meta 扩展包(ver 4.14-0)重新分析,以比值比(odds ratio,OR)为效应量,拟合经典的 FE 和 RE 模型,绘制森林图如图 2 所示。主要结果:共纳入 22 个研究,具有中度异质性(I2=64%,),得到 OR 点估计值及 95% 置信区间(confidence interval,CI)分别为 0.99(0.94,1.05)和 0.58(0.43,0.78),两者结果有明显的不同。

按经典的 FE 和 RE 等“两模型理论”分析:从图 2 中可以发现,22 个研究中,大多数研究样本量较少、但显示静脉注射镁离子明显降低死亡率(如 Gyamlani 2000、Shechter 1995 等研究);而 ISIS-4 1995、Urek 1996、Felstedt 1991 等研究和其他研究在效应量方向上有明显不同,显示静脉注射镁离子无获益。研究间结果差异会降低区间估计值的置信度,可以反映在 RE 模型较宽的 CI 上,似乎选择 RE 模型更适用。但本数据的情况特殊,即显示静脉注射镁离子无获益的 2 个研究的样本量较大,尤其是 ISIS-4 1995 研究的样本量占到整个系统评价样本量的 80%,令系统评价员更倾向于相信大样本研究的结果,从图 2 中可以发现,FE 模型赋予大样本研究的权重明显大于 RE 模型(74.9% vs. 12.7%),说明 FE 模型更重视大样本研究的结果,因此理论上宜选择 FE 模型,而实际上该系统评价也是选择的 FE 模型[14]。如果仅按传统方法基于异质性检验结果来选择效应模型,则会因存在异质性而选择 RE 模型,可能令临床证据使用者和卫生政策决策者陷入误区。
按新近的 CE、FE 和 RE“三模型理论”分析:基于模型假设和研究目的等方面考虑选择合适的模型。① CE 模型假定纳入 Meta 分析中所有研究的效应量均相同,且等于真实值,研究目的在于估计共同的效应量(真实值),但从图 2 中可发现,该假设难以成立,不建议选择。② FE 模型允许研究的效应量不同,但总体参数是固定数量,研究目的在于观察纳入 Meta 分析各研究的效应量平均值。如果纳入 Meta 分析中不同研究的真实效应不同而研究目的仅是对纳入 Meta 分析研究的效应量平均值感兴趣,并进行推断,则可选择 FE 模型。因此,本例选择 FE 模型较为合理。③ RE 模型认为,纳入 Meta 分析的研究效应量不同,而且纳入的研究只是从更大的研究群体中抽样,因此 RE 模型的研究目的是基于抽样的研究推断总体研究,推断目标总体参数(真实值)是各研究量效应量分布的均数,如本例中纳入 Meta 分析各研究的效应量(各个研究的 lnOR)是来自均数为−0.54、标准差为 0.15 的正态分布,如图 3 所示。虽然系统评价员有 95% 的信心认为在(−0.84,−0.25)区间包含真实值(OR 对数尺度),但是不能确定由本次系统评价 22 个研究所构造的 95%CI 是否真的包含真实值。在经典统计学中,参数是固定的但未知,因此一个特定的区间总是包含或是绝对不包含真实值[15],而实际上 ISIS-4 1995、Felstedt 1991 这两个大样本研究的效应量(lnOR)远离均数值,且在 95%CI 区域外,提示我们效应量真实值可能在 95%CI 之外。

Meta 分析可定量、科学地整合研究结果,已在许多科学领域取得显著成果[1]。在医学领域常可用于比较不同干预措施有益还是有害[2]。一般认为,经典 Meta 分析合并数据最主要的统计模型是固定效应(fixed-effect,FE)模型和随机效应(random-effect,RE)模型[3, 4]。合理选择 Meta 分析合并模型非常重要,在 Meta 分析实践中,一些研究者首先选用 FE 模型,然后进行效应量的异质性检验(如,Q 统计量),若异质性检验无统计学意义,则认为 FE 模型适合于数据,宜采用 FE 模型分析;若异质性检验有统计学意义,则认为 FE 模型不适合于数据,宜采用 RE 模型分析[3]。但这类应当避免的模型选择错误可影响整合研究结果的准确性,在第 6 版《Cochrane 干预措施系统评价员手册》[5]明确指出:“决不应该根据异质性统计检验做出使用 FE 或 RE 模型的选择”。因此,本文在复习文献基础上,介绍经典 Meta 分析统计模型的新观点及其假设、结果解释,探讨合理选择模型时应考虑的因素,以及如何合理选择应用。
1 Meta 分析的基本原理
经典 Meta 分析是典型的二步过程,其基本原理是[5]:第一步,计算纳入 Meta 分析的每个研究的统计量。用相同方法来描述每个研究干预的观测效应量。第二步,通过对每个研究干预的观测效应量进行加权取平均数来获得总的合并干预效应。其公式为:
![]() |
式中, 为第 i 个研究中的干预效应(如,比值比对数、相对危险比对数、风险比对数、率差、均数差、标化均数差等效应量),
为第 i 个研究的权重。
从公式(1)可知,如果每个研究的权重相同,则加权平均数等于干预效应的平均值。
2 Meta 分析统计模型及其假设与解释
经典 Meta 分析的统计模型对于计算和解释 Meta 分析的结果非常重要,但由于 FE 和 RE 统计模型采用相似的公式计算统计量,有时可能得到相似的结果,以至常被误认为两个模型可相互替换使用。但实际上,不同模型基于不同假设,并且提供不同的参数估计值。
FE 模型[4, 6, 7]假设纳入 Meta 分析的所有研究均有一个相同的干预效应(量级和方向均相同),不同研究的观测效应量之间的差异均由抽样误差所示(如图 1 左侧部分所示)。合并效应量是研究特定效应量的加权平均数;每个研究分配到的权重等于研究内效应量方差的倒数;大样本研究所占权重大幅度高于小样本研究;研究的精度越大,对合并效应量的贡献度就越大;故统计推断有可能受到纳入分析的样本量影响。

RE 模型[4, 6, 7]假设纳入分析的研究间干预效应可以不同,观测效应量的不同由随机误差和真实干预效应不同所致(图 1 右则部分所示)。合并效应量是研究特定效应量的加权平均数;每个研究分配到的权重等于研究内效应量方差与研究间异质性方差和的倒数;大样本研究占权重高于小样本研究,但大样本研究所占权重比在 FE 模型中小;对未来研究干预效应的预测更可靠;预测区间可表达真实效应量离散程度,可用于解释单个研究真实效应量的预测范围。
Bender[8]、Rice[9]等根据研究目的和假设等将 Meta 分析统计模型拓展为三个:共同效应(common-effect,CE)模型、FE模型和 RE 模型,请注意此处的 FE 模型与经典“FE 模型”的英文表达方式不同,在最新版 Stata 16.0 软件中关于 Meta 分析的统计模块采用的是这三种模型[10]。假设纳入分析的第 (
)个研究的观测效应量为
,其相应方差为
,真实效应量为
,研究间异质性方差为
;描述第 i 个研究的抽样误误差的随机变量为
,描述研究间异质性的随机变量为
,合并效应量为
,则三个模型的表达、假设、结果解释等比较如表 1 所示,从中可以看出,Bender 等提出的 CE 模型和 FE 模型使用的加权平均统计量相同,因此所获得的结果也相同。

3 不同模型的合理选择依据和建议
Meta 分析中如何选择统计模型,历来存有争议。不同的统计学家和临床研究人员可能偏爱不同的统计模型[11],即使是第 6 版《Cochrane 干预措施系统评价员手册》也未能提供权威的统一推荐意见[5]。笔者认为,应从统计模型假说、Meta 分析目的、纳入 Meta 分析的研究数量和样本量、研究间异质性、抽样框架等不同方面综合考虑来选择合适的统计模型。
3.1 统计模型假说
如果假定纳入 Meta 分析的研究具有共同的效应量,则可选用 CM 模型,但一般认为跨研究间干预效应完全相同是难以置信的(除非干预毫无效果)[5],这也是 CM 模型最主要的局限[8]。如果假定研究具有不同的干预效应,但效应量是“固定的”,则可选用 FE 模型;如果效应量是“随机的”,则可选用 RE 模型。
3.2 Meta 分析目的
如果研究者的意图仅仅是获得纳入 Meta 分析研究的干预效应平均值,则选用 FE 模型;如果研究意图不仅仅是获得纳入 Meta 分析研究的干预效应平均值,而是要了解推广应用到更为广泛的人群的效应,则可选用 RE 模型[11, 12]。
3.3 研究数量和样本量
纳入 Meta 分析的研究数量足够多时选择 RE 模型,数量少时宜选择 FE 模型[12]。虽然 RE 模型通常情况下是合适的模型,但当研究数量非常少()时,因难以准确估计研究间方差,宜选择 FE 模型[3, 11, 13]。特别是,当研究数量
时,采用 CE 模型或 FE 模型,但更倾向于选择 CE 模型,除非有违背 CE 模型假设的强假设[8]。但需要指出的是,即使是研究数量少(k=2~4)时,从技术上而言仍然可以评估异质性(如,采用贝叶斯方法),因为异质性评价是系统评价/Meta 分析的基本步骤。针对同一研究问题,当一项研究样本量非常大且比其他的一个或多个小样本研究结果更可靠时,选择 FE 模型[11]。
3.4 研究间异质性
系统评价/Meta 分析中研究间变异性称为异质性,一般分为临床异质性(研究对象、干预措施、测量结局等方面的变异性)、方法学异质性(研究设计、测量工具、风险偏倚等方面的变异性)、统计学异质性(不同研究间干预效应方面的变异性),CE 模型没有考虑异质性,而 FE 模型和 RE 模型均考虑了异质性。系统评价员在解释结果时必须要考虑统计学异质性,特别是合并效应结果在方向上有变异时[5]。在实践中,如果要合并的研究间结果异质性非常大,则不宜进行定量合并[8],即不做 Meta 分析[5]。当可以预料到一定程度的异质性、但合并研究的结果重要时,可以用 RE 模型[8]。尽管系统评价员的模型选择对结果通常影响不大,但当研究结果异质性显著时,理解模型选择的原理可以帮助医师更好地解读研究结果[11]。
3.5 抽样框架
一般情况下,应当基于抽样框架选择统计模型,因此在选择模型时应该关注纳入 Meta 分析的研究是如何抽样的,而不是异质性检验的统计学结果。在实践中,在系统评价/Meta 分析的研究中纳入的研究人群一般不同来自同一个群体,从逻辑上讲,应当选择 RE 模型来拟合数据。
综上所述,笔者建议,在制订系统评价/Meta 分析研究方案时就应该考虑选择合适的模型,并且要根据研究目的和研究者对适用于数据模型的主观假设而定。基于 RE 模型的假说和抽样框架更符合实际、统计推断目的对研究者而言更有吸引力、从数学角度而言 CE 和 FE 模型是 RE 模型的特例等方面来考虑,除了使用 RE 模型不可能(如只有一个研究)、不合理(异质性参数估计不可靠)等情况外,在 Meta 分析时应首先选用 RE 模型。最后,再次强调《Cochrane 干预措施系统评价员手册》的重要观点:决不应该根据异质性统计检验做出使用 FE 或 RE 模型的选择。
4 实例分析
以一个 Cochrane 系统评价[14]为例说明如何选择和理解经典 Meta 分析中不同效应模型的使用。选取该系统评价中观察镁离子对心肌梗死患者死亡率影响的二分类数据,以 R 软件(ver 4.0.0)中的 meta 扩展包(ver 4.14-0)重新分析,以比值比(odds ratio,OR)为效应量,拟合经典的 FE 和 RE 模型,绘制森林图如图 2 所示。主要结果:共纳入 22 个研究,具有中度异质性(I2=64%,),得到 OR 点估计值及 95% 置信区间(confidence interval,CI)分别为 0.99(0.94,1.05)和 0.58(0.43,0.78),两者结果有明显的不同。

按经典的 FE 和 RE 等“两模型理论”分析:从图 2 中可以发现,22 个研究中,大多数研究样本量较少、但显示静脉注射镁离子明显降低死亡率(如 Gyamlani 2000、Shechter 1995 等研究);而 ISIS-4 1995、Urek 1996、Felstedt 1991 等研究和其他研究在效应量方向上有明显不同,显示静脉注射镁离子无获益。研究间结果差异会降低区间估计值的置信度,可以反映在 RE 模型较宽的 CI 上,似乎选择 RE 模型更适用。但本数据的情况特殊,即显示静脉注射镁离子无获益的 2 个研究的样本量较大,尤其是 ISIS-4 1995 研究的样本量占到整个系统评价样本量的 80%,令系统评价员更倾向于相信大样本研究的结果,从图 2 中可以发现,FE 模型赋予大样本研究的权重明显大于 RE 模型(74.9% vs. 12.7%),说明 FE 模型更重视大样本研究的结果,因此理论上宜选择 FE 模型,而实际上该系统评价也是选择的 FE 模型[14]。如果仅按传统方法基于异质性检验结果来选择效应模型,则会因存在异质性而选择 RE 模型,可能令临床证据使用者和卫生政策决策者陷入误区。
按新近的 CE、FE 和 RE“三模型理论”分析:基于模型假设和研究目的等方面考虑选择合适的模型。① CE 模型假定纳入 Meta 分析中所有研究的效应量均相同,且等于真实值,研究目的在于估计共同的效应量(真实值),但从图 2 中可发现,该假设难以成立,不建议选择。② FE 模型允许研究的效应量不同,但总体参数是固定数量,研究目的在于观察纳入 Meta 分析各研究的效应量平均值。如果纳入 Meta 分析中不同研究的真实效应不同而研究目的仅是对纳入 Meta 分析研究的效应量平均值感兴趣,并进行推断,则可选择 FE 模型。因此,本例选择 FE 模型较为合理。③ RE 模型认为,纳入 Meta 分析的研究效应量不同,而且纳入的研究只是从更大的研究群体中抽样,因此 RE 模型的研究目的是基于抽样的研究推断总体研究,推断目标总体参数(真实值)是各研究量效应量分布的均数,如本例中纳入 Meta 分析各研究的效应量(各个研究的 lnOR)是来自均数为−0.54、标准差为 0.15 的正态分布,如图 3 所示。虽然系统评价员有 95% 的信心认为在(−0.84,−0.25)区间包含真实值(OR 对数尺度),但是不能确定由本次系统评价 22 个研究所构造的 95%CI 是否真的包含真实值。在经典统计学中,参数是固定的但未知,因此一个特定的区间总是包含或是绝对不包含真实值[15],而实际上 ISIS-4 1995、Felstedt 1991 这两个大样本研究的效应量(lnOR)远离均数值,且在 95%CI 区域外,提示我们效应量真实值可能在 95%CI 之外。
