引用本文: 徐桂兴, 李涓, 银子涵, 李雨谿, 付亚男, 周俊, 梁繁荣. 针刺治疗原发性抑郁症系统评价的方法学质量及适用性评价. 中国循证医学杂志, 2019, 19(11): 1333-1340. doi: 10.7507/1672-2531.201903092 复制
抑郁症是由多种原因导致的精神疾病,临床表现为持续心情抑郁、思维迟钝、兴趣减退、意志活动减少,并伴有焦虑不安、食欲减退、性功能减退、睡眠障碍等症状[1]。随着社会竞争越来越激烈,抑郁症的发病率逐年增高,在年满 20 岁的成年人中,抑郁症患者正以每年 11.3% 的速率增加[2]。抑郁症被认为是全球疾病负担的十大病种之一。据 WHO 估计,到 2020 年,抑郁症或将成为全球第二大疾病负担[3]。目前抑郁症的治疗多采用西药干预,虽然这些药物能够缓解患者的抑郁情绪,但几乎都会带来不同程度的不良反应,影响患者心血管、消化、内分泌等系统的稳态[4],若长期大剂量服用抗抑郁药物,不仅可产生耐药性,抑制性功能,还可引起单胺类递质合成障碍,导致抑郁的复发甚至加重。新近发布的 Meta 分析结果显示,与安慰剂相比,大部分抗抑郁药物在改善患者的精神状态方面并没有优势[5, 6]。
高质量的证据一直是循证医学实践的基石,系统评价作为对原始研究的证据整合,一直被认为具有高质量和可信度。但由于原始研究的质量和系统评价者对证据合成的理解差异,导致目前系统评价质量的差异很大,从而对临床医生决策的影响不一。系统评价再评价是根据一定的标准对已有的某疾病治疗、诊断等方面的系统评价进行再次综合评定的方法[7]。因系统评价再评价纳入的本就是已具有较高质量的数据整合的证据,再评价得出的结论针对性更强,故系统评价再评价对纳入的系统评价的质量需要进行严格评价,从而避免各种可能潜在的偏倚。
目前已有的针灸治疗原发性抑郁症的系统评价结果显示,针灸对抑郁症的疗效存在争议,研究结果间存在较大差异,甚至结论相反,导致临床对于针灸治疗抑郁症疗效仍不确定。之前也有外国学者在 2011 年对针刺治疗抑郁症的系统评价进行过质量评价,但仅采用了 OQAQ 量表(Overview Quality Assessment Questionnaire,OQAQ),其主要关注系统评价中容易产生偏倚的几方面,未全面对其方法学质量和证据本体进行评价。且近年来新增了多项关于针刺治疗原发性抑郁症的系统评价,参考已有研究的建议[8],本研究选择 AMSTAR 2(Assessment of Multiple Systematic ReviewsⅡ) 清单、ROBIS(Risk of Bias in Systematic Review)清单和 CASP-S.R(Critical Appraisal Skill Program in Systematic Review)清单来全面评价针刺治疗原发性抑郁症系统评价的方法学质量及其适用性,以期为未来开展高质量针刺治疗原发性抑郁症研究提供参考。
1 资料与方法
1.1 纳入与排除标准
1.1.1 研究类型
针刺治疗原发性抑郁症的系统评价和 Meta 分析。
1.1.2 研究对象
原发性抑郁症患者,其年龄、种族和性别等不限。
1.1.3 干预措施
试验组:针刺、电针、耳针、温针、头皮针等或联合使用;对照组:西药、安慰剂和假针刺。
1.1.4 结局指标
① 总有效率;② 汉密尔顿抑郁量表;③ 抑郁自评量表;④ 不良反应等。
1.1.5 排除标准
① 重复发表的文献;② 非中英文文献;③ 质量评价或方法学研究的文献;④ 系统评价计划书。
1.2 文献检索策略
计算机检索 Web of Science、EMBase、PubMed、The Cochrane Library、CNKI、CBM、WanFang Data 和 VIP 数据库,检索时限均从建库至 2018 年 12 月 5 日。中文检索词包括:针灸、针刺、电针、温针、头皮针、耳针、穴位、抑郁症、郁证、抑郁、系统评价、系统综述、Meta 分析和荟萃分析等;英文检索词包括:acupuncture、electropuncture、auricular acupuncture、warm acupuncture、scalp acupuncture、systematic evaluation、systematic assessment、systematic review、meta-analysis、tristimania、depression。以 CNKI 为例,其具体检索策略见框 1。

1.3 文献筛选与资料提取
由 2 位评价员独立筛选文献、提取资料并交叉核对,如遇分歧,则咨询第三方协助判断,缺乏的资料尽量与作者联系予以补充。文献筛选时首先阅读文题和摘要,在排除明显不相关的文献后,进一步阅读全文,以确定最终是否纳入。资料提取内容主要包括:① 纳入研究的基本信息,包括研究题目、第一作者、发表时间、文献数量等;② 研究对象的基线特征;③ 干预措施的具体细节;④ 质量评价的关键要素,包括 AMSTAR 2 工具条目、ROBIS 工具条目、CASP-S.R 条目工具等;⑤ 所关注的结局指标和结果测量数据。
1.4 方法学质量评价方法和适用性评价
根据 AMSTAR 2 清单[9, 10]的 16 个条目对针刺治疗原发性抑郁症系统评价的方法学质量进行评价。每个条目均采用“是”、“否”和“部分是”进行描述,“是”得 2 分,“否”得 0 分,“部分是”得 1 分。采用 AMSTAR 2 总分评价系统评价的总体质量:23~32 分为高质量研究;13~22 分为中等质量研究;0~12 分为低质量研究。
应用 ROBIS 工具评价纳入研究的偏倚风险,使用“是”、“否”和“不清楚”评价每一条目,最后根据整体评价结果,评价每个研究的偏倚风险[11, 12]。
采用 CASP-S.R 清单中研究结果是否适用条目评价纳入研究的适用性,每个条目均采用“是”、“否”和“不清楚”进行描述,最后统计纳入所有系统评价的各条目报道次数。
2 结果
2.1 文献筛选流程及结果
初检出相关文献 530 篇,经逐层筛选后,最终纳入 18 篇系统评价/Meta 分析。文献筛选流程见图 1。

*所检索的数据库及检出文献数具体如下:PubMed(
2.2 纳入研究的基本特征
纳入研究的基本特征见表 1。共纳入 18 篇文献[13-30],包括 12 篇中文文献[13-24]和 6 篇英文文献[25-30]。其中会议论文 1 篇[13],1 篇博士学位论文[14],1 篇硕士学位论文[15],15 篇为期刊公开发表文献[16-30],发表时间为 2005 年至 2017 年,其中以 2017 年最多(4 篇),治疗组干预措施为针刺、电针、手针、耳针、激光针、头针或针灸联合西药,对照组多用西药、安慰剂、假针刺、安慰针等。大部分研究认为针刺与西药疗效相当,但结果存在较大的异质性。

2.3 纳入研究的方法学质量评价结果
AMSTAR 2 工具评价结果见表 2,包括高质量研究 3 篇(16.6%),中等质量研究 12 篇(66.7%),低质量研究 3 篇(16.6%)。高质量研究中 2 篇[22, 26]为 24 分,一篇[15]为 26 分,中等质量研究得分在 14~21 分之间。

ROBIS 清单评价结果见图 2,结果显示,低偏倚风险研究 4 篇(22.2%),中偏倚风险研究 7 篇(38.9%),高低偏倚风险研究 7 篇(38.9%)。在具体条目中,影响研究的偏倚主要存在于所有目前纳入的研究均未进行注册,对其预定的研究方案不清楚;文献检索方面,仅 7 篇(38.9%)的研究属于低偏倚风险;在数据合成过程中对异质性的处理上,仅 5 篇(27.8%)的研究属于低偏倚风险;在数据提取与文献质量评价方面,仅 4 篇(22.2%)的研究属于低偏倚风险。

a:纳入研究存在偏倚的具体方面;b:纳入研究偏倚风险总结
2.4 纳入研究的研究结果适用性评价结果
根据 CASP-S.R 中关于研究结果是否适用的领域评价显示:4 篇(22.2%)的研究可能是适用于当地人群,并且所有研究均未设计获益与成本危害之间的关系,大部分研究(83.3%)都考虑了重要的结局指标(表 3)。

3 讨论
目前对抑郁症的发病机制缺乏统一的认识,在针刺治疗抑郁时的选穴与辩证也存在争议,针刺治疗的临床效果也受到质疑,限制了针刺疗法的特色与优势展现。尽管针刺治疗原发性抑郁症的系统评价很多,但结论不尽相同[13, 27]。因此对针刺治疗抑郁症的系统评价进行再评价刻不容缓。目前进行再评价的工具很多,如 AMSTAR 2、CASP、OQAQ、Sack’s quality assessment checklist(SQAC)和 Quality of reporting of meta-analysis(QUOROM)等是主要的工具[8]。本研究根据量表评价的内容选用常用的 AMSTAR 2,CASP 工具评价纳入研究的方法学质量以及临床适用性,同时针对研究是否存在偏倚采用 ROBIS 量表进行评价[11]。
本研究结果发现针刺治疗原发性抑郁症的系统评价在方法学质量方面,12 篇为中等质量研究,3 篇为高质量研究,3 篇为低质量研究。所有系统评价均未提供前期注册方案;10.6% 的研究文献筛选和数据提取不具有可重复性,这极大影响研究的质量;所有研究都进行了多数据库的检索,但只有 15.8% 的研究考虑了灰色文献,对研究结果的准确性造成了一定的影响;只有 15.8% 的研究提供了所有纳入排除文献的清单;有 1 项研究未对文献的科学性进行评价;26.3% 的研究未评估发表偏倚;77.8% 的研究未进行偏倚风险评价或者评价工具不完全适用;83.3% 的研究在进行 Meta 分析时未考虑纳入研究的质量或者偏倚风险对分析或其他证据整合的影响;72.2% 的研究在进行结果解释或者讨论时,未考虑纳入研究的偏倚风险;52.6% 的研究未说明研究是否涉及相关利益冲突。这些都是针刺治疗原发性抑郁症系统评价质量不高的原因。对临床研究进行注册可以有效地减少研究者在研究过程中根据结果改变研究计划的情况发生,从而减少研究的偏倚,使得研究结果更加可信。进行系统评价的研究,主要是利用已有的原始研究的数据进行二次整合,因此,对原始研究的收集与数据提取就显得尤为重要。数据库的选择和检索策略的制定是一个系统评价能够做好的第一步,但在针刺治疗原发性抑郁症的系统评价研究中,大部分的研究在检索上就出现了很多问题,主要是对于灰色文献的考虑不足。而大部分的灰色文献主要是一些阴性结果的研究,如未对灰色文献进行考虑,其对研究结果的影响就是夸大干预的疗效,出现更多的阳性结果。同时还存在部分研究在进行文献筛选、数据提取与文献质量评价时由一个人完成所有工作,这将增加研究过程中的误差以及增加研究者主观意愿对结果的影响,使得研究的偏倚进一步增加。在偏倚风险评估方面,大部分研究均没有进行有效评价,直接影响研究结果的可信度。这些在系统评价/Meta 分析中存在的不足,将极大影响研究结果的准确性,影响研究结果在临床实践中的使用。针对这些问题的存在,本研究建议今后进行系统评价的研究者应提前设计好研究方案,并对所要进行的研究进行注册,同时在对研究结果进行报道时,应该遵循 PRISMA 报告规范,对研究过程进行细致的报道,增加研究的科学性和可信度。
本研究的偏倚风险评价结果发现,61.2% 的研究存在偏倚,原因主要在研究注册、文献检索、数据的综合与解读上。因为对研究的前期设计缺少相关信息,因此我们不清楚研究是否完全根据预先设定的方案进行,在很大程度上增加了研究的偏倚风险。其次就是文献检索,其主要问题在 AMSTAR 2 部分条目已经讨论。最后是研究的重要部分,数据综合与结果的解读,本研究在进行数据提取时发现部分(11.1%)文献在进行数据综合时所选用的数据合并方法有问题,在有较高异质性时依旧选择固定效应模型,其大大增加了出现阳性结果的可能性;大部分研究在有异质性存在的情况下(83.3%)未进行敏感性分析,导致异质性对于结果稳定性影响如何并不清楚。同时在进行结果解读时,部分研究使用显著性差异等用语,仅强调有统计学意义的结果。针对这些问题,在 Meta 分析时,应该进行较为保守的数据综合方式,即在研究存在一定异质性时可以考虑采用随机效应模型,并且对于异质性的来源是研究结果当中应当重要呈现的内容,同时在进行结果陈述时注意统计结果的表达方式。
本研究还根据 CASP-S.R 清单对针刺治疗原发性抑郁症的适用性进行了评价,发现仅 38.9% 的研究可能适用于当地人群(仅检索国内数据库),但都没有考虑针刺干预的获益与成本之间的关系问题。因此在今后的研究中,建议能够根据人种或者地区等的不同进行亚组分析,以提高研究结果的外部真实性,同时建议在研究中考虑到卫生经济学等方面的内容,以提供全面的信息供临床医生和患者选择。
本研究存在的局限性:① 纳入研究语言限制在中英文,可能出现检索数据不全的情况,从而对研究产生影响;② 检索时间被限定,可能出现新的研究影响本结果;③ 纳入的大部分研究的干预措施复杂,影响临床应用;④ 本研究评价者的主观性对结果的影响;⑤ 本研究未进行数据综合,只进行了定性分析,无法定量得出研究结果。
综上所述,针刺治疗原发性抑郁症的系统评价属于中等质量水平,在改进方法学及提高研究结果的适用性上有很大空间。因此笔者建议:一方面,今后研究者在制作系统评价时,其方法学要根据 AMSTAR 2 清单进行,从而提高系统评价结果的可信度和科学性,同时能够考虑卫生经济学方面的研究内容,以供医生与患者更好的决策,在报告结果时根据 PRISMA 报告规范。另一方面,原始研究的质量直接影响其结局指标的评定,其原因与针刺的操作手法及腧穴配伍有着很大程度的关系,在针刺过程中实施盲法是很困难的。因此,我们研究人员在不断完善试验设计的同时应当将中医临床辩证、针灸诊疗的特色与现代的临床随机对照试验相结合,产生更多的具有中医特色的高质量、科学和精确的临床证据。
声明:本研究无任何利益冲突。