引用本文: 徐畅, 李玲, 邓可, 康德英, 李静, 陈进, 谭婧, 王雯, 刘佳利, 刘艳梅, 孙鑫. 抗凝药用于房颤患者队列研究的结果可信度评价工具的研发. 中国循证医学杂志, 2019, 19(2): 218-224. doi: 10.7507/1672-2531.201809087 复制
房颤(atrial fibrillation,AF)是临床最常见的快速心律失常现象之一,以心房激动频率高、心律绝对不齐为主要特征[1]。房颤发作时,心房失去有效的收缩功能,局部血液动力紊乱而形成血栓,血栓经血液运输到达其他组织器官将造成血栓栓塞性事件。在我国,房颤的人群患病率为 0.77%,男性高于女性,且随年龄增长而增加[2]。据统计,80 岁以上的人群中,房颤患病率高达 7%~8%[3]。按照病因,房颤可分为瓣膜性房颤、非瓣膜性房颤和孤立性房颤。瓣膜性房颤主要为风湿性心脏瓣膜疾病(二尖瓣狭窄为主)与心脏瓣膜置换术后的房颤;非瓣膜性房颤为不合并风湿性二尖瓣病变、机械或生物瓣膜置换术及二尖瓣成形术的情况下而出现的房颤;孤立性房颤则为不合并任何心脏病和全身系统性疾病的房颤。临床上非瓣膜性房颤最为常见,占所有房颤患者的 2/3 以上[4]。
抗凝药物常被用于预防房颤患者发生血栓事件。传统抗凝药物包括注射抗凝药或口服抗凝药维生素 K 拮抗剂;该类药物特异性差,在临床实际中存在疗效不可预测、需要长期监测和调整剂量等诸多局限,严重限制了其临床价值及应用[5]。新型口服抗凝药(New oral anticoagulant,NOACs)克服了这些局限,NOACs 代表药物包括利伐沙班(Rivaroxaban)、阿哌沙班(Apixaban)、达比加群(Dabigatran)及依度沙班(Edoxaban);已有 Ⅲ 期临床试验报告了各自的疗效安全性[6-8]。
抗凝药在临床使用广泛,越来越多的研究开始分析它们在真实世界中的有效性和安全性。真实世界研究一方面填补了 Ⅲ 期临床试验尚未回答的问题,为抗凝药的合理使用提供了更多的证据;但另一方面,不同研究之间的设计方法差别较大,结果及结论不尽相同,如何认识及解读这些证据仍存在许多不一致。由于当前尚无针对该类研究结果的评价工具,临床医师无法有效判断真实世界研究结果可信度,采用这些研究证据进行临床决策存在较大困难。本研究基于以上问题,采用循证医学理念,通过文献复习、头脑风暴、专家咨询法等方法拟制定能反映基于队列设计的抗凝药对房颤患者结局的研究结果可信度的评价量表,以期为临床实践和指南制作提供理论依据。
1 资料与方法
1.1 研究方法
本研究严格按照国际量表制作规范进行[9-11]。研究分 4 个步骤进行:第一步,全面、系统地检索相关或类似的方法学质量评价量表;根据检索出的量表,整理出所有可能反应观察性研究结果可信度的条目,并对上述条目进行去重、遴选;第二步:进行头脑风暴,对条目进行补充,形成初步条目集,经核心小组成员讨论后形成初步量表;第三步,召开内部专家会议,邀请本单位的流行病学、循证医学、临床医学专家对潜在遗漏的条目继续进行补充,并对初步量表条目进行多轮评价、筛选;第四步,召开外部专家咨询会,邀请国内知名流行病学、循证医学、临床医学专家对上一轮修改的量表进行外部评价,形成最终量表。
1.2 文献检索
1.2.1 纳入排除标准
本研究纳入研究为量表类方法学研究,因此无法按照 PICO 原则进行制定。根据核心小组讨论后,制定出如下纳入标准:① 主题为临床/流行病学研究方法学质量量表及相关研究的方法学研究或相关量表综述;② 量表及相关质量评价方法针对的研究类型为观察性研究,包括队列研究、病例-对照研究、数据库研究;③ 语言为中文或英文。排除标准如下:① 反映报告质量的量表;② 无法获取使用权限的量表;③ 英文文献的中文译本。
1.2.2 检索策略
由本课题研究小组制定检索策略。小组成员均有 5 年及以上文献检索经验,在国际上发表多篇高质量循证医学实证类及方法学论文。检索策略制定分为 3 步进行:首先进行关键词预检索,根据预检索结果,采用主题词和自由词结合布尔逻辑词、字段限制符拟定初始检索策略。然后再根据初检结果对检索策略进行讨论和修改完善。最后按修改后的检索策略在相关数据库进行试检索,并根据人机对话反馈的结果再次调整,以形成最终检索策略。
1.2.3 文献检索
计算机检索 2 个常用英文数据库(MEDLINE、EMbase)和 1 个中文数据库(CBM),检索时限为各数据库建库至 2017 年 12 月 19 日。同时手工检索相关综述的参考文献,并根据团队经验收集常用的观察性研究方法学质量评价量表,包括 NOS 量表、ROBINS-I 量表和 GRADE 工具。文献检索由 1 位课题主要承担人员单独进行。
1.2.4 文献筛选
由 2 位研究员进行文献筛选。首先由 1 位研究员将检索结果导入 EndNote X8.0 并查重,2 位研究员确认后进行标记与剔除。接着进一步阅读筛文献的题目及摘要,排除明显不符合纳入标准的文献后,另由 1 位研究员核查。最后,阅读全文,筛选出符合要求的文献。
1.3 条目收集和整理
1.3.1 条目收集
由 1 位课题主要承担人员单独负责条目收集。根据纳入文献量表或能反映方法学质量的内容(并非以条目出现,而是以整段文字描述某个方法学的内容)逐条进行数据库入库(事先采用 Excel 软件制定数据库),并标记各条目或内容出处。按照条目或内容的研究类型进行分类,在不改变原意的条件下对入库内容进行修整使之成为单个条目。
1.3.2 条目整理及关键词库建立
条目整理由证据合成小组成员共同进行。各成员仔细阅读每个条目及条目的说明,讨论确定各条目的意义以保证对其理解正确。接着由课题主要承担人员单独对条目的关键词进行提取形成关键词库,每个条目都对应 1 个关键词。意义类似或相同的条目采用统一的关键词。根据研究类别,采用 Excel 将条目关键词排序,对重复关键词仅保留 1 次,其余删除,形成初步关键词库。本研究针对队列研究,因此整理出关于队列研究的关键词库。
1.3.3 初步条目池
将关键词库的每一个关键词扩展成问句形式形成初步条目。课题小组随之对初步条目逐一讨论并进行首次修改。1 周后,小组成员召开小组讨论会对条目进行修改及完善,形成初步条目池。
1.4 头脑风暴
采用头脑风暴的方式对初步条目池进行补充、完善。
1.5 内部专家讨论
通过内部专家会讨论条目的表达、条目域的设置和条目问题设计,以形成初步量表。本次邀请中国循证医学中心及临床流行病学教研室的 4 位循证医学专业专家和 2 位临床流行病学专家,通过召开内部专家会议完善量表,评价初步条目池,同时商议量表的外形设计和基本框架。
1.6 外部专家咨询
邀请 10 余位国内相关领域专家定量评价上述量表条目的清晰性、适用性和重要性,并根据外部专家意见进一步修改,形成最终量表。外部专家咨询分 4 轮进行。会议工作包括 3 部分:第一部分:补充潜在遗漏的条目;第二部分:评价初步量表条目,删除不能反映结果可信度的条目;条目删除规则如下:所有专家一致认为该条目无法反应结果可信度,则进行删除;否则保留该条目进行后续评价;第三部分:评价剩余条目的表面效度,若条目表面效度差则需提出修改意见。(注:条目表面效度指某条目是否真实反映了该条目应该反映的内容)。
2 周后召开第二轮外部专家咨询会议,共 9 名专家参会。将前次会议形成的条目集及相关修改材料整理后以纸质版发放给与会专家,请专家对量表再次进行讨论及评价(删减新条目、评价剩余条目表面效度、整合重合的条目)。条目删减原则遵循首次会议原则。课题主要承担人员根据第二次会议中专家意见整理条目,并作好记录,形成完整量表。
第三轮外部专家咨询会议邀请循证医学领域、流行病学领域、临床专家、数据库研究专家、观察性研究相关专家、量表制作专家等 11 名。各专家发放纸质版中、英文版量表各 1 份。要求专家对每个条目清晰度、重要性进行 VAS 评分(总分 10 分)并判断。同时,参会专家再次对所有条目进行整合和删减。条目删减原则仍遵循首次会议原则。
1 周后继续召开第四轮专家会议。共邀请 10 名相关专家参与。由负责人将经前次外部专家会议意见修改后的量表及修改记录打印后发放给参会专家,继续进行评价。会议内容主要讨论条目说明,整合潜在条目,评价条目重要性及讨论整体可信度评价标准及评价方法等,最终达成一致意见,形成完整量表。
2 结果
2.1 文献筛选流程及结果
初检共获取 7 735 篇文献。经逐层筛选后纳入 17 篇[12-28]文献。纳入文献中共整理出 55 个关于观察性研究方法学质量评价工具,包括 780 个条目。文献筛选流程及结果见图 1。

*所检索的数据库及检出文献数具体如下:MEDLINE(
2.2 条目收集和整理结果
根据条目关键词提取、分类,剔除相同或意义相近关键词后,获得包括 46 个关键词的关键词池,形成 46 个条目组成初步条目池。经核心小组讨论后,对潜在条目进行补充、对与方法学无关条目进行剔除、并对意义具有部分重叠的条目进行整合后,形成 43 个条目的初级量表。
2.3 内部专家讨论
内部专家讨论确定了量表的外形设计、基本框架、问题设计、回复设计等内容。经过 4 轮内部专家讨论,确定量表以单个条目问题及可视化评分刻度 2 部分组成。在问题设计上,遵循简洁、易懂、准确的原则。同时对每个问题,进行详细的说明,以进一步阐释问题所包含的内容。回复设计方面,以“非等距”回复为原则,分别为“肯定是”、“可能是”、“可能不是”、“肯定不是”。
2.4 外部专家咨询
经过前两轮外部专家讨论会形成 28 个条目、分别对应 7 个域的完整量表。经过第三轮外部专家会后形成 23 个条目、对应 7 个域的量表;第四轮外部专家评价后最终形成包括 21 个条目、对应 7 个域的量表(表 1)。7 个域分别为:问题定义、测量、随访、混杂、缺失、统计方法、结果评价。


2.5 最终量表
量表分中文版和英文版 2 个版本,每个条目对应 4 种回复“肯定是”、“可能是”、“可能不是”、“肯定不是”。每个条目同时对应详细说明,用以帮助使用者进行更准确的判断。例如,对于问题定义部分的第一个问题“对房颤的定义是否充分?”,我们对“是否充分”进行了详细说明,当研究明确界定房颤类型、病程、合并症,并依据公认的诊断标准进行诊断时,我们认为该条目下可信度较高,选择“肯定是”,而如果未对这些特征进行界定时,则选“肯定不是”。对于部分不确定的情况,可根据研究者目的自行进行判断为“可能是”或“可能不是”。使用者根据实际情况,对每个条目进行评价,获得单个条目对应的可信度。同时,我们采用可视化视觉评分工具,用以帮助使用者基于量表所有条目评价结果对单个研究的整体可信度进行评价(表 1)。
3 讨论
本课题经过详细的检索、条目汇总、4 次核心小组讨论会、4 次内部专家讨论会、4 次外部专家咨询会,最终形成用于评价针对(但不限于)房颤患者抗凝干预的研究结果可信度量表。本量表为第一个针对房颤患者抗凝治疗的队列研究结果可信度评价量表,填补了该领域的空白。同时,本量表具有较高临床实用价值。首先,本量表对临床医师应用证据进行临床决策具有一定指导意义;同时,本量表还可用于临床指南制定中对队列研究结果可信度评价,可为临床指南的制定提供方法学支持。此外,研究者可根据本量表评价结果了解现有研究存在的问题,为今后开展同类研究提供改进意见和建议。
值得注意的是,本量表的目的是评价相关研究结果的可信度,需要与常用的质量评价工具进行区分。两者具有不同的功能和适用范围。结果可信度量表既包括偏倚风险评价的内容,同时也涵盖了对结果的评价,如效应量是否足够大、是否有生物学机制等;而偏倚风险评价工具仅仅从研究设计和实施角度进行考虑,并不对研究结果进行评价。
本量表存在以下几个优势。第一,本量表每个问题都进行了精简设置,字数均保证在 20 个单词以内,语言易懂,以保证使用者能在最短的时间理解语义,这也是量表制作过程中的重要环节。研究表明,当问题设置字数过多,语言难懂的情况下,量表的整体效度会降低。第二,本量表对每个条目都辅以相应说明,以保证使用者能更客观的对文献进行评价;第三,本量表采用类似 ROBINS-I 量表中使用的回复方式,简单易懂,可有效降低主观性偏倚;第四,本量表采用可视化视觉评分工具,使用者可根据前期对单个条目评价的结果,根据视觉评分工具对整体可信度进行评价,具有较好的可操作性。传统量表通常对单个条目等权赋分值、并对分值进行相加而获得整体可信度,但这类方法最大的缺陷在于条目权重并不一致,简单对得分进行相加并不合理;而根据单个条目重要性,使用视觉评分工具对整体可信度进行评价可能更能反映真实的可信度。
本研究也存在一定的局限性。首先,类似于其他量表评价工具,本量表存在一定主观性风险[9-11]。尽管我们对每个问题进行了详细的说明帮助使用者更客观的评价,但仍无法避免主观性风险。因此我们建议在使用时,应由两位及以上人员同时进行评价。其次,本量表的信度和效度尚不清楚,需要后续研究进一步验证。
综上,我们推荐临床医师根据本量表辅助临床决策;同时,在相关指南的制作中,可采用本量表对队列研究结果可信度进行评价。此外,研究者可根据本量表评价结果了解现有研究存在的问题,为今后开展同类研究提供改进意见和建议。
利益冲突声明:本研究无利益冲突。