系统评价(SR)是生产临床决策证据的重要手段。传统的 SR 过程主要由人工完成,具有较高的时间及人力成本,且效率较低,无法适应快速决策的需求。信息技术发展为计算机辅助 SR 方法奠定了基础,研究者尝试通过在 SR 各个环节,引入计算机技术以取代或增强人工操作,从而改善 SR 的时效性。本文从文献获取、数据处理和证据评价等角度,对国内外计算机辅助 SR 的方法学研究及其应用情况进行整理,以期了解该领域发展现状及趋势,为进一步推动自动化 SR 技术相关研究提供参考。
引用本文: 张雪芹, 张薇, 郑培永, 邓宏勇. 计算机辅助系统评价方法学研究和应用. 中国循证医学杂志, 2021, 21(1): 111-116. doi: 10.7507/1672-2531.202006046 复制
系统评价(systematic review,SR)作为指导临床决策最佳证据,是对某一特定医疗卫生问题的研究进行系统总结的方法[1]。其过程通常为全面收集文献,对符合纳入标准的研究进行严格的偏倚风险和证据质量评估,综合各种研究结果,进行定量合并分析或定性分析。目前,SR 方法存在的主要问题是制作过程需要耗费大量人力、物力,不能满足临床快速决策需求[2]。计算机辅助方法可改善上述问题,对期间繁密重复的工作采取计算机技术来辅助执行,可降低评价员的劳动强度,提高工作效率,增强 SR 的可行性和可用性。本文以 SR 生产流程为基础,从文献获取与筛选、数据提取与分析、证据质量评价等环节,对计算机辅助 SR 方法学研究及应用情况进行综述。
1 文献获取与筛选
1.1 文献获取工具
完成 SR 的关键在于全面性掌握相关研究文献[3]。SR 的主要检索途径是各种生物医学数据库,包括中文医学文献数据库(SinoMed、CMCC、CNKI、VIP、CMBI、WanFang Data 等)和外文数据库(PubMed、EMbase 和 The Cochrane Library 等)。当前,文献获取过程主要通过手动检索,很难做到定期频繁对数据库进行检索更新,造成最新的研究无法被及时纳入。基于计算机技术的文献获取工具,拥有信息自动化主题检索及提醒功能,可定期对预设主题词进行检索、储存,保证证据及时更新。
PaperBot[4]是一款可配置的模块化开放性检索工具,能自动检索文献并作有效注释。该工具完全免费,能独立运行或与其他软件、平台集成运行,可依据研究者的检索逻辑在 Elsevier、Wiley、Springer、PubMed、Nature 和 Google Scholar 等多种数据库中进行自动检索并储存条目信息。PaperBot 还提供了一键式手动添加文献选项,保存文献信息后能通过网络访问,解决了 SR 文献获取、更新耗费人力的问题,同时检索多个数据库,有助于文献筛选的高效进行。
搜索引擎 BEST[5]可智能化检索 PubMed 数据库中的海量生物医学文献,获取随机对照试验(randomized controlled trial,RCT)、观察性研究、SR 等数据信息。该工具包含 10 种不同类型的生物医学文献语料库(如疾病、药物、靶标、转录因子、miRNA 和突变等),利用文本挖掘技术,对标题、关键词、摘要等信息进行语义分析识别。BEST 根据研究者的检索策略自动检索,实时更新并将最新文献推送给研究者,其结果按相关性分类显示,能快速缩小文献范围,保证了相关研究领域信息更新的时效性,便于后期的筛选工作。
1.2 文献筛选工具
SR 生产过程中文献筛选是重要步骤,传统的文献筛选过程是研究者根据文献纳入和排除标准,将数据库收集的相关文献进行手动纳入或排除,这个工作量有时会非常巨大,同时由于人工误差,可能造成文献遗漏、误选等情况。此时,采取计算机技术进行文献自动筛选变得尤为重要。利用机器学习、文本分类等技术,对标题和摘要自动筛选,排除不相关的文献,采纳符合研究纳入标准的文献,该过程通常由计算机协同人工完成。
Wei 等[6]提出了可进行自动化筛选文献的应用程序 GAPscreener。该程序基于支持向量机(support vector machine,SVM)机器学习技术,结合开源代码 LibSVM Java,在 PubMed 中进行检索和自动文本提取,对文本(包括生物医学文献)进行分类。通过在 PubMed 和每周更新一次的 HuGE Navigator 数据库上检验其评估性能,结论为与现有的手动筛选过程相比,GAPscreener 将文献的查全率从 80%大大提高至 97.5%,并且将需要单独进行人工审阅的摘要数量减少了约 90%,大大减轻了人工审核的负担。
Byron 等[7]介绍了一种新颖的在线分类策略,该策略可将生物医学文献标识并根据“与 SR 是否相关”进行分类。该技术构造了 SVM 分类器与标题文本和医学主题词(MeSH)术语一起使用的 SIMPLE 主动学习策略。使用 MetaMap 程序,标准术语频率/反文档频率-IDF 编码,自动提取标题文本 UMLS 术语,生成生物医学术语集合。该策略提供了三个真实世界的 SR 数据集的实验结果,表明其识别文献的灵敏度达到了 95%,将 SR 需要进一步评估的摘要数量降低了 50%。
2016 年 5 月,Cochrane 协作网推出了对 RCT 进行文本分类的研究者社区平台 Cochrane Crowd[8]。该平台建立了机器学习模型,能根据题目和摘要预测该研究描述了 RCT 的可能性,相当于一个 RCT 分类器。该 RCT 模型能将数据库中检索所得文献,排除 60%~80% 的不相关研究,同时保持超过 99% 的敏感度。Cochrane Crowd RCT 模型不直接筛选出完全符合需要的研究,而是评估了相关研究的标题和摘要后,将所有最可能是 RCT 的研究纳入,缩小 RCT 研究筛选的范围,再人工对全文进行筛选,减轻了后期文献甄别的工作量。
2 数据提取与分析
2.1 数据提取软件
利用计算机算法,对纳入的研究进行 PICO(即患者、干预措施、对照组和结局指标)信息识别,目的是自动提取患者信息(包括性别、年龄、病程等)、研究中的干预手段(包括干预类型、干预频率、干预时长等)、对照措施和结局指标的各方面信息,进行采集录入。
Brassey 等[9]提出一个注释器,并通过 241 个随机选择的 RCT 摘要(取自 Trip 的 RCT 语料库)作为测试集,对比 6 名研究者手动标注和注释器自动标注 RCT 的标题和摘要中 PIC 信息。测算出注释器标注 20 个 RCT 之间的平均准确度,患者、干预、对照分别为 0.70、0.66 和 0.62。Brassey 的注释器定义了以下规则:如果输入与 PIC 识别模式匹配,则将输入的 RCT 摘要进行解析并提取信息,提取识别过程见图 1。

2019 年,倪亚晖等[10]基于模式识别技术,开发了提取标准化文献中元数据的方法。该方法通过模式化智能读取和鼠标拖拽两种方式,根据不同元数据特征对文献各种形式信息(数值、文字、表格等)进行自动提取,并由人工对计算机结果进行审查核对。该技术虽仍需要人工协作完成,但解决了人工对标准化文献数据提取效率低和质量不高的问题。
2.2 数据分析方法
Meta 分析是 SR 常用分析方法,分析内容包括异质性检验、合并效应量估计、亚组分析、敏感性分析和发表偏倚评估等[11]。目前经典 Meta 分析算法及其软件发展已较为成熟,有大量工具软件可供选用,大致可分为用于 Meta 分析的专用软件和可实现 Meta 分析的通用统计学软件,前者如 RevMan、MetaDisc,后者如 Stata、R 等。此外还有一些基于通用编程语言开发的 Meta 分析模块,因具备更强大灵活的二次开发功能,对于实现自动 Meta 分析具有重要意义。
PythonMeta[12]是一款 Meta 分析功能软件包。该模块基于 Python3(3.5~3.9)框架,包含 Data、Meta、Fig 三个主功能类和十余种方法属性,可实现二分类数据和连续性数据的异质性检验,固定和随机效应模型常见效应量(RR、OR、RD、MD、SMD)合并算法(M-H、Peto、IV、D-L 等)及其统计学检验,完成亚组分析、累积 Meta 分析、敏感性分析等,并实现森林图、漏斗图等结果可视化。PythonMeta 实现了 Python 语言的 Meta 分析第三方支持,适合桌面、服务器、Web、嵌入式 API 等多种应用场景的开发。和目前众多的 Meta 分析软件相比,PythonMeta 具有以下特点:① 跨平台使用,Windows、IOS、Linux 系统都对 Python 及其模块具有很好的支持性,PythonMeta 可以跨平台开发应用;② 功能定制,模块既打包了算法细节,又能根据业务需求灵活定制,如自动 Meta 分析、输出个性化图表等;③ 网络支持,基于 Python 的服务端功能,可轻松实现在线 Meta 分析服务;④ 易于扩展,PythonMeta 继承 Python 的强大扩展性,因此其在算法拓展和整合大数据处理、机器学习等功能时,具备坚实基础且易于实现。以 PythonMeta 为后台的在线 Meta 分析网站 PyMeta.com[13]呈现了该类分析模块巨大应用潜力,该在线平台不仅具备传统 Meta 分析的常用功能,还可轻松实现累积 Meta 分析、敏感性分析以及更灵活直观的图形化结果(图 2),基本覆盖了自动 Meta 分析的所需的功能要求。

a:亚组分析;b:极坐标森林图;c:单因素敏感性分析;d:两因素敏感性分析
3 证据质量评价
证据质量评价是 SR 的重要环节,通常包括单个研究质量评价、证据等级评价和证据推荐等级评估等。相应的理论和方法有很多,目前较常用的有 Jadad 量表、牛津五级证据评价体系、Cochrane RoB 评价表和 GRADE 等[14]。证据质量评价涉及到综合信息采集、评估和判断,通常由经验较丰富的专业人员进行,因此机器实现质量评价具有很大的挑战性,但同时也是当前计算机辅助 SR 领域被关注的热点。
Marshall 等[15]于 2016 年开发并评估了一种可自动评估临床试验偏倚的机器学习系统 RobotReviewer,该系统能识别和标记文献中与偏倚判断相关的语句,进行偏倚风险评估并输出结果。RobotReviewer 应用机器学习算法实现了文献分类和数据提取,并基于所得数据进行偏倚风险评估,输出结果为“低、高或不明确”。利用 Cochrane SR 数据库中的临床试验文献进行测试,将测试结果与人工评估比较,其准确度比人工评估低 7%。开发者认为,应用该自动化 RoB 评估偏倚风险与已发布的 SR 结论类似。从实际使用情况来看,该工具有助于提高 SR 综合性任务效率,可以作为偏倚风险自动化评估原型工具,现已被 Cochrane Library 采用。
GRADE 是目前应用较广泛的证据评价工具。2013 年,GRADE 工作组推出了智能化证据评价在线工具 GRADE pro GDT[16]。该工具包含以下主要功能,一是建立证据质量概要表,二是自动形成推荐意见并汇总为指南,三是能将以上结果共享到手机终端。GRADE pro GDT 的证据质量概要表由“Question、Assessment、Summary of judgments 及 Conclusion”四部分组成。其中核心部分“Assessment”从问题的优先性、期望结果、不良反应、对证据体信心、患者价值偏好、利弊平衡、终端用户可接受性及推荐可行性八方面进行评估,以其对临床决策的重要性为依据,将证据质量等级分为“不明确、低、中等或高”四级。GRADE pro GDT 将根据录入结果自动形成推荐意见(强烈推荐、强烈反对、考虑、考虑反对或不明确使用),并从推荐意见、判定依据、亚组分析、实施策略、监测与评价、研究重点等方面汇总成指南。该工具自动化、透明化程度较高,是目前较常用的 GRADE 证据评价辅助工具。
CINeMA[17, 18]是评价网状 Meta 分析结果的在线工具。该平台基于 R 语言的 Meta 和 netmeta 软件包,前端采用 JavaScript 和 PureScript 编写了具自定义功能的开源式框架。CINeMA 框架支持对元数据分析结果的证据可信度评价,通过“MyProjects”选项卡,上传.csv 文件数据,输出研究的偏倚风险评估和间接性判断结果。评估的结果包括:研究内部偏倚、研究间偏倚、间接性、不精确性、异质性和不一致性等六个方面,并涉及灵敏度分析。基于证据质量评估规则,CINeMA 工具自动生成证据质量可信度评价:非常低、低、中或高,并通过条形图等可视化形式呈现。CINeMA 工具具有以下优势:① 可操作性强,简化大型复杂结果的评估过程,提高快速处理大批量数据的能力;② 用于评估间接干预比较和混合干预比较的网状 Meta 分析结果,可信度高;③ 开源软件,明确界定了判断依据的标准,具有较好的透明度。
4 其他
除上述专注某一特定环节的自动化工具外,还有一些软件或平台试图参与到 SR 的多个或全部过程,或提供一些综合的/特殊的辅助功能。
Parsifal[19]是一个综合性 SR 在线工具,利用该工具不同区域的研究者可以开展远程合作,基于共同的 PICOS 标准,完成文献检索、获取文献、制定纳入和排除标准、提取数据及评估证据质量等过程。StArt[20]旨在为 SR 流程的每个阶段提供支持,可进行自动检索、筛选研究、数据提取、自动化分析和生成报告等。该软件功能仍在持续更新,设有专门的学生交流界面,对研究生进行科研工作具有较大帮助。
Systematic Review Toolbox[21]是 Christopher 博士于 2015 年创建的 SR 列表平台。该平台提供了大量 SR 和 Meta 分析相关的软件介绍和获取途径,涵盖了自动化检索、证据质量评估、数据处理、自动化分析和结果呈现等,并支持由开发者上传提交新工具,是目前收集 SR 工具最全面的网络平台。表 1 展示了进行传统 SR 生产过程中可实现自动化的环节,描述了计算机技术辅助 SR 的现状及特点。

5 展望
第十届亚太地区循证医学研讨会[22]提出了“循证医学+中医药+人工智能”三位一体发展模式,探讨将循证医学、中医药学和人工智能三个领域交叉融合发展。目前,通过计算机方法辅助 SR 证据生产已有较多的研究和成果应用,大部分软件、系统基于“人机结合”的半自动化工作方式,将 SR 流程化繁为简,降低人力成本,提高工作效率。本文综合分析发现,自动化文献检索和结果推送已相对成熟;基于人工智能技术的文献筛选、标注、分类及数据提取是当前计算机技术与循证医学结合的热点区域,相关研究方兴未艾,但实用化的成果还有待验证;Meta 分析得益于 Python 专业化模块出现,可满足高度定制化的数据分析需求从而实现分析自动化;证据质量评价是计算机辅助 SR 研究和应用的另一热点,目前已有 Robot Reviewer、GRADE pro GDT 等相对成熟的评价工具,但它们在准确性和实用性方面尚需进一步观察。
在信息化技术高速发展的今天,大数据和人工智能与循证医学的结合应用是必然的趋势,展望这一领域的发展,国际 SR 自动化协作组织[23]提出了利用统一开源 API 接口,实现数据共享,开发和维护自动化工具,进行证据综合任务的目标,并细化为三个重要研究方向:开发 SR 自动化工具、解决不同流程自动化工具的相互操作性问题和验证自动化工具的可信程度,鼓励研究者使用。随着 SR 过程中越来越多地使用计算机技术,研究者可更高效、准确地进行快速 SR,对推动循证证据和推荐意见的实时更新、实现快速临床决策有重要意义,进而促进临床证据到实践的转化,推动循证医学的不断发展。
系统评价(systematic review,SR)作为指导临床决策最佳证据,是对某一特定医疗卫生问题的研究进行系统总结的方法[1]。其过程通常为全面收集文献,对符合纳入标准的研究进行严格的偏倚风险和证据质量评估,综合各种研究结果,进行定量合并分析或定性分析。目前,SR 方法存在的主要问题是制作过程需要耗费大量人力、物力,不能满足临床快速决策需求[2]。计算机辅助方法可改善上述问题,对期间繁密重复的工作采取计算机技术来辅助执行,可降低评价员的劳动强度,提高工作效率,增强 SR 的可行性和可用性。本文以 SR 生产流程为基础,从文献获取与筛选、数据提取与分析、证据质量评价等环节,对计算机辅助 SR 方法学研究及应用情况进行综述。
1 文献获取与筛选
1.1 文献获取工具
完成 SR 的关键在于全面性掌握相关研究文献[3]。SR 的主要检索途径是各种生物医学数据库,包括中文医学文献数据库(SinoMed、CMCC、CNKI、VIP、CMBI、WanFang Data 等)和外文数据库(PubMed、EMbase 和 The Cochrane Library 等)。当前,文献获取过程主要通过手动检索,很难做到定期频繁对数据库进行检索更新,造成最新的研究无法被及时纳入。基于计算机技术的文献获取工具,拥有信息自动化主题检索及提醒功能,可定期对预设主题词进行检索、储存,保证证据及时更新。
PaperBot[4]是一款可配置的模块化开放性检索工具,能自动检索文献并作有效注释。该工具完全免费,能独立运行或与其他软件、平台集成运行,可依据研究者的检索逻辑在 Elsevier、Wiley、Springer、PubMed、Nature 和 Google Scholar 等多种数据库中进行自动检索并储存条目信息。PaperBot 还提供了一键式手动添加文献选项,保存文献信息后能通过网络访问,解决了 SR 文献获取、更新耗费人力的问题,同时检索多个数据库,有助于文献筛选的高效进行。
搜索引擎 BEST[5]可智能化检索 PubMed 数据库中的海量生物医学文献,获取随机对照试验(randomized controlled trial,RCT)、观察性研究、SR 等数据信息。该工具包含 10 种不同类型的生物医学文献语料库(如疾病、药物、靶标、转录因子、miRNA 和突变等),利用文本挖掘技术,对标题、关键词、摘要等信息进行语义分析识别。BEST 根据研究者的检索策略自动检索,实时更新并将最新文献推送给研究者,其结果按相关性分类显示,能快速缩小文献范围,保证了相关研究领域信息更新的时效性,便于后期的筛选工作。
1.2 文献筛选工具
SR 生产过程中文献筛选是重要步骤,传统的文献筛选过程是研究者根据文献纳入和排除标准,将数据库收集的相关文献进行手动纳入或排除,这个工作量有时会非常巨大,同时由于人工误差,可能造成文献遗漏、误选等情况。此时,采取计算机技术进行文献自动筛选变得尤为重要。利用机器学习、文本分类等技术,对标题和摘要自动筛选,排除不相关的文献,采纳符合研究纳入标准的文献,该过程通常由计算机协同人工完成。
Wei 等[6]提出了可进行自动化筛选文献的应用程序 GAPscreener。该程序基于支持向量机(support vector machine,SVM)机器学习技术,结合开源代码 LibSVM Java,在 PubMed 中进行检索和自动文本提取,对文本(包括生物医学文献)进行分类。通过在 PubMed 和每周更新一次的 HuGE Navigator 数据库上检验其评估性能,结论为与现有的手动筛选过程相比,GAPscreener 将文献的查全率从 80%大大提高至 97.5%,并且将需要单独进行人工审阅的摘要数量减少了约 90%,大大减轻了人工审核的负担。
Byron 等[7]介绍了一种新颖的在线分类策略,该策略可将生物医学文献标识并根据“与 SR 是否相关”进行分类。该技术构造了 SVM 分类器与标题文本和医学主题词(MeSH)术语一起使用的 SIMPLE 主动学习策略。使用 MetaMap 程序,标准术语频率/反文档频率-IDF 编码,自动提取标题文本 UMLS 术语,生成生物医学术语集合。该策略提供了三个真实世界的 SR 数据集的实验结果,表明其识别文献的灵敏度达到了 95%,将 SR 需要进一步评估的摘要数量降低了 50%。
2016 年 5 月,Cochrane 协作网推出了对 RCT 进行文本分类的研究者社区平台 Cochrane Crowd[8]。该平台建立了机器学习模型,能根据题目和摘要预测该研究描述了 RCT 的可能性,相当于一个 RCT 分类器。该 RCT 模型能将数据库中检索所得文献,排除 60%~80% 的不相关研究,同时保持超过 99% 的敏感度。Cochrane Crowd RCT 模型不直接筛选出完全符合需要的研究,而是评估了相关研究的标题和摘要后,将所有最可能是 RCT 的研究纳入,缩小 RCT 研究筛选的范围,再人工对全文进行筛选,减轻了后期文献甄别的工作量。
2 数据提取与分析
2.1 数据提取软件
利用计算机算法,对纳入的研究进行 PICO(即患者、干预措施、对照组和结局指标)信息识别,目的是自动提取患者信息(包括性别、年龄、病程等)、研究中的干预手段(包括干预类型、干预频率、干预时长等)、对照措施和结局指标的各方面信息,进行采集录入。
Brassey 等[9]提出一个注释器,并通过 241 个随机选择的 RCT 摘要(取自 Trip 的 RCT 语料库)作为测试集,对比 6 名研究者手动标注和注释器自动标注 RCT 的标题和摘要中 PIC 信息。测算出注释器标注 20 个 RCT 之间的平均准确度,患者、干预、对照分别为 0.70、0.66 和 0.62。Brassey 的注释器定义了以下规则:如果输入与 PIC 识别模式匹配,则将输入的 RCT 摘要进行解析并提取信息,提取识别过程见图 1。

2019 年,倪亚晖等[10]基于模式识别技术,开发了提取标准化文献中元数据的方法。该方法通过模式化智能读取和鼠标拖拽两种方式,根据不同元数据特征对文献各种形式信息(数值、文字、表格等)进行自动提取,并由人工对计算机结果进行审查核对。该技术虽仍需要人工协作完成,但解决了人工对标准化文献数据提取效率低和质量不高的问题。
2.2 数据分析方法
Meta 分析是 SR 常用分析方法,分析内容包括异质性检验、合并效应量估计、亚组分析、敏感性分析和发表偏倚评估等[11]。目前经典 Meta 分析算法及其软件发展已较为成熟,有大量工具软件可供选用,大致可分为用于 Meta 分析的专用软件和可实现 Meta 分析的通用统计学软件,前者如 RevMan、MetaDisc,后者如 Stata、R 等。此外还有一些基于通用编程语言开发的 Meta 分析模块,因具备更强大灵活的二次开发功能,对于实现自动 Meta 分析具有重要意义。
PythonMeta[12]是一款 Meta 分析功能软件包。该模块基于 Python3(3.5~3.9)框架,包含 Data、Meta、Fig 三个主功能类和十余种方法属性,可实现二分类数据和连续性数据的异质性检验,固定和随机效应模型常见效应量(RR、OR、RD、MD、SMD)合并算法(M-H、Peto、IV、D-L 等)及其统计学检验,完成亚组分析、累积 Meta 分析、敏感性分析等,并实现森林图、漏斗图等结果可视化。PythonMeta 实现了 Python 语言的 Meta 分析第三方支持,适合桌面、服务器、Web、嵌入式 API 等多种应用场景的开发。和目前众多的 Meta 分析软件相比,PythonMeta 具有以下特点:① 跨平台使用,Windows、IOS、Linux 系统都对 Python 及其模块具有很好的支持性,PythonMeta 可以跨平台开发应用;② 功能定制,模块既打包了算法细节,又能根据业务需求灵活定制,如自动 Meta 分析、输出个性化图表等;③ 网络支持,基于 Python 的服务端功能,可轻松实现在线 Meta 分析服务;④ 易于扩展,PythonMeta 继承 Python 的强大扩展性,因此其在算法拓展和整合大数据处理、机器学习等功能时,具备坚实基础且易于实现。以 PythonMeta 为后台的在线 Meta 分析网站 PyMeta.com[13]呈现了该类分析模块巨大应用潜力,该在线平台不仅具备传统 Meta 分析的常用功能,还可轻松实现累积 Meta 分析、敏感性分析以及更灵活直观的图形化结果(图 2),基本覆盖了自动 Meta 分析的所需的功能要求。

a:亚组分析;b:极坐标森林图;c:单因素敏感性分析;d:两因素敏感性分析
3 证据质量评价
证据质量评价是 SR 的重要环节,通常包括单个研究质量评价、证据等级评价和证据推荐等级评估等。相应的理论和方法有很多,目前较常用的有 Jadad 量表、牛津五级证据评价体系、Cochrane RoB 评价表和 GRADE 等[14]。证据质量评价涉及到综合信息采集、评估和判断,通常由经验较丰富的专业人员进行,因此机器实现质量评价具有很大的挑战性,但同时也是当前计算机辅助 SR 领域被关注的热点。
Marshall 等[15]于 2016 年开发并评估了一种可自动评估临床试验偏倚的机器学习系统 RobotReviewer,该系统能识别和标记文献中与偏倚判断相关的语句,进行偏倚风险评估并输出结果。RobotReviewer 应用机器学习算法实现了文献分类和数据提取,并基于所得数据进行偏倚风险评估,输出结果为“低、高或不明确”。利用 Cochrane SR 数据库中的临床试验文献进行测试,将测试结果与人工评估比较,其准确度比人工评估低 7%。开发者认为,应用该自动化 RoB 评估偏倚风险与已发布的 SR 结论类似。从实际使用情况来看,该工具有助于提高 SR 综合性任务效率,可以作为偏倚风险自动化评估原型工具,现已被 Cochrane Library 采用。
GRADE 是目前应用较广泛的证据评价工具。2013 年,GRADE 工作组推出了智能化证据评价在线工具 GRADE pro GDT[16]。该工具包含以下主要功能,一是建立证据质量概要表,二是自动形成推荐意见并汇总为指南,三是能将以上结果共享到手机终端。GRADE pro GDT 的证据质量概要表由“Question、Assessment、Summary of judgments 及 Conclusion”四部分组成。其中核心部分“Assessment”从问题的优先性、期望结果、不良反应、对证据体信心、患者价值偏好、利弊平衡、终端用户可接受性及推荐可行性八方面进行评估,以其对临床决策的重要性为依据,将证据质量等级分为“不明确、低、中等或高”四级。GRADE pro GDT 将根据录入结果自动形成推荐意见(强烈推荐、强烈反对、考虑、考虑反对或不明确使用),并从推荐意见、判定依据、亚组分析、实施策略、监测与评价、研究重点等方面汇总成指南。该工具自动化、透明化程度较高,是目前较常用的 GRADE 证据评价辅助工具。
CINeMA[17, 18]是评价网状 Meta 分析结果的在线工具。该平台基于 R 语言的 Meta 和 netmeta 软件包,前端采用 JavaScript 和 PureScript 编写了具自定义功能的开源式框架。CINeMA 框架支持对元数据分析结果的证据可信度评价,通过“MyProjects”选项卡,上传.csv 文件数据,输出研究的偏倚风险评估和间接性判断结果。评估的结果包括:研究内部偏倚、研究间偏倚、间接性、不精确性、异质性和不一致性等六个方面,并涉及灵敏度分析。基于证据质量评估规则,CINeMA 工具自动生成证据质量可信度评价:非常低、低、中或高,并通过条形图等可视化形式呈现。CINeMA 工具具有以下优势:① 可操作性强,简化大型复杂结果的评估过程,提高快速处理大批量数据的能力;② 用于评估间接干预比较和混合干预比较的网状 Meta 分析结果,可信度高;③ 开源软件,明确界定了判断依据的标准,具有较好的透明度。
4 其他
除上述专注某一特定环节的自动化工具外,还有一些软件或平台试图参与到 SR 的多个或全部过程,或提供一些综合的/特殊的辅助功能。
Parsifal[19]是一个综合性 SR 在线工具,利用该工具不同区域的研究者可以开展远程合作,基于共同的 PICOS 标准,完成文献检索、获取文献、制定纳入和排除标准、提取数据及评估证据质量等过程。StArt[20]旨在为 SR 流程的每个阶段提供支持,可进行自动检索、筛选研究、数据提取、自动化分析和生成报告等。该软件功能仍在持续更新,设有专门的学生交流界面,对研究生进行科研工作具有较大帮助。
Systematic Review Toolbox[21]是 Christopher 博士于 2015 年创建的 SR 列表平台。该平台提供了大量 SR 和 Meta 分析相关的软件介绍和获取途径,涵盖了自动化检索、证据质量评估、数据处理、自动化分析和结果呈现等,并支持由开发者上传提交新工具,是目前收集 SR 工具最全面的网络平台。表 1 展示了进行传统 SR 生产过程中可实现自动化的环节,描述了计算机技术辅助 SR 的现状及特点。

5 展望
第十届亚太地区循证医学研讨会[22]提出了“循证医学+中医药+人工智能”三位一体发展模式,探讨将循证医学、中医药学和人工智能三个领域交叉融合发展。目前,通过计算机方法辅助 SR 证据生产已有较多的研究和成果应用,大部分软件、系统基于“人机结合”的半自动化工作方式,将 SR 流程化繁为简,降低人力成本,提高工作效率。本文综合分析发现,自动化文献检索和结果推送已相对成熟;基于人工智能技术的文献筛选、标注、分类及数据提取是当前计算机技术与循证医学结合的热点区域,相关研究方兴未艾,但实用化的成果还有待验证;Meta 分析得益于 Python 专业化模块出现,可满足高度定制化的数据分析需求从而实现分析自动化;证据质量评价是计算机辅助 SR 研究和应用的另一热点,目前已有 Robot Reviewer、GRADE pro GDT 等相对成熟的评价工具,但它们在准确性和实用性方面尚需进一步观察。
在信息化技术高速发展的今天,大数据和人工智能与循证医学的结合应用是必然的趋势,展望这一领域的发展,国际 SR 自动化协作组织[23]提出了利用统一开源 API 接口,实现数据共享,开发和维护自动化工具,进行证据综合任务的目标,并细化为三个重要研究方向:开发 SR 自动化工具、解决不同流程自动化工具的相互操作性问题和验证自动化工具的可信程度,鼓励研究者使用。随着 SR 过程中越来越多地使用计算机技术,研究者可更高效、准确地进行快速 SR,对推动循证证据和推荐意见的实时更新、实现快速临床决策有重要意义,进而促进临床证据到实践的转化,推动循证医学的不断发展。