华西医学期刊出版社
标题
  • 标题
  • 作者
  • 关键词
  • 摘要
高级搜索

四川大学华西医院华西-华盛顿线粒体与代谢研究中心:采用“组熵”技术开展血液代谢组复杂数据标准化方法的评估

四川大学华西医院华西-华盛顿线粒体与代谢研究中心下属的蛋白组-代谢组团队于2018年9月在Analytical Chemistry发表文章“MetaboGroupS: A Group Entropy-Based Web Platform for Evaluating Normalization Methods in Blood Metabolomics Data from Maintenance Hemodialysis Patients”(影响因子6.35)(长按下方二维码即可阅读原文)。


代谢组学是通过分析生命过程中一系列小分子代谢物的变化来研究和阐述生命现象的一门学科。随着检测设备和方法学的进步,代谢组学在医学和生命科学研究领域发挥着越来越大的作用,特别最近几年在精准医学、遗传与分子生物学、营养学、药学等领域代谢组学相关文献呈现爆发式增长,其重要性已不容质疑




随着代谢组学在生物医学中的应用,组学数据的解析已经成为不可或缺的重要环节。解析代谢组学数据绝不简单,这是因为:1. 生命体代谢是一个复杂过程,由此产生多种多样的代谢物;2. 基于高效液相色谱-串连质谱的方法对代谢物进行定性和定量的分析过程中,仪器本身会带来系统误差;3. 实验人员进行多个样本处理、或不同实验人员分批处理样本时,不可避免的引入人为误差。这些误差最终导致代谢物的定量数据具有一定不准确性或者偏移,因此需要对该类数据进行校正。


为了解决上述问题,学者们提出各种探索性方法以处理代谢数据的标准化问题。迄今为止,相关标准化处理方法已不下30种,给数据分析人员带来了困惑:到底选择哪种数据标准化方法呢?或者哪种标准化方法比较适合我目前的数据呢?这就需要建立一类评价体系以评估标准化方法,并且最好能有一个直接运算的工具,帮助数据分析人员方便快速地选择适合自己数据的标准化方法。


有鉴于此,我们首次提出“组熵”(Group Entropy)概念,计算样本组间和组内的熵值。我们的科学依据是:理想状态下,如果该标准化方法合适,则标准化后的数据在同一组样本的组内熵值应该最小(同一组样本之内较相似)、在不同组样本的组间熵值应该最大(不同组样本之间差异大)。利用这个方法,就可实现每一种数据标准化方法的评价。为了便于大家使用,我们进一步编写了在线软件并取名“MetaboGroupS”(软件链接:https://omicstools.shinyapps.io/MetaboGroupSapp/)(该软件是免费的,并且免登陆,欢迎大家自由访问使用)。


整个软件的工作流程如图1所示:



图1 MetaboGroupS的工作流程



借助质谱技术,我们可以得到代谢物的定性和定量信息,然后将对应的定量信息直接导入该软件,接下来点几次按钮,该软件就可直接计算出每一种标准化方法下的数值,并且画出对应的主成分得分图,我们使用了华西医院肾内科肾性贫血促红素抵抗患者血浆样本的代谢组学数据进行分析,结果展示如图2所示:



图2 不同标准化方法处理数据后的PCA结果



通过上述得分图,我们大体上可以直观了解哪种数据标准化方法可能更适合我们自己的数据。接下来,该软件继续计算对应的组内和组间的熵值,并且排序画出对应图形结果(图3):



图3 使用MetaboGroupS对不同标准化方法处理后的数据计算所获得的熵值



从上述结果我们可以得到所需的结论:哪一种标准化方法下的熵值最小。


作者在此需要提醒使用者:1. 本软件目前只整合了常用的7种标准化方法,其他方法会有何样结果尚不清楚;2. 这一基于“组熵”的评价体系,最后只是给大家一个推荐的方法,是否这个方法一定百分百就是最好的,这个尚需斟酌。


专家点评


程惊秋教授:基因组学、蛋白组学、代谢组学方法技术的长足进步,为临床疾病发生发展深入研究和精准诊治提供了前景广阔的应用手段。基于质谱技术的新型仪器设备不断推出,让研究者更加便捷、迅速、精确地获取临床样本的组学数据,而这些“天量”疾病相关数据的进一步处理、共享、解析,已然成为严重瓶颈,是未来的重要主攻方向。


华西医院的组学平台由中青年专家们跨学科合作而建立,意在将质谱技术、计算技术引入临床疾病的深入研究和精准诊治。该论文被一份B级期刊迅速采用,不因作者深厚的学术积累,而因他们新颖的研究思考——“组熵”概念的提出及其方法技术体系的建立,为数据处理方法的评估,提供了立论上有理有据的科学假设、实践中可及可用的技术手段。对我院临床疾病研究而言,该技术至少可提供目前虽非最优、但为最好的方法学选择。相信该项研究能够启发更多的团队开展探索,带来更优的方法技术。



程惊秋,博士,教授。西南大学获学士、硕士、博士学位。1992年获国务院政府特殊津贴,1993年破格晋升教授,1996年国务院学位办批准为博士生导师。1994年作为教育部高访学者访学美国Duquesne大学,1995年访问美国Carnegie Mellon大学。1997年回国,任职四川大学华西医院卫健委重点实验室和再生医学研究中心教授、博士生导师;现为四川大学二级教授、四川省学术技术带头人。2001年1月~2017年9月担任华西医院科研副院长,目前担任华西-华盛顿线粒体与代谢组研究中心中方主任、四川省转化医学国际合作研究基地主任、华西医院系统遗传研究院荣誉院长。负责/参加国家科技部973/863项目、国家自然科学基金重点/面上课题20余项;在SCI收录期刊上发表论文150余篇。


专家点评


沈百荣教授:鉴于代谢组和蛋白质组数据的复杂性,在对原始谱图数据的解读、搜库结果数据的质控和评价以及功能分析等方面面临着诸多挑战。为了解决这类问题,该领域的科研工作者提出了不少对策和方法,对数据质量的标准化和评价是数据前处理中重要的步骤。目前已经有多种方法报道,如:总强度标准化、正态标准化、方差稳定标准化、支持向量机回归标准化等。然而针对不同的数据,怎样去选择合适的方法?这依然是一个棘手的问题。


针对这个问题,本文作者创新性地提出了一种“组熵”的评价算法,用于有效地帮助研究者选择合适的标准化方法并给予评价,这一算法的亮点有:


(1)作者对物理学中“熵值”的概念进行创新应用,求得样本组内和组间的熵值,然后再对各个标准化方法进行评估;(2)作者整合了七种常用的数据标准化方法,为用户提供了个性化选择;作者不仅分析了复杂的医学样本数据,还用了两个已发表的数据进行进一步验证。结果证实,“组熵”的方法可以对各个标准化方法在不同数据上应用的合适性进行评估;最后,作者将所有方法汇总整理,编写成一个系统的在线工具(MetaboGroupS),极大地方便了使用者对其个性化的数据选择合适的方法,避免了非专业人员对算法选择的盲目性,从而提高了计算准确性。


综上所述,“组熵”的方法和该在线软件是目前表现最佳的标准化方案选择工具,在算法和概念上有较好的创新性和实用性。该方法使相关科研工作者要对自己的数据进行标准化时能够善假于物而善其事。



沈百荣,教授,四川大学华西医院系统遗传学研究院执行院长,研究领域:生物医学信息学、计算系统生物学、转化医学、健康大数据等。1997年复旦大学化学系博士毕业留校,1999年任副教授。2004年任芬兰坦佩雷大学生物信息学助理教授,2005年底任同济大学生物信息学教授、博士生导师。2008~2018年任苏州大学系统生物学研究中心主任、教授、博导,兼任美国西雅图系统生物学研究所教授、HVP中国区工作委员会副主任、卫计委和基金委项目终审专家等。2012年以来在国际上倡导转化生物医学信息学,是国际转化生物医学信息学(ICTBI)系列会议的创始主席。2008年回国以来主持8个国家级项目,发表学术论文100多篇,中英文著作5本,培养博士和硕士研究生50多人。


作者投稿心得


数据标准化方法开发了很多,而怎样较好地选择这些方法却鲜见探索和讨论。“组熵”概念的提出丰富了这个方向,这也是在投稿过程中得到了编辑和审稿人认可的主要原因。其次,除了处理我们实际测得的数据外,我们还将该方法在其它团队提供的多个数据中进行验证,结果证实了我们算法的稳定性。因此,大家以后若需开展类似研究,作者建议对多种方法或者使用多个数据集进行比较验证,或许收获更丰。


通信作者



龚萌,博士,副研究员,华西医院代谢组学平台主管;2000年本科毕业于四川大学生命科学学院,生物化学专业;2006年于四川大学华西临床医学院获得遗传学博士学位;2006~2009年在四川大学华西医院开展博士后研究工作,之后留院从事专职科研工作。研究方向主要为病毒感染和肿瘤发生发展的分子调控机制、代谢组学和脂质组学分析方法学以及多组学在生物医学中的应用。期间先后获得国家博士后研究基金、国家自然基金、成都市科技局、四川省科技厅等基金资助,参与研究生教材《医学实验技术的原理与选择》撰写,以第一作者或通迅作者在Neuro-Oncology, Molecular Cancer Research, Analytical Chemistry 等期刊发表多篇论文,获得国家发明专利授权两项。


第一作者



王诗盛,本科毕业于哈尔滨工程大学,硕士毕业于中国科学院大学上海生化与细胞研究所,现在四川大学华西医院华西-华盛顿线粒体与代谢研究中心工作,主要从事蛋白质组和代谢组的数据挖掘,同时熟悉单细胞测序数据分析,对数据爬虫、文本分析、机器学习、深度学习等领域也有一定研究。基于所学技能,目前编写了一个数据分析的云平台---悟空云,该云平台涵盖了数据前处理、单元和多元统计分析、富集分析、回归分析、监督和非监督机器学习、深度学习、作图等上百个模块,极大地方便了非生物信息学背景的科研人员处理自己的数据。


共同第一作者



陈肖蕾,四川大学华西医院肾脏内科副主任医师,医学博士,2006年毕业于中国协和医科大学。目前主要从事慢性肾脏疾病、代谢性肾脏病、血液净化领域的研究。现已在国内外医学期刊发表论文20余篇,第一作者SCI论文6篇,并参与《血液净化学》、《泌尿系统整合教材》、《实用血液净化护理培训教程》等多部医学专著的撰写。作为主要研究者完成5项药物和器械的临床研究,主持省级科研项目和四川大学科研项目各1项,参研国家自然科学基金等各级科研项目5项,作为第一发明人获实用新型专利1项。2013年入选四川大学青年骨干教师奖励计划。


版权声明:华西微家倡导尊重和保护知识产权。欢迎转载、引用,但需取得本平台授权。如您对文章内容版权存疑,请致电028-85422587,我们会与您及时沟通处理。本站内容及图片仅供参考、学习使用,不为盈利且不作为诊断、医疗根据。


本文编辑:张 敏

本文排版:陈红梅 张洪雪

Format

Content