Nature Methods:中国学者发表论文,介绍三代测序数据计算方法的突破

2017-09-20 佚名 Nature自然科研

9月18日,中山大学中山眼科中心谢志、肖传乐、谢尚潜,中山大学数据科学与计算机学院陈颖,湖南农业大学罗峰等学者合作在Nature Methods杂志上发表了三代基因组测序数据计算方法(https://www.nature.com/nmeth/journal/vaop/ncurrent/full/nmeth.4432.html),此方法解决了该领域的关键技术难题。

下文由研究者团队提供

9月18日,中山大学中山眼科中心谢志、肖传乐、谢尚潜,中山大学数据科学与计算机学院陈颖,湖南农业大学罗峰等学者合作在Nature Methods杂志上发表了三代基因组测序数据计算方法,此方法解决了该领域的关键技术难题。

本项目负责人谢志教授和主要完成人肖传乐副研究员表示:以PacBio和Oxford Nanopore公司为代表的三代测序技术能够产生远远长于二代测序技术的基因组序列读长,很好的解决复杂基因组的组装及结构变异等难题,为基因测序和精准医学领域带来了全新的机遇。然而三代测序数据的高错误率(12-15%)给数据分析了巨大的挑战,严重影响了三代测序技术的应用。为此我们提出了一种全新的基于全局投票打分的候选序列评估方法,该方法可以大幅降三代序列比对、校正和组装的计算资源消耗,从而极大提高计算效率;并基于此方法成功开发了集序列比对、校正和组装为一体的三代测序分析软件MECAT。与同类软件相比,MECAT在计算速度上表现出了明显的优势,并且首次在单个服务器上实现了中国人的基因组组装工作;为加速三代测序技术在生物和医学的应用提供了重要的支撑。

图1 三代测序数据的基因组组装时间对比

基于三代测序数据的基因组组装中最消耗计算时间的过程是序列局部比对。为了减少进入局部序列比对的候选区域,研究人员提出快速测量两个序列编辑距离的序列差异因子(DDF)和全局种子投票打分的计算理论模型。该模型表现出了两个序列全局种子得分与重叠长度成线性相关的重要特征,这一特征使得两序列重叠区域的长度可以通过种子全局得分进行评估。全局种子得分模型不仅能获取候选局部比对所需要两序列准确起始比对位置,而且首次实现了非局部序列比对的两两序列比对过程,从而大幅节约了三代测序两两比对的计算时间。目前,MECAT在人类基因组数据中的长序列两两(pairwise)比对时间比目前领域的主流软件(MHAP和Daligner)快至少17倍。由于两两比对计算时间随着测序数据量增加成指数增长,因此对于大测序数据集MECAT中两两比对方法的加速比将更加显着。同时,通过优选几个最高得分候选区域大幅降低进入局部序列比对候选区域的数量,也实现了参考基因组比对过程中大幅节约计算时间的效果,在人的参考基因组比对中,MECAT的速度是目前同类软件(BLASR和BWA)的5-20倍。

三代测序错误序列校正是基因组组装另一耗时步骤,MECAT通过优选最高得分的候选匹配序列进行局部序列比对,从而大幅降低进入局部序列比对过程的候选序列数量,因此大幅提高三代测序的序列校正时间。MECAT中序列校正速度是目前软件的7-8倍。基因组组装通常寻找序列重叠长度最长路径作为组装序列延伸路径,因此,根据MECAT全局种子投票得分与两序列重叠长度线性相关这一重要特征,可以通过全局得分对每个序列优选100个候选序列作为该序列候选延伸序列,从而避免了如传统BLAST方法中每个序列寻找所有重叠序列的序列比对计算时间。目前,MECAT在人类基因组的组装速度是同类软件的17-23倍,MECAT能够在单台服务器上用7-8天完成人类基因组组装。

由于MECAT计算资源消耗显着低于目前序列比对、校正和组装软件,同时提高了算法的精度和组装的效果,因此MECAT首次实现了用二代测序相近的时间组装三代测序基因组,为加速最新测序技术的广泛应用提供重要推力。

原文出处:
Chuan-Le Xiao, Ying Chen, Shang-Qian Xie, Kai-Ning Chen, Yang Wang, Yue Han, Feng Luo, Zhi Xie, MECAT: fast mapping, error correction, de novo assembly for single-molecule sequencing reads, Nature Methods (2017),doi:10.1038/nmeth.4432

作者:佚名



版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (2)
#插入话题
  1. 2018-08-21 一闲

相关资讯

赵立平:中国学者如何发高水平的综述

不久前,武夷山老师的博文(http://blog.sciencenet.cn/blog-1557-777251.html)引发了关于为何中国学者发表的高水平综述偏少的热议,《科技导报》记者李娜对此撰写了报道,发表在2014年第10期上,题目是,“中国高水平综述缘何产量低”。 如果把在《自然》杂志的Nature Reviews系列刊物发表综述看作是比较高水平的综述的话, 我国学者第一篇该系列的

Nat Med:中国学者破解儿童急性淋巴细胞白血病复发难题

包括白血病在内的恶性肿瘤是造成中国儿童因病致死的重要原因。而白血病治疗出现耐药和复发则是导致患者死亡的重要原因,素为国际医学界重大研究课题。  (图片来源于上海儿童医学中心官网)上海交通大学医学院与自然出版集团中国办公室(上海)13日联合举行新闻发布会披露,上海交大医学院附属上海儿童医学中心携手国家人类基因组南方研究中心等国内外科研人员组成的课题组,在国际上首次发现磷酸核糖焦磷酸合成酶1(PRPS

中国学者“词不达意”论文,引发Nature关注

中国学者今年一月份在PLoS ONE杂志上发表了一篇关于人手功能的论文,因为使用了“design by the Creator”语句最近引起了轩然大波。许多国外研究者认为这是明显的神创论,因为Creator(大写C)指的就是神。Nature特别发文详细介绍了这一风波的始末。事实上,华中科技大学熊蔡华(Cai-Hua Xiong)教授的这项研究跟神并没有什么关系。熊教授的主要研究方向是机器人学和生机

四项中国研究入选JCO 引用TOP 50!

5月16日,JCO在线发布了《Top 50 Most-Cited Journal of Clinical Oncology Articles From 2013》,收集了自2013年以来该刊物上发表过的引用率最高的前50篇文章。本次我们也很欣喜的看到,本次入选的50篇文章内也有不少中国学者的身影! 复旦大学中山肿瘤医院的许剑民教授2013年在JCO发表的:Randomized con

183名中国学者入选2016全球高引作者榜:数据分析

域学者评价的不二法门,不可替代。因而在可以预见的未来,论文引用也将是科研院校学术水准衡量的一个重要指标。而一个国家在一个学科领域所拥有的高引作者数量,总体也能够大致体现其在该学科的国际水准和地位。因此,汤森路透最近所发布的各个学科领域高引作者榜单,具有重要的指标意义

学术造假,再难也不该

世界著名学术出版商斯普林格(Springer)发布消息,称其下的期刊《肿瘤生物学》(Tumor Biology)因作者编造审稿人和审稿意见而撤稿107篇论文,并且公布了撤稿名单。MedSci注意到名单中的作者均来自于中国,包括上海交通大学、浙江大学、中国医科大学等著名高校。斯普林格的公告中称,这些论文作者提供了虚假的审稿意见。论文作者冒用专家的名字申请邮件地址,从虚假邮箱向期刊提供正面的审稿意见。