正在阅读:更快更好 新的全基因组组装算法来了
首页> 科技频道> 综合新闻 > 正文

更快更好 新的全基因组组装算法来了

来源:《中国科学报》2019-12-10 09:50

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  10年前,Illumina基因组测序技术进入市场时,前所未有的庞大数据量淘汰了较早开发的测序分析工具。

  历史总是重演。如今,第三代测序技术已经达到低成本群体测序规模的临界点。

  12月10日,《自然—方法学》在线发表了第一个能够跟上基因组测序产生速度的组装算法。

  论文作者、中国农业科学院农业基因组研究所博士阮珏与美国哈佛大学医学院博士李恒,将这个新的第三代测序数据组装算法称为Wtdbg。

  第三代测序的尴尬

  20年前,破译人类遗传密码还是极具挑战的大科学工程,当时的人类基因组测序计划与曼哈顿原子弹计划、阿波罗计划并称为三大科学计划。

  如今,完成一个人的全基因组测序已经是普通实验室甚至家庭都可以负担起费用的“平常事”。用第三代测序技术完成个体全基因组测序仅需一天,费用也已经低于5万元。

  2011年,PacBio公司正式宣布第三代单分子测序开始商业化。相比于第二代测序每个序列的几百碱基对测序读长,第三代测序的平均读长达到了几万碱基对,最长可以达到数百万碱基对。

  西北工业大学生态环境学院教授邱强告诉《中国科学报》,这一技术出现时,科研人员期待利用它填补基因组序列中高重复高杂合的区域,挑战高难度的基因组。然而,人们迅速发现,这一新技术的普及和应用遇到了很大的困难。

  “主要有两个原因:第三代测序的成本在初期要远高于第二代测序;由于第三代测序错误率较高,此前用于第二代基因组测序的组装方法纷纷失效,缺乏有效率的组装工具,特别是PacBio官方推出的falcon方法,消耗资源极多。”邱强介绍,数年后,Ont公司推出纳米孔测序技术,市场竞争逐渐拉低了第三代测序的成本。而在基因组组装方面,尽管已经出现了canu、marvel等多个组装软件,“但组装仍然是一个十分费时费力的过程,一个哺乳动物基因组的组装时间要数周”。

  以人类基因组组装为例,在2014年需要消耗50万个CPU小时,只能在超大计算机集群上进行。“这种情况下,同时对大量个体进行组装分析是难以想象的。”但现实是,“以全基因组组装方式对群体进行测序分析已经成为生物医学研究的趋势。”阮珏说。

  首次:数据分析比产生更快

  “wtdbg和即将推出的工具可能会从根本上改变当前测序数据分析的实践。”阮珏在接受《中国科学报》采访时说。

  此前,“数据产出速度远高于数据分析速度。”因此,近年来,生物信息学领域的科学家群体致力于改变这种尴尬状况,不断开发出更高效的组装分析算法。

  例如,继falcon、canu等算法之后,2019年4月,美国加利福尼亚大学圣迭戈分校NIH计算质谱中心主任Pavel A. Pevzner在《自然—生物技术》上发表了Flye算法,其速度远高于falcon、canu。

  而阮珏和李恒正式发表的第三代测序数据组装算法wtdbg,比之Flye算法,分析速度提升了5倍,也首次让数据分析时间少于产出时间。

  西北工业大学生态环境学院的科学家已经用wtdbg组装了十多个哺乳动物基因组。西北工业大学教授陈垒在接受《中国科学报》采访时说:“我们用过falcon和canu等组装方法,相比较而言,wtdbg组装运算时间最快,占用资源少,能节省大量时间。组装出的基因组连续性很高,组装质量均符合现在主流的基因组评估。”特别是,对超大型基因组的组装,wtdbg应该是目前为数不多的可以高效使用的组装软件。

  “对于人类基因组数据,wtdbg比已发布的工具快几十倍,同时实现了相当的连续性和准确性。它代表了算法上的重大进步,并为将来群体规模的组装分析铺平道路。”阮珏说。

  模糊布鲁因图问世

  上世纪90年代,Pavel A. Pevzner将德布鲁因图引入了基因组组装领域。德布鲁因图是一个展示符号序列之间重叠关系的有方向的图。阮珏介绍,由于第二代测序错误率低,大部分短串(k-mer)是正确的,相同的短串间可以利用德布鲁因图的原理合并起来构成组装图。

  但第三代测序数据的错误率非常高,如果还是使用短串k-mer的话,大部分短串带有测序错误,不可以合并起来。因此,德布鲁因图从未成功应用在第三代测序数据。

  突破性的方法基于突破性的理论基础。

  2013年开始,阮珏和李恒着手解决第三代测序组装的问题,分别开发的SMARTdenovo和Miniasm在领域内均有较好的表现。随后在德布鲁因图基础上,设计出一个新的组装图理论——模糊布鲁因图。

  他们重新定义了“短串”,将测序数据切分为固定长度的新型短串k-bin,k-bin比k-mer的长度更长。“新设计的模糊布鲁因图能够容忍高噪声数据,并随后对生成组装图与恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。”阮珏说。

  “一般软件组装第三代测序数据的思路是,先对测序数据进行比对纠错,再进行基因组序列的构建。”邱强说,wtdbg则直接进行基因组组装,避免了需要提前纠错的耗时步骤,直接得到一个相对可靠的组装结果。

  “组装费时费力这一问题的真正改善,正是从阮珏和李恒研发的wtdbg算法开始。”邱强说。在他们的课题组中,wtdbg算法得到了广泛使用,极大提高了工作效率。不仅如此,他们还与阮珏进行了深入沟通,对超大基因组组装进行了优化,“我们得以获取40G左右的高质量基因组序列”。

  公众参与下的技术改进

  2016年,为了让基因组测序领域可以及时使用新技术,阮珏和李恒将wtdbg研究成果免费开放。

  3年来,wtdbg不仅被几十篇学术论文引用,还被国内多家基因组测序分析公司作为主要组装分析工具,并且在2019年世界大学生超算竞赛中作为性能测试赛题。

  “我们通过邮件、GitHub网站等方式收到大量反馈,这些反馈不仅帮助我们修订算法软件中的漏洞,还带来了新的想法和思路。换个角度来讲,现在发表的论文已经经历了3年多的‘公众审稿’,感谢多年来参与和关注wtdbg开发的同行。”阮珏说。

  邱强认为,wtdbg算法不仅相对于更早的falcon、canu等算法具有效率和准确性的优势,相比此后出现的flye等组装算法也更可靠。“这一研究成果表明我国在基因组算法领域具有了引领国际的实力,也代表了我国科技发展的软实力。”(李晨)

[ 责编:蔡琳 ]
阅读剩余全文(

相关阅读

您此时的心情

新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • “世界屋脊”上的特色春运

  • 第三届冬季青年奥林匹克运动会闭幕

独家策划

推荐阅读
据悉,去年国内地震正式速报平均用时572秒,比2018年减少88秒;自动速报平均用时111秒,比2018年减少22秒;自动速报震级平均偏差0.21级,相比2018年精度提高22%。
2020-01-23 09:23
目前,关于下地幔的异常主要由地震波速表征,因此,开展俯冲洋壳在下地幔温度和压强条件下的波速特征研究具有关键意义。俯冲洋壳可以很好地解释下地幔下部的高速异常体和在整个下地幔发现的散射体。
2020-01-23 09:22
买买买,看似一个简单的行为,殊不知,在决定买这个而不是那个的过程中,大脑神经活动可能比预想得更加复杂。此前,有研究指出,“大脑前额叶皮层的神经元负责编码选择项的估值”,也就是说,人们在选择购买某物时,大脑的前额叶皮层发挥了至关重要的作用。
2020-01-23 09:22
在地球历史中,曾经发生过重大的生态系统和环境的突变,导致了多次生物大灭绝事件。利用古生物数据库重建地质历史全球生物多样性模式,揭示地球生命的演化历史,以及与环境变化之间的关系,可以为了解当前的地球生物多样性危机提供重要启示。
2020-01-23 09:20
除草剂目前在农业生产中广泛应用,但常会“误伤”农作物。近期,中科院合肥物质科学研究院吴正岩研究员课题组研制出一种防护剂,如同“植物护甲”,可通过红外线和紫外线照射切换功能,让植物“智能”地选择吸收肥料但“避开”除草剂。
2020-01-23 09:19
“在藏北的伦坡拉盆地,我们又发现了一种鲶,还没命名,正在研究。”近日,在中科院物理所咖啡馆举办的第46期科学沙龙,中科院古脊椎动物与古人类研究所所长邓涛介绍。他以“演化千万载,生命逐山高”为题,讲述了青藏高原和生物共同演化的故事。
2020-01-23 09:16
病理性心肌肥大常见于高血压,心肌病等,发病机制尚不明确,是心血管疾病尤其是心力衰竭的关键病理环节。据曾春雨介绍,这项研究提示人为增强或抑制心肌肥大相关长链非编码RNA表达或可成为心力衰竭的关键治疗手段。
2020-01-23 09:14
“对于新型冠状病毒感染的肺炎病例目前没有特效药物。”22日,在北京市卫生健康委员会召开的防范新型冠状病毒感染的肺炎科普宣教媒体沟通会上,北京中医医院呼吸科主任、主任医师王玉光介绍。
2020-01-23 09:13
22日,记者从教育部了解到,教育部于日前发出通知,要求教育系统做好新型冠状病毒感染的肺炎疫情防控工作。通知指出,各地和学校要摸清寒假期间在校学习生活的学生情况,通过多种形式开展宣传教育,做好留校学生防控工作。
2020-01-23 09:12
据英国《自然·通讯》杂志21日发表的一项环境学报告,德国科学家开展的一项分析研究显示,与人类活动造成的土壤铅污染相比,来自钙钛矿太阳能电池的铅进入部分植物体内的效率是前者的10倍。
2020-01-23 09:11
1月17日,中国农历庚子年新春佳节即将到来之际,在北京人民大会堂举行了在华工作外国专家代表新春座谈会,共庆新春佳节。戴伟刚对中国高教的学生资助体系尤为认同,他说,中国的教育补贴和助学贷款系统非常完善,这让中国青年人对国家产生了强大的向心力。
2020-01-23 09:10
据美国《新闻周刊》网站近日报道,欧洲空间局(ESA)建造了一种原型设施,旨在利用月壤模拟物制造氧气。为利用月壤制造氧气,ESA在位于荷兰的欧洲太空研究与技术中心(ESTEC)建造了氧气生产设施。
2020-01-23 09:08
继2016年在比邻星附近发现比邻星b之后,天文学家最新研究发现,这颗恒星附近可能还存在另一颗行星——比邻星c。相关研究日前发表在《科学进展》杂志上。
2020-01-23 09:07
有人60多岁时心脏依然强健,但肾脏却已开始衰竭;有人可能拥有30岁人的肾脏,却经常罹患传染病。为什么人与人之间衰老过程迥然不同?美国趣味科学网站在近日的报道中称,新研究发现人类存在四种不同的“衰老模式”:免疫、肾脏、肝脏和代谢。
2020-01-23 09:06
据美国《新闻周刊》网站近日报道,美国科学家研制出一种微型设备,能以每分钟3000亿转的惊人速度旋转,刷新了旋转速度最快物体新纪录。
2020-01-23 09:05
美国研究人员近日在《自然·癌症》杂志上发表研究报告称,他们系统地分析了数千种现有药物,发现近50种非肿瘤药物可以杀死癌细胞。研究人员表示,这些新发现不仅有助于推动将现有药物用于癌症治疗,还有助于加速新癌症药物的研发。
2020-01-23 09:04

近日,中国医学科学院发布二〇一九年度中国医学三十九项重大进展,涉及临床医学等六大领域,这些医学重大进展,件件与你我相关。

2020-01-22 16:18
记者从中国卫星海上测控部获悉,1月20日,该部所属的2艘测量船远望3号、远望7号在圆满完成3次海上测控任务后,顺利停靠码头。
2020-01-22 16:17
近日据报道,德国能源巨头意昂集团最近发布的一份研究报告显示,5G网络将大幅增加数据中心的耗电量,由此产生的废热可用于市政供暖。
2020-01-22 09:34
南开大学生命科学学院、药物化学生物学国家重点实验室教授刘林团队通过完全化学小分子的方法,成功将卵巢颗粒细胞重编程为具有生殖系转移能力的诱导性多能干细胞,进而分化为卵子,并通过正常受精获得健康小鼠。
2020-01-22 09:30
加载更多