科学家提出编码基因重建新方法 解决识别效率低且不完整难题

2016-11-30 11:01 来源:中国科学报  我有话说
2016-11-30 11:01:51来源:中国科学报作者:责任编辑:赵清建

  近日,中科院北京生命科学研究院计算基因组学实验室研究员赵方庆团队提出一种基于密码子de Bruijn图的新算法,使用非拼接策略直接对转录组测序数据进行编码基因识别和重建,解决了编码基因识别效率低且不完整的难题,该方法在非模式生物的进化基因组研究领域具有很大的应用前景。该成果已在线发表在《基因组生物学》上。

  近年来,高性能计算技术和高通量测序技术的快速发展促进了大量基因组测序计划的实施完成,从而获得了海量的生物组学数据。面对转录组数据,科学家们的首要任务是获得它们的编码基因信息。传统的基因识别工具主要依赖于RNA-seq组装软件得到的转录本进行基因鉴定。这些工具的缺点之一是组装软件对测序错误高度敏感并且不能有效处理重复序列区域,因此导致在此基础上进行基因识别会产生大量高度冗余和片段化的基因序列。此外,这些工具需要过度依赖同源基因数据库或参考基因组,不能有效地应用于非模式物种的转录组数据的基因识别。因此,一种基于转录组数据重建编码基因的新算法亟待开发。

  科研人员针对转录组数据分析中的编码基因识别问题,开发了一种基于密码子de Bruijn图的新算法inGAP-CDG。该方法不依赖于参考基因组,直接从未拼接的转录组测序数据中进行基因识别。通过使用模拟数据集和公共数据库的真实转录组测序数据,他们对预测基因的长度、灵敏度、冗余度、错误率和杂合度进行了系统性的评估。与其他方法相比,inGAP-CDG构建出的编码基因序列具有长度更长、冗余度更低和特异度更高的优势。该研究为基因识别提供了新的思路和方法,进而对此后的系统发育和功能基因组学研究具有重要的应用价值 。(柯讯)

[责任编辑:赵清建]

WAP版|触屏版

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明员工 | 光明网邮箱 | 网站地图

光明网版权所有