暨南大学张弓和金静洁团队开发高性能大规模测序比对算法FANSe3

来源:上海国际人类表型组研究院 发布时间:2021-02-22

2021年2月22日,《表型组学》(Phenomics)期刊在线发表了暨南大学张弓和金静洁团队题为The Ultrafast and Accurate Mapping Algorithm FANSe3: Mapping a Human Whole‑Genome Sequencing Dataset Within 30 Minutes的研究论文。该研究开发了高性能大规模测序比对的FANSe3代算法,可用于高通量计算中心和云计算设施,提供准确而快速的测序数据处理,对于二代测序分析和应用具有重要意义。

科学界和医学领域二代测序应用,都需要将测序所得的短读序列(reads)向参考基因组或参考转录组序列进行比对,这一过程称为mapping,中文译为“快速比对”、“映射”、“回帖”等,其速度和精度对于生物学意义分析至关重要,包括突变检测、基因表达量检测等。

目前,该领域常用的是基于Burrows-Wheeler Transform (BWT) 原理的BWA、Bowtie算法等。然而,速度相对较快的BWT类算法对错配的处理并不完善,往往导致假阴性和假阳性问题。为解决mapping的准确性和稳健性问题,暨南大学张弓和金静洁团队开发了FANSe系列mapping算法。该算法采用更稳健的seed-hash原理,在高达12%的错配率条件下可保证给出数学上的最优解。测试表明,FANSe算法的准确性优于BWA、Bowtie等算法,在基因组突变、转录组定量等方面几乎完全符合实验验证结果,而且可以降低测序通量需求,降低测序成本。FANSe1代速度相对较慢,而FANSe2代采用并行策略并优化索引表结构,使mapping人类基因组成为可能,速度达到同期Bowtie2水平,但并不适应高性能的众核平台且对indel运算效率较低。

为了进一步提升速度和可扩展性,张弓和金静洁团队与深圳承启生物科技有限公司共同开发了FANSe3代算法,提升了匹配速度与indel处理效率,并针对Intel Xeon E5之后的CPU环形总线/Mesh总线架构进行优化,不依赖任何专用加速芯片(如GPU、FPGA等),在人类全基因组测序数据的mapping过程中比BWA快7.5倍以上。FANSe3可在单机上半小时内mapping完人类全基因组,半分钟mapping完人类外显子组,并保持高精度,有利于突变检测等次级分析。该算法主要用于高通量计算中心和云计算设施,在常规个人电脑单机上使用时适用于小参考序列如细菌基因组等。这将有力地促进二代测序的广泛应用,包括移动医疗设备、法医鉴定和环境监测等领域。

暨南大学张弓教授为本文第一作者,张弓教授和金静洁教授为本文通讯作者。该研究获得科技部国家重点研发计划项目“医学生命组学数据质量控制关键技术研发与应用示范”的资助。

论文DOI链接:https://link.springer.com/article/10.1007/s43657-020-00008-5

近期新闻