基于短读长和长读长宏基因组的肠道病毒基因组研究进展
近年来,宏基因组组装技术在人类肠道病毒组的研究中取得了显著进展。然而,目前缺乏对不同组装工具在病毒基因组识别效率上的比较评估,尤其是在第二代测序(NGS)和第三代测序(TGS)数据上的应用。
测序数据的获取与预处理:
使用了中国人类肠道病毒组(CHGV)目录中的95个健康中国居民的粪便样本,这些样本均经过短读长和长读长测序。样本通过病毒样颗粒(VLP)富集协议处理后,提取双链DNA并分别进行Illumina HiSeq2000和PacBio RS II测序。测序数据经过Trimmomatic和pbccs软件进行预处理,去除接头和低质量碱基,并去除与人类参考基因组hg38比对的人类相关读段。
组装与病毒基因组识别:
使用12种不同的组装器对VLP测序数据进行组装,包括3种短读长组装器(IDBA-UD、MEGAHIT和metaSPAdes)、5种长读长组装器(Canu、FALCON、Hifiasm-meta、metaFlye和wtdbg2)以及4种混合组装器(IDBA-hyb、hybridSPAdes、metaViralSPAdes和OPERA-MS)。组装后的contig通过cd-hit进行去冗余处理,并使用VirSorter2、DeepVirFinder、VirFinder等病毒识别软件进行病毒contig的识别,最终将病毒contig聚类为非冗余的物种水平病毒contig,即vOTUs。
病毒基因组的分箱与质量评估:
对识别出的病毒vOTUs进行多覆盖率分箱,使用了CONCOCT、MetaBAT2、AVAMB和vRhyme四种分箱方法。使用CheckV工具对vOTUs和分箱结果的质量进行评估,包括完整性、污染程度等指标,并对高质量vOTUs进行分类注释和系统发育分析。
关键发现:
1. 在短读长、长读长和混合数据集上,MEGAHIT、metaFlye和hybridSPAdes分别表现出最佳性能,能够识别出更多、更长且质量更高的vOTUs。不同组装器之间在高质量vOTUs的识别上具有显著的互补性,联合使用多种组装器可以显著扩展高质量病毒基因组的数量。
2. 短读长和长读长数据在病毒基因组识别上具有显著差异,两者之间识别出的高质量vOTUs重叠度较低,表明数据类型对病毒基因组的恢复具有重要影响。而短读长和混合数据集之间的识别结果有较大重叠,可能是因为混合组装器在预组装阶段使用了短读长数据。
3. 四种分箱方法在病毒基因组的分箱中表现出不同的性能。AVAMB在高质量分箱的数量上表现最佳,MetaBAT2在分类注释一致性上表现最高,而vRhyme在所有评估指标上表现出较为均衡的性能。
结论:通过对95个肠道病毒样颗粒样本的短读长和长读长测序数据进行综合分析,评估了12种组装器和4种分箱方法在病毒基因组发现中的性能。研究结果表明,MEGAHIT、metaFlye和hybridSPAdes在各自的数据类型中表现出色,不同组装器和数据类型产生的vOTUs具有高度的互补性和差异性。因此,在进行肠道病毒组研究时,建议采用多种组装工具和数据类型相结合的方法,以更全面地恢复病毒基因组。此外,本研究还强调了开发专门针对肠道病毒组组装的工具的迫切需求。
参考来源:Wang H, Sun C, Li Y, et al. Complementary insights into gut viral genomes: a comparative benchmark of short-and long-read metagenomes using diverse assemblers and binners[J]. Microbiome, 2024, 12: 260.
上一篇:益生菌和噬菌体携手对抗脊髓灰质炎
下一篇:蟑螂肠道里发现了宝贝—抗菌肽
1、凡本网所有原始/编译文章及图片、图表的版权均属微生物安全与健康网所有,未经授权,禁止转载,如需转载,请联系取得授权后转载。
2、凡本网未注明"信息来源:(微生物安全与健康网)"的信息,均来源于网络,转载的目的在于传递更多的信息,仅供网友学习参考使用并不代表本网同意观点和对真实性负责,著作权及版权归原作者所有,转载无意侵犯版权,如有侵权,请速来函告知,我们将尽快处理。
3、转载请注明:文章转载自www.mbiosh.com
联系方式:020-87680942