FunGeneTyper框架,助力食品致病菌与毒素防控
高通量 DNA 测序技术可解码大量微生物蛋白质编码基因序列。然而,将蛋白质功能准确地分配给新的基因序列仍然是一个挑战。FunGeneTyper,这是一个可扩展的框架,具有两个新的深度学习模型(即 FunTrans 和 FunRep)、结构化数据库和支持资源,以实现抗生素耐药基因 (ARG) 和毒力因子基因(VFG)的高精度和精细分类。助力食品中的毒素与致病菌的防控。
一)FunGeneTyper框架的创新之处
FunGeneTyper框架是一项集新型深度学习模型、结构化数据库和新的生物信息学工具于一体的创新性研究(图1)。该框架能够实现高度精确和细粒度的功能蛋白编码基因分类与发现。
①新型深度学习模型:FunGeneTyper框架采用了创新的深度学习模型,这些模型能够有效地从基因序列中提取出具有区分度的特征,从而实现对功能基因的准确分类。
②结构化数据库:为了提高模型的性能,研究者构建了结构化的数据库。这些数据库包含了大量经过注释的基因序列,为模型的训练和验证提供了丰富的数据支持。
③新的生物信息学工具:FunGeneTyper框架还整合了新的生物信息学工具,这些工具能够帮助研究者更好地理解基因序列的功能,进而提高功能基因的发现效率。
图1
二)FunGeneTyper框架的应用
FunGeneTyper框架在实际应用中表现出了显著的优越性。以下是该框架在几个方面的应用案例:
1)抗菌素抗性基因分类:研究者将FunGeneTyper框架应用于抗菌素抗性基因的分类。实验结果表明,该框架能够准确地将抗菌素抗性基因分为不同的类别,在防控致病菌等相关研究提供了有力支持(图2)。
图2
使用结构化抗生素耐药数据库 (SARD) 对 ARG 功能分类的 FunGeneTyper 深度学习模型的性能评估。(A) 评估用于选择负数据集的身份阈值对 ARG 分类中模型性能的影响。(B) 基于 FunGeneTyper 模型和 SARD 开发的 ARGTyper 的性能指标。(C) 所有 19 种 ARG 的分类性能,由 ARG 和非 ARG 类别的精确度和召回率表示。(D) ARGTyper 训练过程中不同层特征学习的可视化。(E) ARG 类型分类的混淆矩阵,真实(y 轴)和预测(x 轴)ARG 之间的混淆。(F) 注释错误的 ARG 蛋白序列的数量。MLS:大环内酯类、林可酰胺类和链蒿胺类。
2)功能基因发现:蛋白质序列比对 (SA) 的“暮光区”是一个长期而复杂的问题,它阻碍了蛋白质功能预测,并限制了从大部分未培养的微生物或微生物暗物质中发现功能基因。与传统的基于 SA 的工具相比,FunGeneTyper 框架的基于 DL 的模型(FunRep 和 FunTrans)具有独特的功能和内在优势,可以准确、稳健地预测蛋白质序列的远程同源物。
3)毒力因子基因的准确分类
FunGeneTyper 可以扩展为生成 VFGTyper,通过引入新的适配器来实现高度准确的 VFG 分类。两个模型实现了有效的 VFG 特征聚类和分类。除了分类性能外,我们还通过对已发表的基因组的重新分析,证明了VFGTyper在发现一种经实验证实的胡椒黄杆菌毒素家族的新型VFG方面的全部能力,该家族的序列与肉毒杆菌神经毒素相似,对食品中的毒素防治有着关键的作用。
三)FunGeneTyper框架的优势
FunGeneTyper框架在以下几个方面表现出了显著的优势:
①高度精确:FunGeneTyper框架采用了先进的深度学习模型,能够实现对功能基因的高精度分类。
②可扩展性:FunGeneTyper框架具有很好的可扩展性,可以轻松地应用于其他类型的基因序列分类与发现。
③易用性:FunGeneTyper框架提供了友好的用户界面,使研究者能够轻松地使用该框架进行基因序列分析。
关键点
①将蛋白质功能准确地分配给新的基因序列仍然具有挑战性,尤其是对于发现与已知基因序列同源性低的新型功能基因序列。
②开发了一个端到端的 FunGeneTyper 框架,这是一个创新且可扩展的基于 DL 的框架,具有新颖的模型、结构化数据库和新的生物信息学工具,用于对功能性蛋白质编码基因进行高度准确和精细的分类和发现。
③该范例和框架可用于开发新的即插即用神经网络轻量级适配器,并支持建立适配器共享社区(ASC)。
④FunGeneTyper 和 ASC 将广泛用于准确分类蛋白质功能,并从微生物暗物质中发现许多有价值的酶,从而推动微生物组、生物技术、食品安全和生物信息学等许多领域的发展。
总结
FunGeneTyper框架为微生物蛋白编码基因功能发现与分类提供了新的方法。随着该框架的进一步应用和优化,我们相信,它将为基因研究领域带来更加深远的影响。同时也对食品中的毒素以及致病菌防控起到不可或缺的作用。
参考文献:Zhang G, Wang H, Zhang Z, Zhang L, Guo G, Yang J, Yuan F, Ju F. Highly accurate classification and discovery of microbial protein-coding gene functions using FunGeneTyper: an extensible deep learning framework. Brief Bioinform. 2024 May 23;25(4):bbae319. doi: 10.1093/bib/bbae319. PMID: 39007592; PMCID: PMC11247404.
上一篇:疫苗接种:抗击抗微生物药物耐药性的新武器
下一篇:新冠感染与心血管风险之间的复杂纠葛——英国生物银行数据库的启示
1、凡本网所有原始/编译文章及图片、图表的版权均属微生物安全与健康网所有,未经授权,禁止转载,如需转载,请联系取得授权后转载。
2、凡本网未注明"信息来源:(微生物安全与健康网)"的信息,均来源于网络,转载的目的在于传递更多的信息,仅供网友学习参考使用并不代表本网同意观点和对真实性负责,著作权及版权归原作者所有,转载无意侵犯版权,如有侵权,请速来函告知,我们将尽快处理。
3、转载请注明:文章转载自www.mbiosh.com
联系方式:020-87680942