ProtPhage:深度学习破译噬菌体“武器库”,精准打击耐药菌!

ProtPhage:深度学习破译噬菌体“武器库”,精准打击耐药菌!

原创
来源:刘鸣
2025-06-19 09:28:29
9次浏览
分享:
收藏
核心提示:ProtPhage 利用先进的 ProtT5 蛋白语言模型和非对称损失函数,显著提升了序列多样性高且数据有限的噬菌体病毒蛋白(PVP)的识别与功能注释能力,为对抗抗生素耐药性病原体提供新利器。

相关工具

噬菌体病毒蛋白(phage viral proteinsPVPs)在噬菌体与其细菌宿主的相互作用中扮演关键角色。准确识别PVPs对理解病毒-宿主动态和开发新型抗菌策略至关重要。多年来,研究者提出了多种PVP预测与分类的计算方法,每种方法均贡献了独特的创新与方法。

1. PVP-SVM

基于支持向量机(support vector machine-basedSVM)的PVP识别工具,采用精选的136维特征描述符集和特征选择协议。在留一法交叉验证中表现出高准确率,优于使用完整特征训练的SVM模型。

2. PVPred-SCM

提出一种简洁高效的打分卡方法(simpler yet effective scoring card methodSCM),通过结合二肽组成与评分函数计算PVP倾向性分数。

3. PhANNs

基于机器学习的工具,将噬菌体开放阅读框(open reading framesORFs)分类为结构蛋白或"其他"类别。测试准确率高,为噬菌体蛋白功能注释提供可靠平台。

4. Meta-iPVP

首个PVP预测的元学习方法,整合四种机器学习算法对七类特征编码的概率信息,经遗传算法筛选后输入SVM模型。

5. VirionFinder

通过生化属性编码蛋白序列并应用深度学习,显著提升对原核病毒颗粒蛋白(完整/部分序列)的敏感性。

6. DeePVP

基于深度学习的工具,使用独热编码(one-hot)和卷积神经网络(convolutional neural networksCNN),可区分PVP/PVP并细分为10个功能类别。

7. PhaVIP

创新性地将混沌游戏表示(chaos game representationCGR)与视觉转换器模型(vision transformer modelsViT)结合,将蛋白序列编码为图像以学习局部/全局特征。在PVP分类与注释中表现卓越。

尽管上述方法各有优势,但仍存在明显局限。如独热编码(如DeePVP)易导致高维稀疏矩阵,引发"维度灾难";生化特征编码(如VirionFinder)难以全面捕捉序列信息,限制特征提取能力。

ProtPhage概览

该流程(ProtPhage)旨在识别噬菌体基因组中的病毒蛋白(PVPs)。其核心步骤为:1.序列翻译:使用工具(如Prodigal/GeneMark)识别基因组中的开放阅读框(ORF),并将其翻译成蛋白质序列。2. 特征提取:创新性地使用预训练的蛋白质语言模型ProtT5处理蛋白质序列。3. 分类与注释:使用多分类神经网络对特征向量进行分类,预测蛋白质是否为PVP及其具体功能类别(如次要衣壳蛋白),并提供功能注释。

基于序列相似性划分的基准数据集性能评估

现有PVP识别工具通常依赖序列相似性进行预测,但此类方法难以准确预测高度差异化的蛋白质。为评估模型在不同序列差异水平下的性能,本研究采用序列一致性(Identity)与覆盖度(Coverage)的乘积作为相似性指标,以控制训练集与测试集间的最大相似性。基于该指标,本研究生成了六组不同序列相似度的数据集(含二分类与多分类任务),并评估各方法性能。结果显示,ProtPhage在二分类/多分类任务中,于所有相似度水平的基准数据集上均保持最佳性能(F1分数最高);其性能波动极小,展现极强的稳定性。低相似度场景:ProtPhage与其他方法的性能差距随相似度降低显著扩大,证明其能有效捕捉传统方法无法识别的深层功能同源性(如保守结构域);特征对比实验:ProtT5嵌入(F1=0.9811)完胜传统特征(BLOSUM64:0.8669, 理化特征:0.6721),凸显蛋白质语言模型对复杂生物模式的解析能力。该实验证实:基于蛋白质语言模型(ProtT5)的嵌入表示是突破序列相似性局限的关键,为高变异蛋白的功能预测提供了新范式。

基于分类蛋白的噬菌体宿主预测应用

近年来,抗生素耐药病原体的快速涌现使噬菌体疗法成为对抗"超级细菌"的理想替代方案。因此,准确识别噬菌体的宿主对利用噬菌体治疗细菌感染至关重要。此项研究聚焦两种常见病原体:大肠杆菌Escherichia coli)和铜绿假单胞菌Pseudomonas aeruginosa)。研究者选取4种典型噬菌体全基因组数据:感染大肠杆菌:肠杆菌噬菌体P4、肠杆菌噬菌体BA14。感染铜绿假单胞菌:假单胞菌噬菌体H70、假单胞菌噬菌体vB_PaeS_PAO1_Ab30。首先,使用Prodigal工具将基因组翻译为蛋白质序列。其次,应用ProtPhage预测PVP与非PVP,并对PVP进行功能注释。随后,根据Boeckaerts方法,筛选出注释为尾丝蛋白(tail fibers)的PVP。最后,将尾丝蛋白输入Boeckaerts宿主预测模型。结果显示,该流程精准识别尾丝蛋白后,宿主预测准确率达100%

结论

整体而言,ProtPhage代表了计算噬菌体蛋白分析领域的重大突破,为噬菌体疗法开发、抗生素耐药性缓解及基础病毒学研究提供了强大工具。ProtPhage凭借ProtT5语言模型与非对称损失函数的创新融合,在PVP识别性能上实现全方位突破。随着噬菌体基因组数据量的持续增长,作者预期ProtPhage将在深化噬菌体生物学认知和加速新型抗菌剂发现中发挥关键作用。

参考文献:

1. Ou Y, Chen Q, Zhong N, Du Z. ProtPhage: a deep learning framework for phage viral protein identification and functional annotation. Brief Bioinform. 2025 May 1;26(3):bbaf285. doi: 10.1093/bib/bbaf285. PMID: 40515393; PMCID: PMC12165830.

#
微生物
#
噬菌体
  • 上一篇:针对耐药性鼠伤寒沙门氏菌的新型噬菌体疗法:食品工业的微生物污染防控新希望!
  • 下一篇:噬菌体“特工档案库”:科学家绘制大肠杆菌病毒作战图
网站声明

1、凡本网所有原始/编译文章及图片、图表的版权均属微生物安全与健康网所有,未经授权,禁止转载,如需转载,请联系取得授权后转载。

2、凡本网未注明"信息来源:(微生物安全与健康网)"的信息,均来源于网络,转载的目的在于传递更多的信息,仅供网友学习参考使用并不代表本网同意观点和对真实性负责,著作权及版权归原作者所有,转载无意侵犯版权,如有侵权,请速来函告知,我们将尽快处理。

3、转载请注明:文章转载自www.mbiosh.com

联系方式:020-87680942

评论
全部评论
热门资讯