DposFinder突破噬菌体脱聚酶预测瓶颈:可解释Transformer模型实现多糖脱聚酶与宿主荚膜血清型同步精准识别!
DposFinder突破噬菌体脱聚酶预测瓶颈:可解释Transformer模型实现多糖脱聚酶与宿主荚膜血清型同步精准识别!
细菌荚膜多糖屏障与脱聚酶挖掘困境催生智能预测新需求
细菌表面的荚膜多糖(CPS)和脂多糖(LPS)构成抵御环境压力、宿主免疫及噬菌体入侵的关键屏障。噬菌体为突破这一屏障,进化出可特异性降解多糖的多糖脱聚酶(Dpo),该酶不仅介导噬菌体吸附与侵染,更在对抗多重耐药病原菌和生物被膜方面展现出巨大潜力。然而,传统基于BLAST和HMMER的序列比对方法严重依赖已知脱聚酶序列,难以发现低相似性的新型脱聚酶;现有机器学习工具如DePP、PhageDPO、SpikeHunter和DepoScope虽有所进步,但普遍存在训练数据质量参差、模型可解释性不足、无法预测宿主荚膜血清型等瓶颈。脱聚酶的高度底物特异性意味着准确识别酶与对应宿主荚膜型同等重要,这一双重挑战极大限制了脱聚酶的大规模挖掘与临床转化。
图1. DposFinder模型概述
DposFinder模型架构:ESM-2融合Transformer的可解释深度学习框架
针对上述痛点,研究团队构建了DposFinder深度学习框架(图1)。该模型以预训练蛋白语言模型ESM-2(esm2_t33_650M_UR50D)为骨干,将输入蛋白序列转化为高维嵌入,经1D卷积层降维后,通过额外的Transformer块(8头自注意力、GELU激活、残差连接)提取脱聚酶特异性特征,最终经全连接层输出分类概率。训练数据集由384篇文献精选的实验验证脱聚酶与3373条非脱聚酶组成,经CD-HIT去冗余(序列一致性<<60%)后获得244条脱聚酶和817条非脱聚酶,按3:1划分为训练集与独立测试集。模型采用5折交叉验证优化超参数,训练时冻结ESM-2权重,使用Adam优化器与ReduceLROnPlateau学习率调度策略,确保高效稳定收敛。
注意力机制照亮β-螺旋结构域,开启宿主荚膜血清型精准预测新路径
DposFinder的核心创新在于利用自注意力权重实现生物学可解释性。对4个已解析结构的肺炎克雷伯菌脱聚酶分析显示,模型注意力高度集中于β-螺旋(β-helix)结构域——该结构域与底物结合和催化活性密切相关,而原始ESM-2末层的注意力则近乎均匀分布。基于此,研究团队开发了宿主荚膜血清型预测算法:通过滑动窗口提取注意力得分最高的350个氨基酸连续片段(与典型β-螺旋域大小一致),与已知血清型的参考脱聚酶进行Smith-Waterman比对(BLOSUM62矩阵),以归一化得分判定目标荚膜型。该方法在肺炎克雷伯菌(覆盖56种KL型)和鲍曼不动杆菌(覆盖22种K型)参考数据集上均表现出优异的型别区分度,为脱聚酶的精准应用提供了关键信息
关键发现
1、DposFinder在独立测试集上AUC达0.991、F1分数0.917,全面超越DePP、PhageDPO、SpikeHunter和DepoScope等现有脱聚酶预测工具。
2、模型注意力显著聚焦于β-螺旋结构域及催化关键残基,为脱聚酶作用机制提供可解释的结构生物学证据。
3、从441,367个噬菌体基因组中预测出107,428条推定脱聚酶,其中84.9%与已知脱聚酶相似性<<50%,73.6%被传统注释工具标记为“未知功能”。
未来展望与应用潜力
研究团队已建立开放获取的DposFinder在线预测平台与数据库(https://tool-mml.sjtu.edu.cn/DposFinder/),整合超10万条推定脱聚酶及CL4PHI宿主物种预测功能,支持蛋白序列、噬菌体基因组乃至细菌基因组级别的脱聚酶预测。未来研究可进一步整合ProstT5、SaProt等结构感知蛋白语言模型,提升预测精度与泛化性;同时需扩大参考数据集,建立覆盖更多病原菌的宿主荚膜血清型预测体系。随着噬菌体疗法从实验室走向临床,DposFinder在快速筛选匹配噬菌体、优化基因编辑电转化效率及开发抗生物被膜制剂等方面展现出广阔的产业化前景,为全球抗生素耐药性治理提供了强有力的智能计算工具。
参考来源:Shen Y, Lun H, Zhang Y, et al. DposFinder: an interpretable transformer model for predicting phage-derived polysaccharide depolymerases and their host capsular serotypes[J]. Genome Medicine, 2026. https://doi.org/10.1186/s13073-026-01657-3.
上一篇:中国新现高毒力猪流行性腹泻病毒PEDV G2c亚型:现有疫苗几乎无效,反馈免疫成最后防线
下一篇:"无血清培养基:提升间充质干细胞品质的关键"
1、凡本网所有原始/编译文章及图片、图表的版权均属微生物安全与健康网所有,未经授权,禁止转载,如需转载,请联系取得授权后转载。
2、凡本网未注明"信息来源:(微生物安全与健康网)"的信息,均来源于网络,转载的目的在于传递更多的信息,仅供网友学习参考使用并不代表本网同意观点和对真实性负责,著作权及版权归原作者所有,转载无意侵犯版权,如有侵权,请速来函告知,我们将尽快处理。
3、转载请注明:文章转载自www.mbiosh.com
联系方式:020-87680942



