核心提示:通过生物信息学方法来识别和研究未知基因簇。有研究人员发现一种新的酶,并利用这个新的酶作为起点发现新的含精氨酸天然产物。这项工作有助于扩大对未知代谢产物的了解,并为未来的基因组挖掘工作提供了方法和工作流程。
据估计,从目前的基因组数据库中可以预测超过100万个生物合成基因簇(BGCs),并且可以使用合成生物学方法开采天然产物。但识别和分类没有核心酶或没有与已知核心酶序列相似蛋白质的潜在BGCs仍然极具挑战性。对于未知BGCs/未知代谢物类别(统称:未知-未知),这些BGCs代表了真正的生物合成暗物质,在新结构和生物活性方面尚未得到充分探索。
传统的基因组挖掘主要集中在已知基因簇(BGC)和未知代谢产物之间的关系,利用已知的核心酶(如PKS、NRPS和萜类合酶)进行生物信息学预测。但在该研究,重点是探究未知的基因簇和未知的代谢产物,即没有可识别核心酶的BGC,其产物的结构无法预测或分类。通过排除已知的核心酶和相关辅助酶,比较同源的BGC来定义簇边界,可以识别编码潜在未知-未知产物的BGC。该研究首先利用依赖于PLP的γ-取代酶作为线索,在多种真菌菌株中发现了一个保守的ank基因簇,并利用异源重建来识别编码的代谢产物。在这项工作中,研究人员展示了利用这个工作流程来解析真菌中一类未知-未知基因簇的过程。他们发现了一种新的依赖tRNA的环肽合成酶(cylcodipeptide synthase),它能产生在这类天然产物中很少见的Arg-Xaa二肽环酮(DKP)化合物。之前,这个被标记为假设蛋白(HP)的酶与已知的细菌环肽合成酶(CDPSs)没有序列同源性,并且在真菌中广泛保守。利用这个新的核心酶作为基因组挖掘的线索,研究人员发现了新的含精氨酸的天然产物。

图1. 从A. thermomutatus中重建ank途径发现新的天然产物
首先通过对ank基因簇的生物合成重建,证明了在没有真正的核心酶的情况下,可以产生具有相当复杂结构的生物活性天然产物。通过将原代细胞代谢物(包括L-精氨酸、L-酪氨酸、L-天冬氨酸、L-蛋氨酸和柠檬酸)按顺序组合,得到最终产物1。此外,ank途径的分析揭示了一类新的依赖tRNA的RCDPS(酶-脱氢酶合酶),它们以前被注释为假设蛋白质。这个家族的成员都使用L-精氨酸作为一个氨基酸建立模块,来合成各种各样的DKP。研究首次发现依赖于氨酰-tRNA的天然产物生物合成是在2008年。自那以后,越来越多的这类酶在细菌中被发现和研究。利用氨酰-tRNA在天然产物生物合成中,模糊了一级代谢和二级代谢之间的界限,展示了自然界提高分子多样性的广泛工具。除了cRP37,含精氨酸的DKP在微生物代谢产物中明显缺失。
研究对RCDPSs和相关的含精氨酸的DKP的发现表明,自然界确实可以合成各种这样的含胍基的DKP。根据图2中所示的产物结构和系统发生关系,每个亚类都对第二个氨基酸(D、E、P、W、L和Y)具有不同的底物特异性。因此,研究其他亚类中的RCDPSs的生物合成产物应该可以发现更多含精氨酸的DKP。RCDPSs与AlphaFold结构预测的序列比对导致了关键氨基酸的识别,这些氨基酸对催化活性是必不可少的,包括AvaA中的C193、DDXXE、Y392和Y515。虽然需要完整的RCDPS结构来确定这些残基的功能,但这些氨基酸的保守性应该是挖掘额外RCDPS同源体时的一个标准。

图2 . AnkA和来自真菌的同源物为RCDPSs
许多RCDPS基因嵌入在包含许多辅助酶的BGC中。因此,RCDPS构成了真菌天然产物生物合成中的一类新的核心基因,并应该被添加到用于编目真菌BGC的生物信息学预测工具中。以ava基因簇为例,编码cRW形成的AvaA基因两侧有多样的修饰酶(图3)。在异源宿主中重组这些酶和AvaA,可以形成具有新结构基元的新天然产物,包括一个蒽醌基团和胍基N-乙酰化。

图3. A. versicolor的ava修饰酶的异源表达
研究建议在寻找具有未知代谢物类别的新型基因簇(BGCs)时,需要降低对被预测为已知骨架构建酶的开放阅读框架(ORFs)存在的重视程度,而是去寻找那些不产生可识别的一级或二级代谢物的ORF聚类。
参考文献:Genome mining for unknown–unknown natural products. https://doi.org/10.1038/s41589-022-01246-6