Cell Genomics | 最详细的蘑菇基因组精细注释信息来了

Cell Genomics | 最详细的蘑菇基因组精细注释信息来了

转载
来源:超级蘑菇
2025-09-18 17:38:14
2次浏览
分享:
收藏
核心提示:本文的信息提供了目前注释最为详细、深入的蘑菇基因组,对蘑菇的生活史、光响应和胁迫响应研究以及多细胞发育研究具有重要促进作用。

亮点

●对灰盖鬼伞蛋白编码基因进行了高质量注释

●灰盖鬼伞是目前注释最为详细深入的伞菌纲物种

●通过QuantSeq技术研究了APA位点

●利用转录组研究了灰盖鬼伞的饥饿、光诱导和分化过程

 

发表期刊:Cell Genomics

通讯作者: László G Nagy

DOI号:10.1016/j.xgen.2025.100853

 

摘要

最近大量伞菌纲的真菌基因组被测序,但是这些基因组通常并没有很好的进行基因注释。本研究通过三代测序组装了染色体水平的灰盖鬼伞的基因组,并结合三代转录组对基因进行了高质量预测,通过广泛的基因表达谱的数据对基因进行了功能注释。基因的功能注释包括对5’和3 UTR、多聚腺苷酸化位点(PASs)、上游开放阅读框(uORFs)、可变剪接异构体、微外显子等的预测和注释,以及对于碳饥饿、光照响应和菌丝分化有关的核心基因集的注释。本文的信息提供了目前注释最为详细、深入的蘑菇基因组,对蘑菇的生活史、光响应和胁迫响应研究以及多细胞发育研究具有重要促进作用。

 

 

 

灰盖鬼伞基因组分析

  • 基因组组装

将灰盖鬼伞Amut1Bmut1 #326菌株的13条染色体组装到了23scaffolds,其中15条最大的scaffold组装成了13条染色体,其中有两个染色体是由2contigs组成的。最终组装出来的CopciAB V2基因组比之前的Nanopore组装的结果要小一些,但是要比Okayama基因组以及根据二代测序组装的Amut1Bmut1的基因组要大。全基因组比较显示CopciAB V2Okayama和基于Nanopore组装的基因组的相似性分别为99.11%99.98%。对三种基因组组装版本进行结构变异分析后,发现它们之间具有高度的共线性(synteny)(图1)。CopciAB V2版的基因组的indels的数量比Nanopore版本少了10倍,SNPs的数量比Nanopore组装的基因组少了2倍。在13条染色体中的12条上,至少有一端鉴定出了端粒重复序列(telomeric repeats)。端粒重复序列的平均长度都为150 bp,含有25个完整的重复单元,序列[5'-(CCCTAA)n/(TTAGGG)n-3']

 

 

 图1 基因组组装特征

 

  • 基因注释

基因预测是整合了多种来源的信息和手动的校正,并且利用之前的灰盖鬼伞注释信息预测的模型。最终预测得到了13617个基因,14750个转录本。其中11583个基因能够在三代转录组测序数据中找到序列。BUSCO分析显示这次的注释基本上是完整的,比之前的鬼伞基因组略有提升。本次注释的CDSsexonsintrons的长度和数量都要比之前高。三代转录组可以更好的对UTRs区域进行注释,其中有12011个基因有5 UTR12130个基因有3 UTR

 

  • 微外显子

在本次注释显示有1165个基因(~9%)具有至少一个微外显子(<=15nt),其中835个基因如果没有这个微外显子会造成移码突变产生错误的终止密码子。其中有89个基因有至少1<=3 nt的微外显子(1 nt, 13 exons in 13 genes; 2 nt, 57 exons in 50 genes; 3 nt, 27 exons in 26 genes),如果去掉了微外显子会造成63个基因产生错误的终止密码子。微外显子会出现在某些特定的基因中,例如cytochrome P450

 

  • 保守结构

利用全长转录组对11483个具有5 UTR的分析发现转录起始位点前面与真核生物启动子序列(Inr)最小共有序列(C/T)(A/G)一致的模式,其中AG是转录起始位点。在TSS上游50 nt内,有20%的基因具有至少一个TATA-box-like序列(TATANN),其中1376个基因具有典型的TATA boxTATATA或者TATAAA)。典型的TATA-box序列,有83%分布在-38-31 nt的位置(-34 nt分布最多)。通过分析全长转录组中表达量最高的Top101096个)基因的AUG上游的序列,鉴定到了Kozak共有序列。在这10,890个至少含有一个剪接位点的基因模型中,所发现的剪接位点有99.8%属于GT-AGGC-AGAT-AC这三种亚型。三个终止密码子UAA, UGA, UAG的使用频率是几乎一样的。

 

  • uORFs

本研究详细的分析了5 UTR区域的uORFs。鉴定到了8704uORFs,肽段长度的中位数为19个氨基酸,平均长度为29.22个氨基酸。11483个基因中26%的基因具有uORFs。其中大部分的基因(46%)只有一个uORF。研究发现,在鬼伞(C. cinerea)基因(CopciAB_446268)的5'非翻译区(UTR)中鉴定到一个精氨酸衰减肽(arginine attenuator peptideAAP)的同源序列。这个AAP最早是在粗糙脉孢菌(Neurospora crassa)直系同源(orthologous)基因arg-25'UTR中被发现。以上结果表明,uORFs在鬼伞的5 UTR区域广泛存在而且有一些uORFs在真菌中是高度保守的。

 

 图2 预测的基因模型的特征结构

 

  • UTRs

所有的13617个基因中,88%的基因具有5 UTR区域,89%的基因具有3 UTR区域。3 UTRs的长度中位数是141 nt,是5 UTR长度中位数68 nt的两倍。三代转录组数据鉴定到了1738个基因具有重叠的UTR区域,重叠区域中位数长度为99 nt。在这些重叠中,有1,517个重叠发现于趋向汇聚基因(convergently oriented gene)对之间(+><-),而在其他方向上,这种重叠的频率则明显较低(图2C)。

 

  • 可变剪切

灵敏的测序技术能够检测到每个多外显子基因都具备可变剪切,但是这些可变剪切并不是每种类型都具备生物学功能。因此本研究中仅考虑哪些reads的数量达到了基因总长度的10%的基因异构体(gene isoforms)。根据这个标准,发现有1053个基因至少含有一个可变剪切异构体。可变剪切的频率其中保留内含子的占了67.5%,不同的3′剪切位点占了23.5%,不同的5′剪切位点占了8.2%,外显子缺失占了0.5%,第一个外显子不同占了0.2%

 

  • 可变多聚腺苷酸化

为了探究鬼伞(C. cinerea)中多聚腺苷酸化位点(PASs)的使用情况,本文研究了67种不同条件下的基因表达情况。采用了QuantSeq技术,鉴定 339,309个多聚腺苷酸化位点(PASs)。将邻近的PASs聚类成多聚腺苷酸化位点簇(PACs),获得了40,994PACs,归属于11,628个基因。其中超过80%的基因具有多个PAC,这些基因可以视为具有可变多聚腺苷酸化(APA)的基因。对于每个APA基因,将其代表性PAS具有最高读长计数的PAC,称为最佳支持PACbest-supported PAC)。

 

 图3 预测的基因模型的PACs的特征

 

了解APA基因在不同生物学条件下的PAC使用情况,本研究计算了(表达量达到每百万读长10个计数[CPM]的)APA基因在每次实验中的均匀度(图4)。结果表明,大多数基因在所有测试的生物学条件下都使用同一个表达量最高的PAC(图4C),并且对于高表达量基因而言,这种相关性非常强(图4D)。越高使用频率的PAC对应着越短的3 UTR。这表明鬼伞(C. cinerea)最常表达的是具有最短3 UTR版本的转录本。与此同时,我们没有发现PAC的使用在不同生物学条件下有显著变化,这表明在鬼伞中,APA是一个普遍存在但不影响表型的现象。

 

 图4 灰盖鬼伞中PAC的使用偏好性特征

 

  • 转录组分析

与子囊菌相比较,担子菌很多基因的功能的有效信息很少。本研究中一共对67个生物学条件下的201个样本进行了转录组测序,包括孢子形成、孢子萌发、菌丝黑暗生长、光诱导、菌丝扭结、菌核形成、子实体发育、碳饥饿等条件,以及11种胁迫条件。一共检测到了12569个差异表达基因,这表明了这67种不同的生物学过程会影响92.3%的基因的差异表达。后续的基因的功能分析全部是基于差异表达分析,结合其他真菌和生物中的同源基因来推测其功能,并没有进行基因的克隆表达,或者敲除等工作,与传统的差异表达分析一致,需要了解的可以自己阅读文献。

  • 上一篇:段木灵芝孢子粉的理化指标测定及安全性评价
  • 下一篇:学术动态 | 生命科学技术学院揭秘不同类型灵芝酸的转换
热门资讯