新算法 PRISM 破解肿瘤微生物组研究争议,精准挖掘癌症宿主 - 微生物关联特征
新算法 PRISM 破解肿瘤微生物组研究争议,精准挖掘癌症宿主 - 微生物关联特征
研究背景
肿瘤微生物组是近年癌症研究热点,但领域长期深陷结论矛盾的学术争议:针对同一套 TCGA 肿瘤测序数据,不同课题组分析结论截然相反,部分研究认为检出微生物均来自试剂、环境污染,另一些研究则证实肿瘤内存在定植微生物;乳腺癌脂多糖染色、胰腺癌 16S 测序等关键试验也难以重复,核心痛点集中在假阳性、假阴性混杂。
假阴性源于样本保存、前处理缺陷与微生物参考基因组不全;假阳性诱因分为两类:一是实验环节引入的试剂、环境外源微生物污染,二是人源序列、载体基因错被分类为微生物序列,加之传统微生物分类软件(Kraken2 等)大多仅基于模拟数据集验证,缺少真实样本基准数据,全序列 BLAST 精准比对又受算力限制无法规模化落地。在低微生物丰度的实体瘤样本中,上述缺陷被进一步放大,亟需一套可从人类基因组测序数据中精准拆分真实微生物与污染信号的标准化分析工具,PRISM 应运而生。
研究内容
本研究由 Bassel Ghaddar、Martin J. Blaser、Subhajyoti De 共同牵头,整体研究分为算法搭建、多维度基准验证、两大肿瘤队列大规模落地、胰腺癌靶向关联分析、测序技术影响探究五大模块。
1.PRISM 算法模块化构建:分为六步流程,第一步用 Kraken2 初筛潜在微生物读段,参考库整合人 GRCh38、T2T 完整基因组、模式生物、载体与全微生物基因组;第二步借助 Minimap2、STAR 双重工具二次剔除残留人源序列;第三步对剩余序列亚采样后开展 BLAST 全长比对,筛除人源与模式生物错配序列;第四步基于唯一匹配序列锁定可信微生物物种,全数据集重比对注释基因;第五步提取 40 项微生物特征,通过 XGBoost 梯度提升树训练分类模型,输出 0~1 区间PRISM 评分(分值越接近 1 代表微生物真实定植概率越高);第六步分层输出物种计数、基因注释、可信微生物序列等多维度结果。
2.数据集训练与验证:整合细胞系感染数据集(CLID)、体外混合数据集、细菌分离株 WGS、宏转录组四大类共 833 份样本,囊括 416 种真实阳性菌种、1266 种污染物;后续采用 230 套独立数据集开展盲测,覆盖 16S、RNA-seq、WGS、单细胞测序全主流测序平台,设置空白阴性对照、临床致病菌阳性培养对照、CDC 参考菌株数据集三重验证体系。
3.大规模队列解析:分别解析 TCGA 25 种癌症共 2323 例全基因组测序样本、CPTAC 多癌种 2075 份 RNA 测序样本,统一采用CPM>0.5、PRISM 评分>0.1保守阈值过滤污染信号,梳理各癌种特征微生物谱。
4.胰腺癌专项关联研究:以 CPTAC 胰腺癌队列(155 例)为对象,对比有 / 无检出微生物的肿瘤样本,从糖基化修饰、基因突变、蛋白表达、患者临床信息多维度挖掘菌群关联规律。
5.测序条件影响分析:对比 polyA 富集、核糖体去除两种文库制备方式,RNA 测序与 16S 扩增子测序差异,同时评估测序中心带来的批次效应对微生物检出结果的干扰。
图1.PRISM测试与验证(A)PRISM关键步骤的流程图。(B) Kraken2 在 CLID 上的总结结果箱型图(n = 515 个样本)。(C) CLID中Kraken2鉴定微生物读段的PRISM重新分类(n=515样本)。(D) 箱形图比较了 CLID 中真实存在(TP)与污染物(C)微生物产物的香农多样性(n = 20,682个分类单元)。所有特征详见图S1,具体特征细节和公式请参见STAR方法。P值表示Wilcoxon测试;,第<页 0.0001。(E) 混淆矩阵显示PRISM模型在独立测试数据集上对污染物(C)和真实存在(TP)分类单元的表现。(F) PRISM在多个PRISM分数线下的绩效指标。(G)条形图比较五种方法在CLID上的敏感性和特异性。(H) PRISM特异性,用于从阴性对照数据集中预测污染物,使用PRISM分数阈值0.5。C,污染物;总分类单元,检测到的总分类单元数;专一,特异性。(I) 群体图比较五个物种在已知污染物(C)与真实存在(TP)时的PRISM评分。灰线标记PRISM得分=0.1。点按物种着色,并根据测序类型形状(n = 2104个数据点)。
图2. TCGA全基因组测序(WGS)中微生物的检测 (A) 使用PRISM检测的TCGA中25种癌症类型的所有肿瘤样本中,每百万人体细胞序列的微生物总计数(CPM)。GDC癌症代码请参见STAR方法(n = 2323个样本)。(B) 按每个样本的CPM对TCGA样本进行排序。x轴按每种癌症类型中样本的比例进行缩放。(C) 在TCGA中检测到的微生物分类单位的CPM和PRISM评分。每个点代表一个分类单位。颜色刻度表示相对点密度(n = 180423个数据点)。(D) 样本按检测到的分类单位数量排序的折线图,仅包括CPM>0.5且PRISM评分>0.1的分类单位(n = 2323个样本)。(E) 蜂群图显示每种癌症类型中CPM>0.5的分类单位的PRISM评分分布。颜色条表示检测到的分类单位中来自以下属的比例:大肠埃希氏菌(Escherichia)、布氏根瘤菌(Bradyrhizobium)、皮肤丙酸杆菌(Cutibacterium)、酿酒酵母(Saccharomyces)和鞘氨醇单胞菌(Sphingomonas)(n = 总计93238个分类单位)。颜色条的最大值为0.94。(F) 点图显示在TCGA中检测到的特定微生物属,条件为CPM>0.5、PRISM评分>0.1且>1个测序中心。
图3. 基于RNA-seq的CPTAC微生物检测 (A) PRISM对未比对到GRCh38的CPTAC读取的分类结果(n = 2075个样本)。箱线图显示中位数(线)、第25和第75百分位数(箱体)及1.5倍四分位距(须)。单个点表示异常值。(B) PRISM在CPTAC中检测到的每百万人体读取的总微生物计数(CPM)。(C) 群集图显示CPM>0.5的分类单位的PRISM评分分布(n = 13153个分类单位)。(D) 按每个样本检测到的分类单位数量排序的折线图(CPM>0.5且PRISM评分>0.1, n = 2075个样本)。(E) 表格显示经过PRISM评分筛选>0.1且出现在>1个样本的分类单位后,每个CPTAC样本的分类单位数量四分位数值。(F) 点图显示CPTAC中检测到的特定微生物属(CPM>0.5、PRISM评分>0.1,且来自>1个测序中心)。
图4. 胰腺癌微生物组的分子和临床关联 (A) 条形图显示在CPTAC中n = 155例胰腺癌病例中鉴定的物种的每百万人类读取数(CPM)总数。条形按检测到该物种的病例数着色。(B) CPTAC胰腺癌中检测到的最常见微生物产物的条形图。(C) 具有糖蛋白修饰基因的火山图。x轴为在可检测微生物组的肿瘤(MB; n = 62)与不可检测微生物组的肿瘤(-MB; n = 93)中平均基因修饰水平的log2倍数变化。y轴表示Wilcoxon p值。(D) 条形图显示在有可检测微生物组与无微生物组肿瘤中糖蛋白修饰显著不同(p < 1e-5)的基因的基因本体通路。(E) 胰腺癌患者肿瘤有(H, n = 62)或无(L, n = 93)可检测微生物的吸烟包年箱线图(使用RNA-seq)。箱线图显示中位数(线)、第25和第75百分位数(箱体)以及1.5xIQR(须)。点表示异常值。
研究结果
(一)算法性能领跑现有主流工具
五折交叉验证显示,PRISM 整体灵敏度 95%、特异性 97%、阳性预测值 97%、阴性预测值 94%;阴性空白样本集整体特异性 97%,阳性致病菌样本集综合灵敏度 93%,对比 Kraken2、MetaPhlAn、Metabuli、SAHMI 四款主流软件,PRISM 特异性排名第一、灵敏度位列第二,综合性能最优。即便目标菌种未收录参考数据库,算法仍可精准锚定同属近缘物种,大幅降低参考基因组缺失带来的漏检风险。
(二)不同癌种微生物定植呈现明显组织特异性
高微生物富集癌种:头颈部、胃肠道、泌尿生殖道肿瘤存在稳定可重复的固有微生物特征。结直肠癌富集脆弱拟杆菌、具核梭杆菌、中间普雷沃菌等口腔 - 肠道跨界厌氧菌;胃、食管癌富集幽门螺杆菌、弯曲杆菌等上消化道致病菌,同时检出 EB 病毒、巨细胞病毒;宫颈癌、膀胱癌高检出 HPV16 型病毒,卵巢癌样本优势菌群为乳酸杆菌。
低微生物癌种:肺癌、乳腺癌、肾癌等绝大多数样本微生物信号稀疏,超过 90% 样本每百万人源读段微生物计数低于 100,少量高丰度检出物种大多为大肠杆菌、鞘氨醇单胞菌等实验室常见污染物。
跨队列一致性:TCGA 全基因组测序、CPTAC 转录组测序两套独立队列菌群图谱高度重合,验证上述肿瘤微生物特征真实性。
(三)胰腺癌菌群实现分子与临床双向关联
155 例胰腺癌中 62 例检出稳定定植菌群,检出菌种包含大肠杆菌、幽门螺杆菌、具核梭杆菌等已知促癌微生物;微生物基因以铁转运 TonB、colbB 致毒基因、毒素抗毒素系统基因为主,提示肿瘤内细菌具备活性定植、损伤宿主 DNA 的生物学功能。分子层面:76 个糖蛋白修饰基因出现显著差异,富集胞外基质组装、蛋白酶抑制相关通路;临床层面:菌群阳性患者吸烟包年数显著更高(P=0.012),饮酒、BMI、病灶位置等其余临床指标无相关性,明确吸烟是胰腺癌菌群定植关键关联因素。
(四)测序技术显著影响微生物检出效率
核糖体去除文库(RD)微生物捕获能力远优于 polyA 富集文库(PAS);RNA 测序优先富集高丰度菌群,低丰度菌种更易在 16S 测序中检出,因此单一测序无微生物信号不能直接判定肿瘤无菌;批次效应仅对头颈癌微生物组成产生微弱影响(解释 6% 组间差异,P=0.04),其余癌种批次干扰无统计学意义。
技术优势
1.多层级除杂从源头减少假阳性:突破传统仅靠单一软件筛选局限,集成 Kraken 初筛、Minimap2+STAR 双重去宿主、BLAST 全长精准比对三层序列过滤,一次性解决人源序列错配、多映射读段、载体序列污染三大经典误差来源。
2.机器学习量化污染概率:独创 40 项多维度特征构建 XGBoost 预测模型,用 PRISM 评分量化污染概率,跳出仅依靠测序读段丰度判定微生物存在的固有误区(试验证实仅靠读段数量无法区分真假微生物,P=0.21)。
3.适配全类型测序数据:兼容 WGS、RNA-seq、16S、单细胞测序多平台,无需重新制备样本,可直接挖掘 TCGA、CPTAC 海量存量公共测序数据,大幅降低研究成本。
4.结果可溯源、分层注释:不仅输出物种清单,同步关联微生物基因、蛋白产物信息,实现从菌群组成到功能通路的一体化解析,助力后续机制研究。
结论与展望
研究落地的 PRISM 算法有效终结肿瘤微生物组数据解析的技术瓶颈,通过严谨的分层验证证实:人体肿瘤并非普遍携带微生物,仅消化道、头颈部、泌尿生殖道上皮来源肿瘤存在稳定定植菌群,其余多数癌种微量微生物信号多为实验污染;胰腺癌菌群通过调控宿主糖基化修饰参与肿瘤微环境重塑,并与患者吸烟暴露密切相关。PRISM 无需新增湿实验,盘活全球海量存量肿瘤测序资源,是衔接人类肿瘤基因组与微生物组联合分析的重要工具。目前 PRISM 无统一通用临界评分阈值、难以区分近缘高度同源菌种,后续将扩充非常规未注释微生物参考基因组,优化休眠菌株识别特征,进一步降低漏检。
原文链接:https://doi.org/10.1016/j.ccell.2026.01.007
上一篇:暂无
下一篇:一石三鸟:RCA-CHA级联放大,将真菌毒素信号放大万亿倍
1、凡本网所有原始/编译文章及图片、图表的版权均属微生物安全与健康网所有,未经授权,禁止转载,如需转载,请联系取得授权后转载。
2、凡本网未注明"信息来源:(微生物安全与健康网)"的信息,均来源于网络,转载的目的在于传递更多的信息,仅供网友学习参考使用并不代表本网同意观点和对真实性负责,著作权及版权归原作者所有,转载无意侵犯版权,如有侵权,请速来函告知,我们将尽快处理。
3、转载请注明:文章转载自www.mbiosh.com
联系方式:020-87680942



