构建机器学习新框架 精准监测预警海鲜病原微生物污染

构建机器学习新框架 精准监测预警海鲜病原微生物污染

原创
来源:李康倩
2026-05-29 17:01:50
3次浏览
分享:
收藏
核心提示:针对海鲜病原微生物污染监测中传统方法灵敏度不足、阈值静态、难以适配时空动态变化等痛点,滨州医学院与烟台市疾控中心团队联合研发双任务机器学习预测框架,基于烟台 2014-2025 年近 12 年海鲜监测数据,实现病原检出率与污染等级的精准预测,为沿海海鲜供应链风险识别与公共卫生预警提供可扩展解决方案。

研究背景

海鲜作为优质蛋白重要来源,全球消费量持续增长,但病原微生物污染引发的食源性疾病已成为重大公共卫生问题。据世界卫生组织数据,全球每年约 10% 人口受食源性疾病影响,导致 6 亿人发病、超 40 万人死亡。我国作为海鲜生产与消费大国,沿海地区副溶血性弧菌、诺如病毒、隐孢子虫等病原检出率较高,传统依赖微生物培养、PCRELISA 等监测手段,在气候波动、海洋环境变化下易出现灵敏度与特异性下降,且固定阈值标准无法适配季节、区域、生态差异带来的污染动态变化,难以实现从被动应对向主动防控转型。

现有机器学习模型在处理海鲜污染低阳性率、类别严重失衡数据时存在局限,梯度提升模型、支持向量机、k 近邻等算法单独应用均存在短板,缺乏整合时空环境特征、自适应阈值与多级风险分类的一体化框架,难以满足精准食品安全管理需求。为此,研究团队依托烟台 12 年海鲜病原监测数据,构建适配低流行场景的机器学习风险评估体系,突破传统监测与评估瓶颈。

研究内容

研究数据来源于烟台市疾控中心 2014-2024 2273 份海鲜样本,及 2025 566 份外部验证样本,覆盖鱼类、双壳类、甲壳类等 6 大类 231 个品种,采样覆盖捕捞、养殖、批发、零售、餐饮全供应链。检测涵盖甲肝病毒、诺如病毒等 4 种病毒,副溶血性弧菌、沙门氏菌等 11 种细菌,及棘颚口线虫、华支睾吸虫等 5 种寄生虫,采用分子检测、生化鉴定、形态学检查等多种方法。

研究建立双任务预测框架:任务 A 为二分类检出率预测,任务 B 为高 / / 低三级污染严重度分类;通过 LASSO 回归从 47 个候选变量筛选 14 个核心预测因子,采用 ROSE 过采样解决类别失衡问题;对比 ROSE-LASSOLightGBMXGBoostk-NNCARTSVM 六种算法性能,嵌入动态阈值优化机制,结合时空分析绘制风险热力图,最终通过 2025 年独立数据开展外部验证。

1. 研究方法和人口统计学的流程图。

2. 检测方法、区域差异、具体分析及检测方法的比较。A. 检测方法(分子、国家标准、其他)阳性率对比的箱线图。B. 总体阳性率右偏分布直方图。C-D. Tukey HSD检验结果。E-F. 区域差异及污染热点识别:经济特区、城市核心区及西海岸。G-J. 四种分析的阳性率直方图:病毒(n = 4)、寄生虫(n = 5)、微生物(n = 11)、生产商(n = 19)。

3. 微生物检测模型在 LightGBM 及优化下的多维性能可视化评估。A. ROC 曲线及最优阈值(0.157)。B. LightGBM 10 个最具影响力核心预测因子的柱状图可视化。C-D. LightGBM 阈值优化前后的混淆矩阵比较。E. 正样本与负样本预测分布中关键预测因子的概率密度映射可视化。

4. 基于XGBoost框架及优化的微生物检测模型多维性能可视化评估。A. ROCAUC及最佳阈值。B. 不同训练集比例下AUC的变化。C-D. XGBoost阈值优化前后的混淆矩阵比较。E. 精确率-召回率曲线及AUC-PR值。F. 阳性类别预测概率的密度分布。G. 不同分类阈值下性能指标的变化。

5. k-NN框架和优化下微生物检测模型的多维性能可视化评估。A. 最优kk = 1)下的ROC曲线。B. 在最优k下真实类别与预测类别之间的交叉验证混淆矩阵。C. 不同k下性能指标(精确度、召回率、F1得分、准确率)的变化。D. kAUC的关系。E. k-NN对正类预测的概率分布。F. 正类预测概率分类结果的分布。G. 按预测结果分组的预测概率密度分布。

6. CART及优化下微生物检测模型的多维性能可视化评估。A. ROC曲线及最优阈值(0.183)。B. CART10个最具影响力核心预测因子的柱状图可视化。C D. CART阈值优化前后的混淆矩阵比较。E. 精确率–召回率曲线。F. 阈值敏感性和AUC稳定性(0.938)的动态分析,以及从0.5调整到0.183以最大化实际效用的过程。

7. SVM和优化下微生物检测模型的多维性能可视化评估。A. ROCAUC及最佳阈值。B. 精确率-召回率曲线及AUC-PRC. 在不同训练样本比例下AUC值的变化。D. 在不同参数下交叉验证ROC值的变化。E. 模型预测结果的混淆矩阵。F. 阳性类别预测概率的密度分布。

研究结果

探索性分析显示,海鲜污染风险呈现显著时空异质性:夏季、沿海经济区、核心港口为污染高发区域;双壳类最易受副溶血性弧菌污染,国标检测法阳性率显著高于分子方法;年份、月份、毒力基因、检测方法、海鲜种类等为污染关键影响因素。

模型性能方面,检出率预测中LightGBM 表现最优,优化阈值 0.157 时,特异性 97.6%、阳性预测值 99.8%AUC 0.969;外部验证灵敏度 91.2%F1 分数 92.4%、阳性预测值 93.6%,泛化能力稳健。三级严重度分类中,XGBoost 优势突出,总体准确率 93.69%,高风险样本灵敏度 80.0%AUC 高达 0.989,远优于 LightGBM 39.6%,可精准识别高风险样本,满足应急处置需求。

各算法呈现差异化优势:SVM 灵敏度最高(99.2%),适合高风险场景早期预警;ROSE-LASSO 特异性达 97.2%,适用于安全产品放行;CART 模型可解释性强,便于现场快速筛查;k-NN 降低假阴性,适合初步快速检测。

技术优势

1.双任务架构突破传统局限:将检出率二分类与严重度三级分类结合,把传统二元判断升级为概率化多层级风险模型,有效缓解低流行病原数据失衡问题,平衡漏检与误报风险。

2.动态阈值替代静态标准:摒弃固定阈值,基于数据驱动优化决策边界,LightGBM 特异性提升至 97.6%SVM 灵敏度达 99.2%,适配不同场景下灵敏度与优先级需求,解决传统标准无法匹配时空动态变化的痛点。

3.多算法交叉验证与优选:系统对比六种机器学习算法,明确各模型适用场景,可根据监管需求灵活组合,兼顾预测精度、可解释性与计算效率,支撑实际部署。

4.全流程防控闭环:整合时空特征、毒力基因、检测方法等多维信息,输出风险热力图与分级预警,对接 HACCP 体系,实现从源头防控、过程监测到应急处置的闭环管理。

结论与展望

本研究成功构建适配海鲜病原低流行场景的机器学习监测与预测框架,LightGBM XGBoost 分别在检出率预测与严重度分类中实现高精度表现,为沿海海鲜供应链病原风险识别、早期预警与资源精准配置提供科学工具,推动海鲜安全监管从被动响应转向主动预防。

研究仍存在地理范围局限、病毒与寄生虫部分亚型样本量不足等问题。未来可融合宏基因组、蛋白质组等多组学数据,提升新型耐药株预测精度;推进阈值校准与国际食品法典标准接轨,适配跨境海鲜供应链风险沟通;拓展跨生态区域数据采集,提升模型泛化能力,助力构建全球协同的海鲜食品安全防控体系。

原文链接:https://doi.org/10.1016/j.ijfoodmicro.2026.111732

  • 上一篇:暂无
  • 下一篇:从叶片到结果:一体化电化学发光平台精准狙击柑橘黄龙病
网站声明

1、凡本网所有原始/编译文章及图片、图表的版权均属微生物安全与健康网所有,未经授权,禁止转载,如需转载,请联系取得授权后转载。

2、凡本网未注明"信息来源:(微生物安全与健康网)"的信息,均来源于网络,转载的目的在于传递更多的信息,仅供网友学习参考使用并不代表本网同意观点和对真实性负责,著作权及版权归原作者所有,转载无意侵犯版权,如有侵权,请速来函告知,我们将尽快处理。

3、转载请注明:文章转载自www.mbiosh.com

联系方式:020-87680942

评论
请先登录后发表评论~
发表评论
热门资讯