预测自来水中异养菌落总数超标：由培养独立数据监督的二元分类模型

原创

来源：古其会

2025-02-08 08:32:50

139次浏览

核心提示：这篇文章提出了一个由培养独立数据监督的二元分类模型，用于预测自来水中异养菌落总数(HPC)超标的情况。尽管HPC代表的细菌群落不到1%，并且存在数天的时间滞后，但HPC数据广泛用于评估饮用水的微生物质量，并被纳入饮用水标准。

摘要:

这篇文章提出了一个由培养独立数据监督的二元分类模型，用于预测自来水中异养菌落总数(HPC)超标的情况。尽管HPC代表的细菌群落不到1%，并且存在数天的时间滞后，但HPC数据广泛用于评估饮用水的微生物质量，并被纳入饮用水标准。本研究通过结合流式细胞术(FCM)、三磷酸腺苷(ATP)和游离氯数据作为输入，使用2层前馈人工神经网络(ANN)展示了HPC超标的分类。尽管HPC具有非线性，但最佳的二元分类模型显示出95%的准确率、91%的敏感性和96%的特异性。该模型提供了将新兴测量技术的数据转换为既定且易于理解的措施的能力，克服了培养依赖性，并提供了近实时数据，以帮助确保饮用水的生物稳定性和安全。

研究背景：

饮用水中的细菌生长可能导致审美、卫生和系统性失败，影响饮用水处理和分配系统。异养菌落总数(HPC)方法及其指南已被广泛用作确定饮用水微生物质量的标准达一个世纪之久。尽管HPC值没有直接的人类健康相关性，但HPC的异常变化（即数值和统计学上的变化）通常表明处理单元和分配网络的某些失败。HPC阈值用于筛选各国可接受的卫生水质（例如德国、日本和韩国）。因此，定期监测HPC水平为微生物相关事件和水质恶化提供了有用信息。尽管HPC可以成功用作细菌再生的控制措施，但水监测对于早期危险预警是有限的，因为这些程序既耗时又劳动密集，这阻碍了对潜在失败的快速响应。HPC方法需要至少2-3天的孵化期，并且只揭示历史数据；因此，这种方法延迟了对微生物恶化采取对策的实施，这是从水公用事业的角度应用这种方法的主要缺点之一。HPC与不依赖于传统实验室培养技术的培养独立方法相比，也是相对劳动密集的。诸如平板媒体、温度和实验室设置等因素也可能对HPC群落产生偏见。许多全规模水处理和分配系统已经使用了培养独立测定法，如流式细胞术(FCM)、三磷酸腺苷(ATP)和高通量测序，这些方法可以快速统计微生物的质量和数量。

实验方法：

1. HPC在自来水中的分布

样本类型：研究从10个随机选择的水龙头收集了自来水样本，包括静置水（过夜停滞）和冲洗水。HPC在静置水样本中的变化范围为0到11,526 CFU/ml，而冲洗水样本中HPC大多不可检测或低于100 CFU/ml。

超标情况：只有21%的静置水样本超过了韩国的HPC标准（小于100 CFU/ml），表明HPC超标具有地点特异性，可能与局部生物膜污染有关。

2. 培养独立数据与HPC的关系

非线性关系：研究发现HPC与培养独立数据（如完整细胞计数ICC、ATP）之间存在非线性关系。尽管如此，HPC与低核酸含量细菌（LNA）细胞计数之间存在显著的非线性相关性（Spearman rho = 0.71）。

LNA细胞的优势：在静置水样本中，LNA细胞占主导地位（占ICC的83%），表明这些细胞在氯化消毒的自来水中更具生存能力。

3. 二元分类模型的开发

模型结构：使用两层前馈人工神经网络（ANN）模型，输入变量包括ICC、LNA/HNA细胞计数、ATP和游离氯。

模型性能：最佳模型的准确率为95%，敏感性为91%，特异性为96%。LNA细胞计数和游离氯是最重要的特征。

模型优化：通过比较不同输入变量组合和网络结构，发现包含ICC和游离氯的模型表现最佳。模型的准确性和稳定性在多次重复实验中保持一致。

4. 样本量和类别不平衡问题

样本量限制：研究样本量较小（201个样本），可能导致模型过拟合。建议使用自助法（bootstrapping）生成新样本以提高模型的稳健性。

类别不平衡：HPC超标的样本较少（19%），导致模型的空模型准确率较高（82%）。建议通过过采样少数类或欠采样多数类来解决类别不平衡问题。

5. 未来应用和改进建议

新输入变量：建议未来模型中加入更多输入变量，如季节变化、停留时间等，以提高模型的预测能力。

在线监测设备：推荐使用在线流式细胞仪、ATP分析仪等设备进行实时监测，以实现对HPC超标的早期预警。

模型的普适性：建议在不同消毒剂制度（如氯胺或无消毒剂）下进一步训练模型，以提高模型的适用性。

主要结论：

尽管HPC具有非线性，但最佳的二元分类模型显示出95%的准确率、91%的敏感性和96%的特异性。完整的模型能够将新兴测量技术的数据转换为既定且易于理解的措施，克服了培养依赖性，并提供了近实时数据，以帮助确保饮用水的生物稳定性和安全。ICC和氯浓度是分类器最重要的特征。讨论了样本大小和类别不平衡等主要限制。

原文链接：https://doi.org/10.1016/j.watres.2023.120172