Monitoreo de calidad de agua y predicción de coliformes fecales en playas de Montevideo mediante algoritmos de aprendizaje automático
Water quality prediction using machine learning algorithms in recreational beaches from Montevideo, Uruguay
Resumen:
En este trabajo se construyeron modelos de predicción de coliformes fecales (CF) para su aplicación en la gestión de calidad de agua de playas recreativas de Montevideo. Se analizó la base de datos histórica del monitoreo de CF en playas realizado por el Laboratorio de Calidad Ambiental de la Intendencia de Montevideo (IM), y se generaron modelos basados en Aprendizaje Automático (AA) para predecir excesos (CF > 2.000). Los datos abarcan 10 años de monitoreo en 21 playas de la capital (N=19359, noviembre 2009 a septiembre 2019), y presentan un amplio rango de salinidad y turbidez, con marcadas diferencias entre playas. Los CF presentaron una distribución asimétrica (mínima=4, mediana=250, media=1.047 y máxima=1.280.000) con excesos a la normativa en todas las playas. Las variables registradas in situ, meteorológicas y oceanográficas, fueron utilizadas para entrenar modelos de AA. El mejor modelo fue un bosque aleatorio estratificado con un porcentaje de acierto para los excesos del 86%. La predicción de excesos mejoró un 60% respecto al criterio actual de cierre de playas las 24 horas posteriores a precipitaciones. La generación de datos de calidad por parte de la Intendencia de Montevideo, junto con estrategias de modelización inteligente, resultan un insumo relevante para la gestión de playas recreativas.
We constructed Machine Learning (ML) models to predict faecal coliforms (FC) for water quality aid management in recreational beaches. Historical data base generated by the Laboratorio de Calidad Ambiental de la Intendencia de Montevideo (IM) was analyzed and ML models were constructed to predict FC excess (FC > 2.000). Ten years of monitoring 21 recreational beaches (N=19359, November 2009 to September 2019) presented a wide range of salinity and turbidity variability among beaches. FC showed an asymmetric distribution (min=4, median=250, average=1.047 and max=1.280.000) with values exceeding the threshold in all beaches. In situ registered, meteorological and oceanographic variables were used to train ML models. A stratified Random forests showed the best performance in the evaluated metrics with an overall accuracy of 86% and 60% of improvement in true positive rates with respect to baseline. High quality data generated by governmental institution together with modelling strategies provided a relevant framework to aid in beach and public health management.
2021 | |
Bosques aleatorios Datos desbalanceados Contaminación Playas recreativas Salud humana |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/39075 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial (CC - By-NC 4.0) |