Prueba de concepto del framework de OpenMined para modelos de Machine Learning
Supervisor(es): Yovine, Sergio
Resumen:
En la actualidad mayoritariamente los modelos de ML / AI son generados en forma centralizada debido a limitaciones sobre el acceso a los datos sensibles de diferentes fuentes por distintos motivos de protección de la privacidad. Para atacar estos dos problemas (privacidad y acceso a múltiples dataset) se propone el concepto de “Descentralización de la Información” en forma segura y con las garantías correspondientes sobre el mantenimiento tanto de la privacidad de los datos como de la calidad de los modelos. Las soluciones para esto se basan en la utilización de técnicas de Federated Learning (FL), Homomorphic Encryption (HE) y Decentralized Learning (DL). Una posible solución para abordar esta nueva forma colaborativa de trabajo es el uso del framework provisto por OpenMined para compartir data en forma anónima y poder usarla para la generación de modelos de ML sin comprometer la integridad de los resultados. Este proyecto pretende analizar y utilizar esta nueva tecnología para generar un modelo de clasificación de detección de ataques maliciosos, generando modelos para análisis de errores y comportamiento en logs de Apache Web Servers, los cuales tienen una estructura conocida pudiendo extraerse información de estos, pero que también contienen data sensible (IP, Usuario, Passwords, URI) que pueden ser usadas maliciosamente de no ser anonimizadas correctamente.
2021 | |
Agencia Nacional de Investigación e Innovación | |
Federated Learning Differential Privacy Homomorphic Encryption Ciencias Naturales y Exactas Ciencias de la Computación e Información |
|
Español | |
Agencia Nacional de Investigación e Innovación | |
REDI | |
https://hdl.handle.net/20.500.12381/462 | |
Acceso abierto | |
Reconocimiento 4.0 Internacional. (CC BY) |
Sumario: | En la actualidad mayoritariamente los modelos de ML / AI son generados en forma centralizada debido a limitaciones sobre el acceso a los datos sensibles de diferentes fuentes por distintos motivos de protección de la privacidad. Para atacar estos dos problemas (privacidad y acceso a múltiples dataset) se propone el concepto de “Descentralización de la Información” en forma segura y con las garantías correspondientes sobre el mantenimiento tanto de la privacidad de los datos como de la calidad de los modelos. Las soluciones para esto se basan en la utilización de técnicas de Federated Learning (FL), Homomorphic Encryption (HE) y Decentralized Learning (DL). Una posible solución para abordar esta nueva forma colaborativa de trabajo es el uso del framework provisto por OpenMined para compartir data en forma anónima y poder usarla para la generación de modelos de ML sin comprometer la integridad de los resultados. Este proyecto pretende analizar y utilizar esta nueva tecnología para generar un modelo de clasificación de detección de ataques maliciosos, generando modelos para análisis de errores y comportamiento en logs de Apache Web Servers, los cuales tienen una estructura conocida pudiendo extraerse información de estos, pero que también contienen data sensible (IP, Usuario, Passwords, URI) que pueden ser usadas maliciosamente de no ser anonimizadas correctamente. |
---|