Prueba de concepto del framework de OpenMined para modelos de Machine Learning

Ampuero, Pablo - Sánchez, Julio

Supervisor(es): Yovine, Sergio

Resumen:

En la actualidad mayoritariamente los modelos de ML / AI son generados en forma centralizada debido a limitaciones sobre el acceso a los datos sensibles de diferentes fuentes por distintos motivos de protección de la privacidad. Para atacar estos dos problemas (privacidad y acceso a múltiples dataset) se propone el concepto de “Descentralización de la Información” en forma segura y con las garantías correspondientes sobre el mantenimiento tanto de la privacidad de los datos como de la calidad de los modelos. Las soluciones para esto se basan en la utilización de técnicas de Federated Learning (FL), Homomorphic Encryption (HE) y Decentralized Learning (DL). Una posible solución para abordar esta nueva forma colaborativa de trabajo es el uso del framework provisto por OpenMined para compartir data en forma anónima y poder usarla para la generación de modelos de ML sin comprometer la integridad de los resultados. Este proyecto pretende analizar y utilizar esta nueva tecnología para generar un modelo de clasificación de detección de ataques maliciosos, generando modelos para análisis de errores y comportamiento en logs de Apache Web Servers, los cuales tienen una estructura conocida pudiendo extraerse información de estos, pero que también contienen data sensible (IP, Usuario, Passwords, URI) que pueden ser usadas maliciosamente de no ser anonimizadas correctamente.


Detalles Bibliográficos
2021
Agencia Nacional de Investigación e Innovación
Federated Learning
Differential Privacy
Homomorphic Encryption
Ciencias Naturales y Exactas
Ciencias de la Computación e Información
Español
Agencia Nacional de Investigación e Innovación
REDI
https://hdl.handle.net/20.500.12381/462
Acceso abierto
Reconocimiento 4.0 Internacional. (CC BY)
Resumen:
Sumario:En la actualidad mayoritariamente los modelos de ML / AI son generados en forma centralizada debido a limitaciones sobre el acceso a los datos sensibles de diferentes fuentes por distintos motivos de protección de la privacidad. Para atacar estos dos problemas (privacidad y acceso a múltiples dataset) se propone el concepto de “Descentralización de la Información” en forma segura y con las garantías correspondientes sobre el mantenimiento tanto de la privacidad de los datos como de la calidad de los modelos. Las soluciones para esto se basan en la utilización de técnicas de Federated Learning (FL), Homomorphic Encryption (HE) y Decentralized Learning (DL). Una posible solución para abordar esta nueva forma colaborativa de trabajo es el uso del framework provisto por OpenMined para compartir data en forma anónima y poder usarla para la generación de modelos de ML sin comprometer la integridad de los resultados. Este proyecto pretende analizar y utilizar esta nueva tecnología para generar un modelo de clasificación de detección de ataques maliciosos, generando modelos para análisis de errores y comportamiento en logs de Apache Web Servers, los cuales tienen una estructura conocida pudiendo extraerse información de estos, pero que también contienen data sensible (IP, Usuario, Passwords, URI) que pueden ser usadas maliciosamente de no ser anonimizadas correctamente.