Prueba de concepto del "framework" de "OpenMined" para modelos de "Machine Learning"

Ampuero Velando, Pablo - Sánchez Salvagno, Julio Faustino

Resumen:

El siguiente trabajo final tiene como objetivo analizar el “framework” provisto por “OpenMined” como solución a los problemas de privacidad y acceso a múltiples conjuntos de datos que manejan los modelos de Aprendizaje Automático (“Machine Learning”) e Inteligencia Artificial, los cuales mayoritariamente son generados en forma centralizada debido a las limitaciones mencionadas. Se propone el concepto de «Descentralización de la Información» en forma segura y con las garantías para el mantenimiento tanto de la privacidad de los datos como de la calidad de los modelos. Las soluciones se basan en el uso de técnicas de “Federated Learning” (FL), “Homomorphic Encryption” (HE) y “Decentralized Learning” (DL). Se propone utilizar el “framework” provisto por “OpenMined” para generar un modelo de clasificación de detección de ataques maliciosos creando modelos para el análisis de errores y comportamiento en “logs” de “Apache Web Servers”, ya que estos contienen información sensible. Se estudia la robustez y limitaciones de los algoritmos planteados por el “framework” en cuanto a cómo anonimizar los datos y marcos de gobernanza mediante una prueba de concepto. A partir de dicha prueba se concluye que el “framework” garantiza que no se pueden identificar registros específicos a partir de las técnicas usadas de “Homomorphic Encryption”. La funcionalidad de la creación de usuarios y de un sistema de permisos sobre los datos publicados no cuenta al momento de la entrega de este trabajo con un mecanismo firme para la gobernanza de datos. En la implementación realizada el “framework” no presenta mayor complejidad al momento de ser utilizado por el “Data Science” con respecto al modelo de referencia utilizado. Tampoco se observaron impactos negativos en la calidad de los resultados. Es un “framework” en construcción por lo que se espera continuar ampliando las funcionalidades disponibles, entre ellas el entrenamiento remoto, que está en desarrollo y la función de activación de la red, en la cual se tuvo que aplicar la unidad lineal rectificada (ReLU, por sus siglas en inglés).


Detalles Bibliográficos
2021
PROYECTOS-MD
BIG DATA
APRENDIZAJE AUTOMÁTICO
SEGURIDAD DE DATOS
SEGURIDAD INFORMÁTICA
PRIVACIDAD DIFERENCIAL
Español
Universidad ORT Uruguay
RAD
http://hdl.handle.net/20.500.11968/4502
Acceso abierto